Сможет ли ИИ написать «Войну и мир-2»

Архитектура, разработанная T-Bank AI Research, делает шаг к решению такой масштабной задачи, как эффективная обработка очень длинных контекстов. Добиться такого серьезного продвижения удалось с помощью построения гибридной модели ИИ.
Сможет ли ИИ написать «Войну и мир-2»
Толстой-ИИ. Midjourney
Революции ИИ продолжается. Но, кажется, время восторгов и безудержного хайпа проходит. Стали видны проблемы. Одна из них — это энергоэффективность. На ИИ работают целые мощные электростанции, а потребности только растут. И не видно, чтобы они стали снижаться. Но есть и другой момент. Уже возникла необходимость ставить ИИ-модели максимально близко к пользователю — и на компьютеры, и на смартфоны. Мощности этих устройств никогда не приблизятся к дата-центрам. А значит надо наращивать эффективность работы самих моделей, и здесь нужны новые решения.

Пока публика рисует картинки и развлекается разговорами с чат-ботами происходит глубокая внутренняя перестройка ИИ-моделей. Революция ИИ во многом началась не в тот момент, когда Microsoft в 2019 году выделила миллиард на развитие OpenAI и ее линейку GPT и дала компании доступ к своим дата-центрам.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Революция началась раньше: когда в 2017 году группа ученых опубликовала статью «Внимание — это все что нужно» («Attention Is All You Need»). После этого и появилась возможность развития с позиции силы: ученые открыли дорогу, по которой можно двигаться, бизнес оценил перспективу и включился по полной. Но не все решается «грубой силой» — простым наращиванием вычислительной мощности. Идеи, которые придумывают люди, все-таки важнее.

В этой статье 2017 года исследователи описали архитектуру трансформера и заявили, что нужен только механизм «внимания», а другие подходы, — рекуррентные и сверточные сети — «не нужны». Трансформер победил. Но исследователи и создатели ИИ, конечно, не забыли ни о рекуррентных, ни о сверточных сетях. Эти архитектуры тоже развивались хотя не и так громко, как трансформер.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Одна из рекуррентных архитектур называется SSM (State Space Models). Она выросла из глубоких идей теории управления и у нее есть, что предъявить. Одно из главных ее преимуществ — это эффективность. Но есть и другие.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Трансформер против SSM

Давайте представим два ящика. Один с широким входом (мы можем заложить в него целую строчку сразу), а другой — с очень узким, в который мы можем подавать только символ за символом. Первый — это Трансформер, а второй — SSM.

У нас есть длинная лента текста, и нам надо ее пропустить через ящики. Чтобы вместить эту ленту в первый ящик, мы можем ее резать и подавать один за другим, большими кусками во всю ширину входа. Ящик будет эти куски «поедать». В нем будет много всего происходить, он съеденные куски будет «переваривать» и меняться сам, то есть обучаться.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Чтобы отправить ленту во второй ящик нам ее резать не надо, мы просто попадем символ за символ. Это медленно, но зато лента может быть непрерывной и очень длинной. Этот второй ящик тоже будет на нашем тексте обучаться, хотя и не так, как Трансформер.

Это очень грубая схема, которая просто подчеркивает разницу подходов. На самом деле, у SSM есть возможность обучаться на длинных лентах. Если бы в реальности нам всегда приходилось «кормить» SSM символ за символов, использовать архитектуру было бы сложно.

Когда Трансформер уже обучен, его можно о чем-то подробно расспросить. И он будет работать с контекстом, который вы вводите. Трансформер сразу видит все контекстное окно и может легко ассоциировать разные фрагменты текста друг с другом. Начинается разговор, который он должен помнить целиком, и Трансформер это умеет.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Особенности организации памяти SSM не позволяют ему так же легко схватывать весь контекст, как Трансформеру. Если бы SSM хорошо и быстро работал с контекстом, он бы с Трансформером успешно конкурировал, потому что он эффективнее и в энергетическом, и прямо вычислительном смыслах.

Объем вычислений Трансформера растет квадратично в зависимости от длины входной последовательности, а у SSM — линейно. Парабола Y=X^2 (синяя) пересекает прямую Y=X (желтые) и растет при увеличении X гораздо быстрее, чем прямая. 
Объем вычислений Трансформера растет квадратично в зависимости от длины входной последовательности, а у SSM — линейно. Парабола Y=X^2 (синяя) пересекает прямую Y=X (желтые) и растет при увеличении X гораздо быстрее, чем прямая.
Wolfram Alpha
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Если у нас есть эффективная система, использовать ее просто необходимо. Но хорошо бы при этом ничего не потерять. Сегодня развитие ИИ идет по пути «перекрестного опыления» — разные архитектуры адаптируют идеи друг друга и возникают гибридные модели.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Гибридные модели

Результаты по набору данных MQAR (Multi-Query Associative Recall),  разработанному для измерения возможностей контекстного обучения архитектуры (Arora и др., 2024, arXiv:2402.18668). ReBased превосходит все эффективные модели по возможностям контекстного обучения
Результаты по набору данных MQAR (Multi-Query Associative Recall), разработанному для измерения возможностей контекстного обучения архитектуры (Arora и др., 2024, arXiv:2402.18668). ReBased превосходит все эффективные модели по возможностям контекстного обучения
Пресс-релиз T-Bank AI Research

Модель Based, представленная учеными Стэнфорда в декабре 2023 года, это так называемый линейный трансформер, в котором сделана попытка повысить эффективность и не потерять гибкость в работе с контекстом. Модель лучше чем SSM находит в пользовательском контексте ассоциативные связи (например, описание человека — его имя). Это важный шаг.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Следующий шаг сделали ученые T-Bank AI Research, разработавшие модель ReBased. Они залезли к модели под капот и там, как следует поработали. Главное, они ускорили и уточнили ассоциативный поиск.

Важное преимущество SSM — это способность моделировать очень длинные тексты. Но для того, чтобы написать «Войну и мир-2» нужен механизм быстрого ассоциативного поиска по последовательности такой же или даже большей длины, чем у великого романа. Чистый трансформер с такой задачей, справится, но он будет работать медленно, а вот новые (гибридные) версии, у которых будут и слои, трансформера, и слои SSM — могут все сильно ускорить. .

Конечно, чтобы новый роман приблизился к классическим шедеврам одного умения работать с очень длинными последовательностями недостаточно, нужно еще много-много всего Но важный шаг сделан. Вырастет ли из модели ReBased, разработанной учеными T-Bank AI Research, Толстой-ИИ, мы еще узнаем.