Сможет ли ИИ написать «Войну и мир-2»
Пока публика рисует картинки и развлекается разговорами с чат-ботами происходит глубокая внутренняя перестройка ИИ-моделей. Революция ИИ во многом началась не в тот момент, когда Microsoft в 2019 году выделила миллиард на развитие OpenAI и ее линейку GPT и дала компании доступ к своим дата-центрам.
Революция началась раньше: когда в 2017 году группа ученых опубликовала статью «Внимание — это все что нужно» («Attention Is All You Need»). После этого и появилась возможность развития с позиции силы: ученые открыли дорогу, по которой можно двигаться, бизнес оценил перспективу и включился по полной. Но не все решается «грубой силой» — простым наращиванием вычислительной мощности. Идеи, которые придумывают люди, все-таки важнее.
В этой статье 2017 года исследователи описали архитектуру трансформера и заявили, что нужен только механизм «внимания», а другие подходы, — рекуррентные и сверточные сети — «не нужны». Трансформер победил. Но исследователи и создатели ИИ, конечно, не забыли ни о рекуррентных, ни о сверточных сетях. Эти архитектуры тоже развивались хотя не и так громко, как трансформер.
Одна из рекуррентных архитектур называется SSM (State Space Models). Она выросла из глубоких идей теории управления и у нее есть, что предъявить. Одно из главных ее преимуществ — это эффективность. Но есть и другие.
Трансформер против SSM
Давайте представим два ящика. Один с широким входом (мы можем заложить в него целую строчку сразу), а другой — с очень узким, в который мы можем подавать только символ за символом. Первый — это Трансформер, а второй — SSM.
У нас есть длинная лента текста, и нам надо ее пропустить через ящики. Чтобы вместить эту ленту в первый ящик, мы можем ее резать и подавать один за другим, большими кусками во всю ширину входа. Ящик будет эти куски «поедать». В нем будет много всего происходить, он съеденные куски будет «переваривать» и меняться сам, то есть обучаться.
Чтобы отправить ленту во второй ящик нам ее резать не надо, мы просто попадем символ за символ. Это медленно, но зато лента может быть непрерывной и очень длинной. Этот второй ящик тоже будет на нашем тексте обучаться, хотя и не так, как Трансформер.
Это очень грубая схема, которая просто подчеркивает разницу подходов. На самом деле, у SSM есть возможность обучаться на длинных лентах. Если бы в реальности нам всегда приходилось «кормить» SSM символ за символов, использовать архитектуру было бы сложно.
Когда Трансформер уже обучен, его можно о чем-то подробно расспросить. И он будет работать с контекстом, который вы вводите. Трансформер сразу видит все контекстное окно и может легко ассоциировать разные фрагменты текста друг с другом. Начинается разговор, который он должен помнить целиком, и Трансформер это умеет.
Особенности организации памяти SSM не позволяют ему так же легко схватывать весь контекст, как Трансформеру. Если бы SSM хорошо и быстро работал с контекстом, он бы с Трансформером успешно конкурировал, потому что он эффективнее и в энергетическом, и прямо вычислительном смыслах.
Если у нас есть эффективная система, использовать ее просто необходимо. Но хорошо бы при этом ничего не потерять. Сегодня развитие ИИ идет по пути «перекрестного опыления» — разные архитектуры адаптируют идеи друг друга и возникают гибридные модели.
Гибридные модели
Модель Based, представленная учеными Стэнфорда в декабре 2023 года, это так называемый линейный трансформер, в котором сделана попытка повысить эффективность и не потерять гибкость в работе с контекстом. Модель лучше чем SSM находит в пользовательском контексте ассоциативные связи (например, описание человека — его имя). Это важный шаг.
Следующий шаг сделали ученые T-Bank AI Research, разработавшие модель ReBased. Они залезли к модели под капот и там, как следует поработали. Главное, они ускорили и уточнили ассоциативный поиск.
Важное преимущество SSM — это способность моделировать очень длинные тексты. Но для того, чтобы написать «Войну и мир-2» нужен механизм быстрого ассоциативного поиска по последовательности такой же или даже большей длины, чем у великого романа. Чистый трансформер с такой задачей, справится, но он будет работать медленно, а вот новые (гибридные) версии, у которых будут и слои, трансформера, и слои SSM — могут все сильно ускорить. .
Конечно, чтобы новый роман приблизился к классическим шедеврам одного умения работать с очень длинными последовательностями недостаточно, нужно еще много-много всего Но важный шаг сделан. Вырастет ли из модели ReBased, разработанной учеными T-Bank AI Research, Толстой-ИИ, мы еще узнаем.