​​​​​​​Если ИИ обучается на данных сгенерированных ИИ, он выдает бессмыслицу

Исследование ученых Оксфордского и Кембриджского университетов показало, что обучение моделей искусственного интеллекта (ИИ) на текстах, сгенерированных ИИ, быстро приводит к тому, что модели начинают выдавать полную бессмыслицу. Это явление называется «коллапс модели». Оно может остановить совершенствование больших языковых моделей (LLM), поскольку у этих моделей заканчиваются данные, созданные человеком, и все больше текстов, сгенерированных ИИ, проникают в интернет.
​​​​​​​Если ИИ обучается на данных сгенерированных ИИ, он выдает бессмыслицу
Все более искаженные изображения, созданные моделью искусственного интеллекта, которая обучена на данных, сгенерированных предыдущей версией модели. M. Boháček & H. Farid/arXiv (CC BY 4.0)
Кажется, для развитии ИИ действительно необходим человек, иначе ИИ-модели не могут развиваться.

Исследование ученых Оксфордского и Кембриджского университетов показало, что обучение моделей искусственного интеллекта (ИИ) на текстах, сгенерированных ИИ, быстро приводит к тому, что модели начинают выдавать полную бессмыслицу. Это явление называется «коллапс модели». Оно может остановить совершенствование больших языковых моделей (LLM), поскольку у этих моделей заканчиваются данные, созданные человеком, и все больше текстов, сгенерированных ИИ, проникают в интернет.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Работа опубликована в журнале Nature.

«Мы должны быть очень осторожны с тем, что попадает в наши данные при обучении ИИ», — говорит соавтор работы Захар Шумайлов, исследователь ИИ из Кембриджского университета, Великобритания. В противном случае «все пойдет не так».

Команда показала, что проблема коллапса модели, скорее всего, универсальна. Она затрагивает все типы языковых моделей, которые используют неконтролируемые данные, генераторы изображений и другие виды ИИ.

Исследователи начали с использования LLM для создания записей, подобных Википедии. Затем обучили новые итерации модели на тексте, созданном ее предшественником. Информация, сгенерированная ИИ — известная как синтетические данные — загрязняла обучающий набор. Выходные данные модели постепенно теряли смысл. Девятая итерация модели завершила статью в стиле Википедии об английских колокольнях «размышлением» о многоцветности хвостов у зайцев.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Исследование показало, что даже до полного коллапса модели обучение на текстах, полученных с помощью ИИ, заставило модель забыть информацию, упоминавшуюся редко и выходные данные стали более однотипными.

Каждый есть то, что он ест

На 9-м поколении ИИ начал выдавать полную бессмыслицу
На 9-м поколении ИИ начал выдавать полную бессмыслицу
https://www.nature.com/articles/s41586-024-07566-y

Языковые модели работают, создавая ассоциации между токенами — словами или частями слов — в огромных объемах текста, часто взятых из Интернета. Они генерируют текст, выдавая статистически наиболее вероятное следующее слово на основе полученных шаблонов.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Исследователи взяли первичную модель LLM и дообучили ее с использованием набора данных на основе записей Википедии. Затем они попросили полученную вторичную модель сгенерировать собственные статьи в стиле Википедии. Чтобы обучить следующее поколение модели, они начали с той же первичной LLM, но дообучили ее на статьях, созданных вторичной моделью, а не людьми.

Ученые оценивали производительность каждой модели с помощью такого теста: модели давали вступительный абзац и просили ее предсказать следующие несколько предложений, а затем сравнивали ее результат с результатом модели, обученной на реальных данных. Команда ожидала появления ошибок, говорит Шумайлов, но была удивлена, увидев, «насколько быстро все пошло не так».

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Коллапс происходит, потому что каждая модель обязательно делает выборку только из тех данных, на которых она обучалась. Это означает, что слова, которые были редкими в исходных данных, с меньшей вероятностью будут воспроизведены, а вероятность повторения распространенных слов увеличивается. Полный коллапс в конечном итоге происходит, потому что каждая модель учится не на реальных данных, а на предсказании предыдущей моделью, при этом ошибки усиливаются с каждой итерацией. «Со временем эти ошибки накладываются друг на друга, и модель в основном учится только на ошибках», — говорит Шумайлов.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Эта проблема аналогична инбридингу внутри вида, говорит Хани Фарид, компьютерный ученый из Калифорнийского университета в Беркли. «Если вид скрещивается со своим собственным потомством и не диверсифицирует свой генофонд, это может привести к вымиранию», — говорит Фарид, чья работа продемонстрировала тот же эффект в моделях изображений, создавая жуткие искажения реальности.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Проблемы синтетических данных

Если ИИ будет учиться только на данных ИИ, он никогда не узнает сколько у человека пальцев
Если ИИ будет учиться только на данных ИИ, он никогда не узнает сколько у человека пальцев
Соцсети

Коллапс модели не означает, что LLM перестанут работать, но стоимость их создания резко возрастет, говорит Шумайлов.

Должна измениться стратегия обучения. Джулия Кемпе из Университета Нью-Йорка говорит, что по мере накопления синтетических данных в сети большое количество данных перестанет быть гарантией хорошего обучения ИИ, потому что данные уже не будут достаточно богатыми и разнообразными.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Вопрос в том, сколько синтетических данных используется в обучении. Когда Шумайлов и его команда обучали модель на 10% реальных данных и 90% синтетических наступление коллапса происходило медленнее. Другой подход предложил Маттиас Герстграссер, исследователь ИИ в Стэнфордском университете. Исследование команды Герстграссера показало, что когда синтетические данные не заменяют реальные данные, а накапливаются вместе с ними, катастрофический коллапс модели маловероятен. Есть и еще один момент: возможно, коллапс не произойдет (или замедлится), если модель обучается на данных, созданных другим ИИ, и модель уже не будет обучаться на своих собственных данных.

Но все исследователи согласны с тем, что лучшие данные — это данные созданные человеком. Разработчикам, возможно, придется найти способы, такие как нанесение водяных знаков, чтобы отделить данные, созданные ИИ, от реальных данных. Но все понимают, что это потребует беспрецедентной координации крупных технологических компаний, говорит Шумайлов.

Обществу придется найти стимулы для людей продолжать создавать контент, а не полагаться только на генеративные ИИ.