Что такое «коллапс модели», чем он угрожает развитию ИИ и человека
Современные системы ИИ строятся на основе машинного обучения. Программисты закладывают математическую структуру, но реальный «интеллект» появляется в результате обучения системы на определенных дата-сетах..
Это не любые данные. Современным генеративным системам ИИ нужны высококачественные данные, причем в большом количестве.
Сколько надо данных
«Чтобы обучить GPT-3, OpenAI понадобилось более 650 миллиардов английских слов текста — примерно в 200 раз больше, чем вся английская Википедия. Но для этого требовалось собрать почти в 100 раз больше исходных данных из интернета и 98% которых было затем отфильтровано и отброшено», — пишет Аарон Дж. Сносвелл со ссылкой на статью, размещенную на сервере arxiv.
Чтобы получить эти данные, крупные технологические компании, такие как OpenAI, Google, Meta и Nvidia, постоянно сканируют интернет, собирая терабайты контента, чтобы «накормить» машины. Но после появления в 2022 году широкодоступных и полезных систем генеративного ИИ люди все чаще загружают и делятся контентом, частично или полностью созданным ИИ.
В 2023 году исследователи начали задумываться о том, нельзя ли обойтись для обучения только данными, созданными ИИ, вместо данных, сгенерированных человеком.
Для этого есть огромные стимулы. Контент, созданный ИИ гораздо дешевле, чем данные, созданные человеком. Кроме того, его собирание не вызывает сомнений с этической и юридической точек зрения. На него ни у кого нет авторских прав, кроме компании которая его создает.
Однако исследователи обнаружили, что без высококачественных человеческих данных системы ИИ, обученные на созданных ИИ данных, становятся все глупее и глупее, поскольку каждая модель учится на основе предыдущей. Это похоже на цифровую версию близкородственного скрещивания.
Подобное «обучение», похоже, приводит к снижению качества и разнообразия модельного поведения. Качество в данном случае означает некое сочетание полезности, безвредности и честности. Под разнообразием понимается вариативность реакций, а также то, какие культурные и социальные взгляды людей представлены в результатах работы ИИ.
Не могут ли большие технологии просто отфильтровать контент, созданный ИИ? Не всегда. Технологические компании уже тратят много времени и денег на очистку и фильтрацию данных, которые они собирают. Один из инсайдеров недавно рассказал, что они иногда отбрасывают до 90% данных, которые они первоначально собирают для обучения моделей.
Эти усилия могут стать еще более трудоемкими, поскольку необходимость в специальном удалении контента, созданного ИИ, возрастает. Но что еще более важно, в долгосрочной перспективе распознать контент, созданный ИИ, будет все сложнее и сложнее. В результате фильтрация и удаление синтетических данных превратятся в игру с убывающей (финансовой) отдачей.
В конечном итоге проведенные исследования показывают, что мы просто не можем полностью отказаться от человеческих данных. В конце концов, именно от них зависит «я» в ИИ.
Мы идем к катастрофе?
Есть намеки на то, что разработчикам уже приходится прилагать все больше усилий для получения высококачественных данных. Например, в документации, сопровождающей релиз GPT-4, говорится о беспрецедентном количестве сотрудников, занятых в работе с данными в рамках проекта.
Возможно, нам также не хватает новых человеческих данных. По некоторым оценкам, запасы текстовых данных, созданных человеком, могут быть исчерпаны уже в 2026 году.
Вероятно, именно поэтому OpenAI и другие компании стремятся наладить эксклюзивные партнерские отношения с такими промышленными гигантами, как Shutterstock, Associated Press и NewsCorp. Они владеют большими запатентованными коллекциями человеческих данных, которые не так легко найти в открытом доступе в Интернете.
Однако перспективы катастрофического краха моделей могут быть преувеличены. Большинство исследований до сих пор рассматривают случаи, когда синтетические данные заменяют человеческие. На практике данные человека и ИИ, скорее всего, будут накапливаться параллельно, что снизит вероятность краха.
В наиболее вероятном сценарии будущего для создания и публикации контента будет использоваться не одна монолитная модель, а экосистема из нескольких различных генеративных платформ ИИ. Это также повышает устойчивость к краху.
Это хороший повод для регулирующих органов поощрять здоровую конкуренцию, ограничивая монополии в секторе ИИ, и финансировать развитие технологий в интересах общества.
Реальные опасения
Есть и более тонкие риски, связанные со слишком большим количеством контента, созданного ИИ. Наплыв синтетического контента, возможно, не представляет собой экзистенциальной угрозы для прогресса в развитии ИИ, но он угрожает цифровым общественным благам — «человеческому» Интернету.
Например, исследователи обнаружили, что через год после выхода ChatGPT активность на сайте StackOverflow, посвященном программированию, снизилась на 16%. Это говорит о том, что помощь ИИ, возможно, уже снижает уровень взаимодействия между людьми в некоторых онлайн-сообществах.
Гиперпроизводство контентных ферм, управляемых ИИ, также усложняет поиск контента, который не является кликбейтом, напичканным рекламой. Становится невозможно достоверно отличить контент, созданный человеком, от контента, созданного ИИ. Одним из способов решения этой проблемы является нанесение водяных знаков или маркировка контента, созданного ИИ.
Существует и другой риск. По мере того как контент, создаваемый ИИ, становится систематически однородным, мы рискуем потерять социокультурное разнообразие, а некоторые группы людей могут даже столкнуться с культурным исчезновением.
Человеческое взаимодействие и человеческие данные очень важны, и мы должны их защищать. И ради нас самих, и ради возможного «коллапса модели».