09.06.2024, 18:13

К 2032 году у человечества закончатся слова для обучения искусственного интеллекта

Исследователи группы Epoch пришли к выводу, что при сегодняшнем росте вычислительных мощностей больших языковых моделей искусственного интеллекта к началу следующего десятилетия закончится публичный контент, созданный человеком. Это приведет к замедлению роста ИИ-моделей и изменению стратегии их обучения.

Владимир Губайловский

Теги:

Искусственный интеллект

Нейросети

Нейронауки

К 2032 году у человечества закончатся слова для обучения искусственного интеллекта

Хороший аппетит. Такого не прокормишь. DALLE-3

Люди пишут медленно и мало. ИИ-модели используют для обучения триллионы слов. ИИ-модели растут очень быстро, и такой ресурс, как контент созданный человеком скоро закончится. А вот учиться у самого себя ИИ пока не умеет.

Исследование, опубликованное научной группой Epoch AI, показало, что технологические компании скоро исчерпают запас общедоступных данных для обучения больших языковых моделей, таких так GPT. Это случится между 2026 и 2032 годами.

При сохранении сегодняшних темпов роста мощности вычислений и объеме моделей LLM столкнутся с трудной проблемой: важнейший источник обучения — тексты, созданные людьми, будет исчерпан.

На чем будет учиться ИИ, когда у человека закончатся слова

Что будут делать разработчики ИИ? Выбор не очень большой. Это — конфиденциальные данные, такие как электронная переписка и телефонные разговоры, и «синтетические данные», которые системы ИИ генерируют сами.

Проблемы, связанные с персональной информацией, очевидны. На сегодня мало кто готов предоставить свои письма и сообщения для обучения ИИ. Синтетические данные — это более перспективное направление. Но и у него есть проблемы. Непонятно, чему будет учиться ИИ на собственных данных. Возможно, произойдет так называемый «коллапс модели», при котором ИИ будет повторять и усиливать собственные ошибки и предубеждения.

Согласно исследованию Epoch, объем текстовых данных, используемых языковыми моделями, растет примерно в 2,5 раза в год, а объем вычислений — примерно в 4 раза в год. Так, самая большая версия LLM Llama 3, обучена на 15 триллионах токенов, каждый из которых это слово или часть слова.

Системы искусственного интеллекта, такие как ChatGPT, поглощают все большие человеческого контента, который им нужен, чтобы стать умнее.

AP Digital Embed

Николас Паперно, доцент кафедры компьютерной инженерии в Университете Торонтоне, не принимавший участия в работе, считает, что существует другой путь: не обязательно агрессивно наращивать объемы и мощности, а можно разрабатывать специализированные системы.

Но сегодня ситуация выглядит несколько иначе. Сначала обучают огромную модель, например, Llama 3, а потом ее специализируют на определенном домене данных. Пока получается неплохо, но можно ли сразу обучать специализированную модель на ограниченных ресурсах — неясно.

Драгоценные слова

Если контент, созданный человеком, останется важнейшим источником данных ИИ, те, кто управляет «качественными данными», такими как Reddit и Wikipedia, новостными и книжными сайтами — станут обладатели настоящих сокровищ.

Селена Декельманн, директор по продуктам и технологиям Фонда Викимедиа говорит: «Сейчас возникает интересная проблема: мы ведем разговоры о "природных ресурсах", то есть о данных, созданных человеком. Пока это шутка, но это удивительно». Пока Википедия не накладывает почти никаких ограничений на использование ее контента для обучения ИИ.

Что говорит Сэм Альтман

Сэм Альтман, OpenAI

Генеральный директор компании OpenAI, разработчика ChatGPT, Сэм Альтман сказал в ООН в прошлом месяце, что компания уже экспериментировала с «генерацией большого количества синтетических данных» для обучения.

Альтман сказал: «Я думаю, что всем нужны высококачественные данные. Есть синтетические данные низкого качества. Есть человеческие данные низкого качества», Но он также выразил сомнения по поводу того, что для улучшения моделей ИИ стоит полагаться только на синтетические данные: «Было бы что-то очень странно, если бы лучший способ обучения модели состоял в том, чтобы просто сгенерировать квадриллион токенов синтетических данных и загрузить их обратно. Почему-то это кажется неэффективным».