Ученые-волонтеры создали бесплатную языковую модель ИИ. Она не слабее, чем модели Google
Международная команда, состоящая 1000 ученых-волонтеров разработала и обучила языковую модель BLOOM. Обучение проходило за счет государственных вычислительных ресурсов и стоило $7 миллионов. Команда получила название BigScience. Первая версию модели запущена 17 июня.
Модели, которые распознают и генерируют языковые сообщения и умеют поддерживать диалог с пользователем, все чаще используются крупными технологическими фирмами в самых разных приложениях от чат-ботов до переводчиков. Иногда диалог звучит настолько «по-человечески», что становится жутковато. Инженер Google в этом месяце заявил, что модель ИИ, разработанная его компанией - разумна (Правда, Google категорически отрицает, что ИИ обладает разумом). Но многие подобные модели страдают от серьезных практических и этических недостатков: они имитируют человеческие предубеждения. (О расистских и сексистских наклонностях языковой модели CLIP мы писали). С такими моделями трудно договориться, потому что внутренняя работа большинства из них ведется корпорациями и закрыта для внешних исследователей.
BLOOM будет открыт: и его обучающие массивы, и исходный код программ.
Уже намечен целый ряд исследований, в которых BLOOM будет участвовать: это и извлечение информации из переписки купцов эпохи Возрождения, и создание классификаций в биологии.
Обучающиеся машины
Большие языковые модели — это алгоритмы, которые изучают статистические связи между миллиардами слов и фраз для выполнения таких задач, как создание резюме, перевод, ответы на вопросы и классификация текста. Построенные с использованием нейронных сетей, модели обучаются, шаг за шагом корректируя значения параметров: берется текст, из него выбрасывается часть слов, и модели предлагают заполнить пробелы. Постепенно модель восстанавливает вычеркнутые слова все точнее, меняет параметры и таким образом учится. BLOOM имеет 176 миллиардов параметров, наравне с GPT-3, одной из самых известных таких моделей, которая была создана некоммерческой фирмой OpenAI и лицензирована Microsoft. (Обучение GPT-3 и оплатила Microsoft — первый этап стоил $4 миллиона)
Существующие модели могут пропагандировать жестокое обращение, призывать к насилию и повторять расистские или сексистские высказывания, которые встречаются в написанных человеком текстах. Вот этого недостатка разработчики BLOOM постарались избежать.
Подобранный вручную текст
Большинство моделей прямо загружают текст из интернета, включая такие сайты, как Reddit. Вместо этого исследователи BigScience вручную отобрали почти две трети обучающего набора данных из 341 миллиарда слов из 500 источников. Среди них был Semantic Scholar - поисковая система с поддержкой ИИ для академических публикаций. Используя в основном избранные источники, команда надеется улучшить свою модель. Кроме того, поскольку код и набор данных, лежащих в основе BLOOM, являются открытыми, любой исследователь может попытаться понять причины неадекватного поведения модели и предложить улучшения.
Возможно, модель будет работать немного хуже, чем другие большие модели на английском языке, учитывая меньший объем именно английских текстов, но это должно быть компенсировано более высокой производительностью при работе с другими языками. BLOOM сразу анонсируются, как мульти языковая модель.
Бесплатно, но не все
Полностью обученная модель BLOOM будет доступна для бесплатного свободного скачивания исследователям, которые хотят поэкспериментировать с ней или обучить ее на новых данных для конкретных приложений. Но поскольку это доступно очень небольшому количеству исследовательских групп (слишком велики необходимые вычислительные мощности), BigScience также будет публиковать менее требовательные к оборудованию версии, и создаст распределенную систему, которая позволит лабораториям совместно использовать модель на своих серверах. Кроме того, будет выпушено веб-приложение, которое позволит любому пользователю запрашивать BLOOM, не загружая его. BLOOM — это, безусловно огромный шаг к более свободному использованию языковых моделей.
Разработка и обучение языковых моделей стоит миллионы долларов. До сих этим занимались только IT-гиганты. Теперь их монополия нарушена