Маленькая, но удаленькая: DeepMind представила небольшую нейросеть для генерации текста
В основе языковых моделей лежит множество нейронных сетей, и они показывают удивительную способность машин использовать язык — но также они требуют очень большую вычислительную мощность.
Языковые модели генерируют текст, предсказывая, какие слова будут следующими в предложении или разговоре. Чем больше модель, тем больше информации о мире она может узнать в процессе обучения, что делает ее предсказания более точными. К примеру, GPT-3 имеет 175 миллиардов параметров, которые хранят данные и корректируются по мере обучения модели. Языковая модель Megatron-Turing от Microsoft имеет 530 миллиардов параметров. Однако здесь количество не всегда переходит в качество — для обучения таких больших моделей требуется огромная вычислительная мощность, что влечёт за собой расходы. .
С помощью RETRO компания DeepMind попыталась сократить расходы на обучение, не снижая при этом уровень обучаемости ИИ. Исследователи обучили модель на огромном наборе данных — на новостных статьях, страницах Википедии, книгах и даже текстах из онлайн-репозитория кода GitHub на 10 языках, включая русский.
При этом нейронная сеть RETRO имеет всего 7 миллиардов параметров, но это компенсируется базой данных, содержащей около 2 триллионов отрывков текста. Когда RETRO генерирует текст, она использует базу данных для поиска и сравнения отрывков, похожих на тот, что она пишет. Передача части памяти нейронной сети базе данных позволяет RETRO делать больше при меньших затратах. Этот подход впервые применили для большой языковой модели.
Для сравнения, DeepMind взяли языковую модель Gopher (280 миллиардов параметров) и сравнили её с RETRO (7 миллиардов параметров). Обнаружилось, что производительность RETRO соответствует производительности Gopher в большинстве задач.
Удобство такой нейронной сети также заключается в том, что базу данных можно обновлять без переобучения нейронной сети — например, получится легко удалить ложную или устаревшую информацию и добавить новую. Это крайне полезное свойство в нашем быстроменяющемся мире.
Почти каждая крупная IT-компания выпустила свою собственную языковую модель — между тем, с момента выпуска GPT-3 прошло всего два года.