Новая ИИ-модель Phi-2 от Microsoft училась по учебникам
Команда Microsoft Research выпустила набор малых языковых моделей (SLM) под названием «Phi». Первая модель с 1,3 миллиарда параметров Phi-1, достигла современной производительности при кодировании на Python. Затем команда добавила задачи на понимание языка и выпустила новую модель тоже с 1,3 миллиардами параметров под названием Phi-1.5.
Теперь команда выпустила модель с 2,7 миллиардами параметров, которая демонстрирует вполне современный уровень понимания языка. Как утверждают разработчики, модель демонстрирует производительность сравнимую с гораздо более моделями с 13 миллиардами параметров.
Компактная модель Phi-2 является хорошей площадкой для исследователей, в том числе для экспериментов по повышению безопасности и точной настройке различных задач. Уже сегодня Phi-2 доступна в каталоге моделей Azure AI Studio.
Зачем нужны малые языковые модели, если есть большие
Увеличение размера языковых моделей до сотен миллиардов параметров (таковы, например, модели OpenAI или Google) радикально изменили работу с естественным языком. Но остается вопрос: можно ли достичь сравнимых результатов при радикальном меньшем масштабе (в десятки или даже сотни раз), если использовать специализированное обучения на отобранных данных.
По этому пути пошли разработчики Phi. Им удалось показать, что SLM могут достичь производительности на уровне многих больших моделей (хотя и уступают самым масштабным).
Выводы к которым пришли разработчики:
- Решающую роль в производительности модели играет качество обучающих данных. Это известно на протяжении десятилетий, но при создании Phi-2 данные были ограничены фактически «учебниками». Разработчики буквально утверждают: «Учебники — это все, что вам нужно» . Кроме того, разработчики создали данные для обучения модели здравому смыслу и общим знаниям, включая, среди прочего, науку, повседневную деятельность и «теорию разума» (представление о том, как видит мир собеседник). Учебный корпус тщательно отбирается и фильтруются на основе образовательной ценности и качества контента.
- Нужно использовать инновационные методы масштабирования. Как утверждают разработчики новые методы позволяют «выжать» максимальный прирост из каждого добавленного параметра. Резкий прирост возможностей при добавлении всего лишь миллиарда параметров показывает, что эти методы работают.
Примеры использования
Разработчики привели два примера использования Phi-2 для решения школьных задач. В первом примере модель сама решает задачу по физике, а во втором — находит ошибку в решении.