Google представила новый набор ИИ-моделей Gemini
Google сообщила о создании Gemini – набора из трех языковых моделей, превосходящих конкурентов в 30 из 32 базовых тестов, сообщает Neurohive. Старшая модель Gemini Ultra доступна через API, средняя Gemini Pro будет использоваться в ряде продуктов Google, а младшая Gemini Nano предназначена для работы на мобильных устройствах.
Каждая из моделей является мультимодальной, то есть может принимать на вход текст, код, аудио, изображения и видео. Производительность Gemini Ultra превосходит предыдущие State-of-the-Art результаты в 30 из 32 тестах, используемых в исследованиях больших языковых моделей.
Gemini Ultra стала первой моделью, превзошедшей экспертов-людей в бенчмарке MMLU (Massive Multitask Language Understanding), учитывающем 57 тематик, таких как математика, физика, история, юриспруденция, медицина и этика.
Google утверждает, что Gemini может одновременно анализировать данные из сотен тысяч документов, что в будущем позволит совершить прорывы в науке и экономике. Gemini может понимать, объяснять и генерировать код на Python, Java, C++ и Go. Модель также может использоваться в качестве движка для более продвинутых систем кодирования. В частности, с помощью Gemini была создана новая версия системы генерации кода AlphaCode 2, которая может решать задачи с применением сложных математических алгоритмов и теоретической информатики.
В Bard уже используется средняя модель Gemini Pro для запросов на английском языке. Первым устройством с поддержкой Gemini Nano станет Pixel 8 Pro. В Pixel 8 Pro появятся, в частности, функции написания резюме текста и автогенерации ответов на сообщения в мессенджерах. В начале 2024-го года Gemini будет использоваться в большем количестве продуктов Google, таких как поиск, реклама, Chrome и Duet AI.
С декабря 2023 года разработчики и корпоративные клиенты могут получить доступ к Gemini Pro через Gemini API в Google AI Studio или Google Cloud Vertex AI. Разработчики Android также смогут использовать Gemini Nano через AICore, новую системную функцию, доступную на Android 14 начиная с Pixel 8 Pro.
Самое явное преимущество Gemini, как отмечают в компании, заключается в ее мультимодальности. Google не обучала отдельные модели для распознавания голоса и изображений, такие как DALL-E и Whisper от OpenAI, а с самого начала строила одну, способную воспринимать разные виды информации. И в компании обещают, что это восприятие будет только улучшаться.