11.12.2024, 10:33

Представлены новые открытые большие языковые модели на русском языке

Группа «Т-Технологии» представила две большие языковые модели: T-Pro на 32 млрд параметров и обновленной T-Lite на 7 млрд параметров. Многочисленные индустриальные бенчмарки, такие как MERA, ruMMLU, Ru Arena Hard, MT Bench и AlpacaEval, показали, что это лучшие в мире открытые LLM на русском языке.

Екатерина Николаева

Редактор сайта TechInsider.ru

Теги:

Технологии

Искусственный интеллект

Представлены новые открытые большие языковые модели на русском языке

Freepik

T-Lite и T-Pro входят в Gen-T — семейство специализированных языковых моделей, разработанных компанией «Т-Технологии». Все они нацелены на решение конкретных узкоспециализированных задач.

Доступ для всех

Большие языковые модели (LLM) уже стали неотъемлемой частью разработки систем искусственного интеллекта. Они представляют собой сложные алгоритмы, которые обучаются на огромных массивах текстов с целью научиться понимать и генерировать человеческий язык, — это одна из главных причин, почему LLM являются особенно полезным инструментом для крупных компаний. А теперь им еще и можно будет пользоваться совершенно бесплатно.

Свободный доступ позволяет всем компаниям без ограничений применять модели для оптимизации внутренних бизнес-задач и создания инновационных продуктов с помощью LLM. Раньше такая возможность была только у крупных корпораций, которые либо вкладывали огромные средства в разработку моделей с нуля, либо платили высокие комиссии за использование закрытых моделей.

С их помощью можно, например, разработать интеллектуальных чат-ботов для поддержки пользователей, которые будут общаться с клиентами более естественно, не следуя заранее подготовленным сценариям, а создавая впечатление живого диалога. Это позволит частично или полностью автоматизировать процесс обработки запросов клиентов.

Freepik

Для разработки моделей применялся метод непрерывного предварительного обучения (Continual Pretraining): уже обученную на большом объеме данных модель продолжали обучать на материалах, связанных с конкретной задачей или областью, и адаптировали ее для использования на русском языке.

«При нашем объеме бизнеса (более 46 млн клиентов и 90 тысяч сотрудников) возникают задачи такого уровня сложности, для которого подходят только собственные технологии. Так мы начали развивать Gen-T — семейство специализированных языковых моделей. Убедившись в их эффективности, мы решили поделиться нашими моделями со всей индустрией. Так наш опыт смогут перенять другие компании, а использование LLM станет гораздо шире»

Виктор Тарнавский Директор по искусственному интеллекту Т-Банка

T-Pro

Эта модель, в сравнении с Lite-версией, имеет большее количество параметров — не 7, а целых 32 миллиарда. Это делает ее еще более мощной и эффективной. Расширение параметров позволяет модели проводить более глубокий анализ контекста и языковых особенностей, а также улучшает ее способность к запоминанию информации и формированию более сложных и точных выводов.

Среди закрытых моделей T-Pro занимает второе место по ряду бенчмарков, лишь немного уступая GPT-4o, но опережая все другие модели на русском языке.

Архивы пресс-службы

T-Pro работает в двух режимах: ее можно как адаптировать под определенные бизнес-цели (Fine-tuning), так и использовать в режиме промптинга — то есть задавать команды в режиме диалога.

T-Lite

Она была впервые представлена в июле 2024 года, и за последние несколько месяцев смогла получить целый ряд улучшений:

теперь модель лучше понимает контекст, без труда обрабатывает сложные запросы и выдает более точные ответы;
создает тексты, которые практически невозможно отличить от написанных человеком, — с меньшим количеством ошибок и повышенной логической связностью;
легко дообучается под потребности различных сфер деятельности — от финансовой и медицинской до торговой и образовательной.

По результатам нескольких индустриальных бенчмарков лучшей в категории открытых моделей до 10 миллиардов параметров стала T-Lite.

Архивы пресс-службы

Примечательно, что если использовать модели совместно с открытой библиотекой Turbo Alignment, то компаниям не придется создавать ИИ-приложения с нуля — можно будет применять уже существующие инструменты.

Расширяющийся доступ к открытым большим языковым моделям способствует более быстрому развитию стартапов и малых предприятий, которым раньше не хватало ресурсов для разработки собственных моделей.