Медиа без границ: как большие языковые модели могут изменить рынок контента и не только
Первые генеративные трансформерные модели были созданы для решения задач, связанных с обработкой естественного языка. Поэтому исторически первым типом данных, с которым научились работать эти модели, стал текст. Но затем к нему постепенно стали добавляться и другие модальности — изображения, звук и так далее. Теперь они могут решать самые разные задачи, например, такие как создание картинок по их текстовому описанию.
В числе самых передовых моделей, способных к генерации картинок по тексту, находятся GPT-4V от Open AI и Gemini от Google. Искусственный интеллект GigaChat также обладает такой возможностью благодаря генеративной модели Kandinsky. В свою очередь, Kandinsky сегодня способна генерировать по текстовому описанию или изображению небольшие видеофрагменты. В январе этого года Google представила нейросеть Lumiere для генерации коротких реалистичных видео. Месяцем позже аналогичный сервис Sora продемонстрировала Open AI. Однако доступ к этим нейросетям пока не является публичным и ограничен узким кругом доверенных пользователей.
Переворот на рынке контента
Пока технологии мультимодального AI только развиваются, однако в будущем этот тренд может привести к глобальному перевороту на рынке контента. К примеру, в видеоиграх ИИ может отвечать как за диалоги с управляемыми компьютером персонажами (NPC), так и за создание уникальных карт, пейзажей и даже целых миров. Уже несколько десятилетий производители игр бьются над созданием персонажей в играх, способных поддерживать реалистичный диалог и отвечать игроку не только набором заранее прописанных реплик. Возможно, LLM помогут, наконец, решить эту проблему.
Если заглядывать дальше, то речь может идти и о полностью сгенерированных при помощи ИИ видео. Уже легко можно представить, что пользователь онлайн-кинотеатра сможет просто заказать фильм любого жанра с определенными актерами, при этом неважно, когда именно он жили. К примеру, устроить бой Чака Норриса с Джейсоном Стетхемом.
Возможности больших языковых моделей
Впрочем, революция на рынке контента – это пока вопрос будущего. Если вернуться в настоящее, то есть несколько сфер, где большие языковые модели тоже могут изменить очень многое. В жизни офисных сотрудников генеративный ИИ стал уже привычным инструментом, которого воспринимают как коллегу.
- Например, в этом году в сервисе для видеоконференций SaluteJazz появилась функция создания краткого резюме встреч на базе GigaChat. Сервис автоматически формирует информативную выжимку с ключевыми темами, задачами и заметками. Это рутинная, но при этом важная задача, на которую ранее тратилось огромное количество ресурсов.
- А компания «МойОфис» интегрировала GigaChat в свою экосистему и представила разработки в области технологий ИИ, ускоряющие выполнение задач совместной работы с документами.
Огромные возможности генеративный ИИ открывает для работы с накопленными компанией знаниями. Я думаю, всем знакома ситуация, когда новый сотрудник вынужден спрашивать коллег о том, как решить ту или иную специфическую задачу. В «тяжелых» случаях может выясниться, что человек, который обладал нужной информацией, давно уволился. Система ИИ может стать сотрудником, который «работает» в компании с момента ее основания, никогда не спит и помнит обо всех накопленных за годы работы данных.
Представим сотрудника, обслуживающего какой-то сложный станок или агрегат и столкнувшегося с поломкой. Скорее всего, даже описание проблемы по телефону может занять значительное время. При этом специалист поддержки после этого скорее всего откроет многостраничную инструкцию и займется поиском решения. При использовании ИИ будет достаточно отправить фото или видео инцидента и через несколько секунд получить исчерпывающую информацию о возможных решениях проблемы. Хотя здесь еще долгое время системы ИИ будут оставаться в роли советчика и «второго пилота», а не того, кто принимает решение.
Также на базе ИИ уже есть инструменты, которые помогают ИТ-специалистам повысить эффективность процесса разработки. Например, GigaCode может по фрагменту кода сгенерировать наиболее вероятные его продолжения непосредственно в среде разработки в режиме реального времени. Доступны и другие функции платформы: расширенная кодогенерация, семантический поиск по коду, поиск некоторых типов уязвимостей и так далее.
Говоря о взаимодействии человека и систем ИИ, нужно упомянуть, что развитие мультимодальных моделей считается важным этапом на пути к созданию общего искусственного интеллекта AGI (Artificial General Intelligence) — это система ИИ, которая по своим интеллектуальным способностям соответствует человеческому разуму.
Недавно бывший сотрудник OpenAI Леопольд Ашенбреннер выпустил документ, в котором предсказывает стремительное развитие искусственного интеллекта в ближайшее десятилетие. В том числе он предсказывает, что AGI может быть создан уже к 2027 году. Можно спорить о том, насколько реалистичен такой прогноз, но очевидно, что темпы развития технологий ИИ и, в частности LLM, постоянно ускоряются. Чтобы не оказаться «вне контекста» и бизнесу, и обычным людям нужно думать о том, как использовать данные технологии уже сейчас.