10.06.2024, 13:05

Медиа без границ: как большие языковые модели могут изменить рынок контента и не только

Недавно компания IBM назвала мультимодальный AI в числе важнейших трендов 2024 года. В настоящий момент мультимодальные большие языковые модели (MLLM), включая GPT-4V от Open AI и Gemini от Google, способны работать с текстами и фото, решая тем самым задачи, требующие понимания связи визуальных и текстовых представлений.

Редакция сайта

Теги:

Технологии

Видео

Искусственный интеллект

Фотография

Игрушки

Медиа без границ: как большие языковые модели могут изменить рынок контента и не только

Freepik

Первые генеративные трансформерные модели были созданы для решения задач, связанных с обработкой естественного языка. Поэтому исторически первым типом данных, с которым научились работать эти модели, стал текст. Но затем к нему постепенно стали добавляться и другие модальности — изображения, звук и так далее. Теперь они могут решать самые разные задачи, например, такие как создание картинок по их текстовому описанию.

В числе самых передовых моделей, способных к генерации картинок по тексту, находятся GPT-4V от Open AI и Gemini от Google. Искусственный интеллект GigaChat также обладает такой возможностью благодаря генеративной модели Kandinsky. В свою очередь, Kandinsky сегодня способна генерировать по текстовому описанию или изображению небольшие видеофрагменты. В январе этого года Google представила нейросеть Lumiere для генерации коротких реалистичных видео. Месяцем позже аналогичный сервис Sora продемонстрировала Open AI. Однако доступ к этим нейросетям пока не является публичным и ограничен узким кругом доверенных пользователей.

Искусственный интеллект, интернет, нейросеть, технологии, технологии искусственного интеллекта, ИИ для медиа, генерация изображений

Kandinsky 3.1

Переворот на рынке контента

Пока технологии мультимодального AI только развиваются, однако в будущем этот тренд может привести к глобальному перевороту на рынке контента. К примеру, в видеоиграх ИИ может отвечать как за диалоги с управляемыми компьютером персонажами (NPC), так и за создание уникальных карт, пейзажей и даже целых миров. Уже несколько десятилетий производители игр бьются над созданием персонажей в играх, способных поддерживать реалистичный диалог и отвечать игроку не только набором заранее прописанных реплик. Возможно, LLM помогут, наконец, решить эту проблему.

К примеру, создатели модификаций к играм смогли встроить диалоги, автоматически создаваемые ИИ, в компьютерную игру Mount & Blade II. Отзывы об этой функции пока крайне противоречивые, но сам процесс уже запущен. На платформе Steam уже существуют десятки игр, которые, по заявлению их создателей, частично или полностью сгенерированы ИИ. Пока ни один из этих проектов не «выстрелил», но кто знает, когда это может произойти.

Если заглядывать дальше, то речь может идти и о полностью сгенерированных при помощи ИИ видео. Уже легко можно представить, что пользователь онлайн-кинотеатра сможет просто заказать фильм любого жанра с определенными актерами, при этом неважно, когда именно он жили. К примеру, устроить бой Чака Норриса с Джейсоном Стетхемом.

Если кому-то кажется, что это звучит слишком фантастично, то можно вспомнить, что еще в 2023 году в Голливуде шли споры между профсоюзами актеров и студиями по поводу того, как и когда можно использовать цифровые «аватары» актеров и сколько за это должен получать человек, с которого «сняли» цифровую модель.

Kandinsky 3.1

Возможности больших языковых моделей

Впрочем, революция на рынке контента – это пока вопрос будущего. Если вернуться в настоящее, то есть несколько сфер, где большие языковые модели тоже могут изменить очень многое. В жизни офисных сотрудников генеративный ИИ стал уже привычным инструментом, которого воспринимают как коллегу.

Например, в этом году в сервисе для видеоконференций SaluteJazz появилась функция создания краткого резюме встреч на базе GigaChat. Сервис автоматически формирует информативную выжимку с ключевыми темами, задачами и заметками. Это рутинная, но при этом важная задача, на которую ранее тратилось огромное количество ресурсов.
А компания «МойОфис» интегрировала GigaChat в свою экосистему и представила разработки в области технологий ИИ, ускоряющие выполнение задач совместной работы с документами.

Огромные возможности генеративный ИИ открывает для работы с накопленными компанией знаниями. Я думаю, всем знакома ситуация, когда новый сотрудник вынужден спрашивать коллег о том, как решить ту или иную специфическую задачу. В «тяжелых» случаях может выясниться, что человек, который обладал нужной информацией, давно уволился. Система ИИ может стать сотрудником, который «работает» в компании с момента ее основания, никогда не спит и помнит обо всех накопленных за годы работы данных.

В промышленности сфера применения генеративного ИИ еще шире.

Представим сотрудника, обслуживающего какой-то сложный станок или агрегат и столкнувшегося с поломкой. Скорее всего, даже описание проблемы по телефону может занять значительное время. При этом специалист поддержки после этого скорее всего откроет многостраничную инструкцию и займется поиском решения. При использовании ИИ будет достаточно отправить фото или видео инцидента и через несколько секунд получить исчерпывающую информацию о возможных решениях проблемы. Хотя здесь еще долгое время системы ИИ будут оставаться в роли советчика и «второго пилота», а не того, кто принимает решение.

Kandinsky 3.1

Также на базе ИИ уже есть инструменты, которые помогают ИТ-специалистам повысить эффективность процесса разработки. Например, GigaCode может по фрагменту кода сгенерировать наиболее вероятные его продолжения непосредственно в среде разработки в режиме реального времени. Доступны и другие функции платформы: расширенная кодогенерация, семантический поиск по коду, поиск некоторых типов уязвимостей и так далее.

Говоря о взаимодействии человека и систем ИИ, нужно упомянуть, что развитие мультимодальных моделей считается важным этапом на пути к созданию общего искусственного интеллекта AGI (Artificial General Intelligence) — это система ИИ, которая по своим интеллектуальным способностям соответствует человеческому разуму.

Недавно бывший сотрудник OpenAI Леопольд Ашенбреннер выпустил документ, в котором предсказывает стремительное развитие искусственного интеллекта в ближайшее десятилетие. В том числе он предсказывает, что AGI может быть создан уже к 2027 году. Можно спорить о том, насколько реалистичен такой прогноз, но очевидно, что темпы развития технологий ИИ и, в частности LLM, постоянно ускоряются. Чтобы не оказаться «вне контекста» и бизнесу, и обычным людям нужно думать о том, как использовать данные технологии уже сейчас.