13.12.2024, 17:19

В ChatGPT внедрили видеорежим: как работает технология

Компания OpenAI представила функцию видеосвязи для ChatGPT, которые она продемонстрировала почти семь месяцев назад. Накануне была запущена серия «новогодних подарков» — «12 дней OpenAI». Разработка стала шестой из списка плюшек.

Юлия Мискевич

Редакция

Теги:

Технологии

Гаджеты

Нейросети

В ChatGPT внедрили видеорежим: как работает технология

Unsplash

Теперь с чат-ботом можно поговорить в режиме «видеозвонка» или показывать ассистенту экран смартфона.

Главная фишка заключается в том, что модель непрерывно анализирует и запоминает показанное. Например, во время «знакомства» разработчиков с ChatGPT он не забыл, что на Мишель были оленьи рога, а на Роване — колпак Санты.

Помимо этого, нейросеть распознает предметы в кадре и объясняет, как их использовать. На кадрах показано, как ChatGPT увидел кофейный набор и рассказал, каким способом приготовить напиток, параллельно отвечая на вопросы.

Сейчас поддерживается 50 языков — в том числе, русский. Нейросети можно продемонстрировать экран гаджета, и он распознает текст в приложениях. Кроме того, пользователь может попросить ассистента придумать ответ на сообщение или описать, что происходит на экране.

До конца декабря разработчики оставили юзерам еще один новогодний подарок — в ChatGPT будет доступен голос Санты. Для его активации необходимо нажать на кнопку со снежинкой.

Основатель Expert-ai.ru Леонид Гольдберг в разговоре с «ТехИнсайдером» рассказал, что расширение возможностей ChatGPT за счет добавления видеосвязи и визуального восприятия раскрывает сразу несколько важных тенденций и направлений развития.

Новый уровень контекста

Благодаря видеосвязи и возможности ассистента «видеть» происходящее, ChatGPT может учитывать больше контекстных деталей, чем когда-либо прежде. Это означает, что пользовательская интеракция выходит за рамки текстовых описаний. Теперь можно показать ассистенту сложный прибор, чертеж или интерфейс программы, а не пытаться описать его словами, отметил специалист.

Сближение с технологией распознавания образов и компьютерным зрением

Внедрение видеорежима указывает на то, что разработчики активно интегрируют передовые достижения в области Computer Vision, уточнил он. Для пользователей это открывает новые сценарии — от распознавания объектов на бытовом уровне (например, найти конкретный товар среди множества предметов) до узкоспециализированного анализа изображений (медицинские снимки, схемы в инженерии, элементы интерфейсов).

Укрепление роли ИИ как универсального «помощника»

Новая функциональность делает ChatGPT еще более «человекоцентричным» — ассистент не только понимает речь и текст, но и воспринимает визуальный контент, реагируя на него. Это сближает его роль с реальным помощником или консультантом, который присутствует «рядом» и видит то, что видит пользователь.

Новые коммуникационные модели и кейсы использования

Представьте себе дистанционные мастер-классы, где эксперт (бот) может подсказывать, как собрать устройство, сразу же видя усилия ученика в реальном времени. Или бизнес-презентации, во время которых ассистент помогает ориентироваться в данных на экране. Это расширяет спектр применения ChatGPT от привычных текстовых чатов к более интерактивной и многомерной форме взаимодействия, подчеркнул Гольдберг.

Прозрачность в контексте этики и конфиденциальности

Возможность «видеть» вызывает вопросы о том, как обрабатываются визуальные данные, где они хранятся и как обеспечивается анонимность. Эксперт заметил, что внедрение видеорежима раскрывает не только технический прогресс, но и ставит перед обществом вопросы о регуляции, защите персональных данных и этическом использовании подобных технологий.

В совокупности все это демонстрирует плавный переход от классического «текстового ИИ-чатбота» к гибридной платформе, интегрирующей голос, видео и визуальное восприятие. Основатель Expert-ai.ru заключил, что внедрение функции — это важный шаг в эволюции цифровых помощников, приближающий взаимодействие с ИИ к максимально естественной, «человеческой» форме общения.