В ChatGPT внедрили видеорежим: как работает технология
Теперь с чат-ботом можно поговорить в режиме «видеозвонка» или показывать ассистенту экран смартфона.
Главная фишка заключается в том, что модель непрерывно анализирует и запоминает показанное. Например, во время «знакомства» разработчиков с ChatGPT он не забыл, что на Мишель были оленьи рога, а на Роване — колпак Санты.
Помимо этого, нейросеть распознает предметы в кадре и объясняет, как их использовать. На кадрах показано, как ChatGPT увидел кофейный набор и рассказал, каким способом приготовить напиток, параллельно отвечая на вопросы.
Сейчас поддерживается 50 языков — в том числе, русский. Нейросети можно продемонстрировать экран гаджета, и он распознает текст в приложениях. Кроме того, пользователь может попросить ассистента придумать ответ на сообщение или описать, что происходит на экране.
До конца декабря разработчики оставили юзерам еще один новогодний подарок — в ChatGPT будет доступен голос Санты. Для его активации необходимо нажать на кнопку со снежинкой.
Основатель Expert-ai.ru Леонид Гольдберг в разговоре с «ТехИнсайдером» рассказал, что расширение возможностей ChatGPT за счет добавления видеосвязи и визуального восприятия раскрывает сразу несколько важных тенденций и направлений развития.
Новый уровень контекста
Благодаря видеосвязи и возможности ассистента «видеть» происходящее, ChatGPT может учитывать больше контекстных деталей, чем когда-либо прежде. Это означает, что пользовательская интеракция выходит за рамки текстовых описаний. Теперь можно показать ассистенту сложный прибор, чертеж или интерфейс программы, а не пытаться описать его словами, отметил специалист.
Сближение с технологией распознавания образов и компьютерным зрением
Внедрение видеорежима указывает на то, что разработчики активно интегрируют передовые достижения в области Computer Vision, уточнил он. Для пользователей это открывает новые сценарии — от распознавания объектов на бытовом уровне (например, найти конкретный товар среди множества предметов) до узкоспециализированного анализа изображений (медицинские снимки, схемы в инженерии, элементы интерфейсов).
Укрепление роли ИИ как универсального «помощника»
Новая функциональность делает ChatGPT еще более «человекоцентричным» — ассистент не только понимает речь и текст, но и воспринимает визуальный контент, реагируя на него. Это сближает его роль с реальным помощником или консультантом, который присутствует «рядом» и видит то, что видит пользователь.
Новые коммуникационные модели и кейсы использования
Представьте себе дистанционные мастер-классы, где эксперт (бот) может подсказывать, как собрать устройство, сразу же видя усилия ученика в реальном времени. Или бизнес-презентации, во время которых ассистент помогает ориентироваться в данных на экране. Это расширяет спектр применения ChatGPT от привычных текстовых чатов к более интерактивной и многомерной форме взаимодействия, подчеркнул Гольдберг.
Прозрачность в контексте этики и конфиденциальности
Возможность «видеть» вызывает вопросы о том, как обрабатываются визуальные данные, где они хранятся и как обеспечивается анонимность. Эксперт заметил, что внедрение видеорежима раскрывает не только технический прогресс, но и ставит перед обществом вопросы о регуляции, защите персональных данных и этическом использовании подобных технологий.
В совокупности все это демонстрирует плавный переход от классического «текстового ИИ-чатбота» к гибридной платформе, интегрирующей голос, видео и визуальное восприятие. Основатель Expert-ai.ru заключил, что внедрение функции — это важный шаг в эволюции цифровых помощников, приближающий взаимодействие с ИИ к максимально естественной, «человеческой» форме общения.