ChatGPT теперь поддерживает видео в реальном времени для пользователей

OpenAI представила функцию работы с видео в реальном времени в ChatGPT, доступную для подписчиков Plus, Team и Pro. Теперь модель может анализировать визуальные данные, помогать с задачами и объяснять меню. Доступ к функции начнется с четверга, а для некоторых пользователей — в январе
Новости 2024 12 12

Введение новой функции видео в реальном времени

Компания OpenAI на днях представила функцию видео в реальном времени для ChatGPT, о которой говорили еще семь месяцев назад. Новый расширенный голосовой режим позволяет пользователям, подписанным на ChatGPT Plus, Team или Pro, использовать свои смартфоны для визуального взаимодействия с ChatGPT. Теперь, направив камеру телефона на объекты, пользователи смогут получать ответы от ChatGPT практически мгновенно. Это расширение включает возможность понимания того, что отображается на экране устройства через функцию совместного использования экрана, что позволяет ChatGPT объяснять различные меню настроек или предлагать решения математических задач. Данная функция призвана улучшить взаимодействие пользователей с моделью, предоставляя более живое и динамичное общение.

Расширенный голосовой режим с поддержкой видения

Расширенный голосовой режим с поддержкой видения предоставляет пользователям уникальные возможности взаимодействия с ChatGPT. С помощью этой функции можно не только вести разговор, но и получать помощь в реальном времени, направляя камеру своего устройства на различные объекты. ChatGPT анализирует, что происходит в кадре, и может дать подробные объяснения или ответы на вопросы, касающиеся увиденного. Например, если у вас возникли трудности с настройками вашего устройства, модель поможет разобраться с меню, уточняя функции каждой опции. Для активации этой функции достаточно нажать на иконку микрофона рядом с чат-баром в приложении ChatGPT, а затем вызвать видеоэкран, нажав на соответствующую иконку в левом нижнем углу. Также есть возможность демонстрации экрана: для этого требуется нажать на меню с тремя точками и выбрать опцию «Поделиться экраном».

Этапы развертывания функции

OpenAI объявила о запуске расширенного голосового режима с поддержкой видения, который начнется в четверг и продлится до следующей недели. Однако стоит отметить, что не все пользователи смогут получить доступ к этой функции. Подписчики пакетов ChatGPT Enterprise и Edu не увидят нововведение до января следующего года. Более того, для пользователей ChatGPT в странах ЕС, а также в Швейцарии, Исландии, Норвегии и Лихтенштейне пока отсутствует четкий график запуска этой функции. Это означает, что возможности расширенного голосового режима с поддержкой видения будут доступны лишь ограниченному числу пользователей на начальном этапе его развертывания, что может вызвать недовольство среди тех, кто ожидает функционал.

Демонстрация на CBS News

Недавняя демонстрация возможностей режима Advanced Voice Mode с визуальными функциями, проведённая президентом OpenAI Грегом Брокманом на программе CBS News «60 минут», продемонстрировала новые горизонты взаимодействия с ChatGPT. В ходе теста по анатомии он предложил Андерсону Куперу нарисовать на доске различные части тела, на что ChatGPT смог «понять» и прокомментировать изображения в реальном времени. Эта способность подчеркивает уровень интеллекта и анализа, которые достигаются с помощью технологии распознавания изображений.

Тем не менее, в ходе демонстрации боты не обошлись без ошибок. ChatGPT допустил неточность при решении геометрической задачи, что указывает на возможность возникновения «галлюцинаций» — явления, при котором искусственный интеллект генерирует неверные или несоответствующие данные. Этот случай поднимает важные вопросы о надежности технологий, которые стремятся к более точному и естественному взаимодействию с пользователями.

Задержки с выпуском функции

Расширенный голосовой режим с поддержкой видения от OpenAI испытывал множество задержек перед своим окончательным запуском. Анонс в начале года создавал ожидания, однако реальность оказалась более сложной. В апреле OpenAI обещала выпустить функцию "в течение нескольких недель", но вскоре после этого понадобилось больше времени для завершения разработки. Успешный запуск расширенного голосового режима в начале осени для некоторых пользователей не включал визуальную составляющую анализа, что подчеркивало необходимость в доработках. Лишь перед стартом в четверг компания сосредоточилась на внедрении голосового режима на большее количество платформ и расширении доступа для пользователей в Европейском Союзе. Эти задержки стали значительным препятствием для OpenAI, так как конкуренты, такие как Google и Meta, активно развивают аналогичные технологии, что создает давление на компанию в условиях стремительно развивающегося рынка.

Конкуренты и аналогичные разработки

Компании-конкуренты, такие как Google и Meta, активно развиваются в области технологий, сопоставимых с новыми функциями OpenAI. На этой неделе Google представила свою функцию Project Astra, которая предоставляет анализ видео в реальном времени для чат-ботов. Эта технология в данный момент доступна лишь ограниченному числу тестеров на платформе Android. Схожие усилия со стороны Meta также свидетельствуют о том, что ведущие IT-компании стремятся интегрировать элементы визуального распознавания и анализа в свои продукты. Эти разработки подчеркивают растущую конкуренцию на рынке ИИ-услуг, и компании стараются предоставить пользователям более интерактивный и персонализированный опыт общения с их ассистентами. С приближением тенденций к улучшению функциональности и взаимодействия с пользователями, ожидается, что борьба за лидерство в этой области только усилится.

Функция «Режим Санта-Клауса»

В рамках обновлений OpenAI также представила новый праздничный «Режим Санта-Клауса», который добавляет очаровательный голос Санты в взаимодействие с ChatGPT. Эта функция позволяет пользователям погрузиться в атмосферу праздника и веселья, взаимодействуя с ChatGPT в новогоднем духе. Активировать «Режим Санта-Клауса» можно простым нажатием на иконку снежинки, расположенную рядом с строкой ввода в приложении ChatGPT. Благодаря этому пользователи могут задавать вопросы или получать ответы от Санты, что добавляет нотку магии в привычное общение с искусственным интеллектом. Такой подход не только развлекает, но и позволяет сделать общение более увлекательным и запоминающимся, особенно в преддверии зимних праздников, когда создается особая атмосфера ожидания чудес.

Поиск