Новая версия GPT-4 Omni улучшает взаимодействие с данными

Новая версия GPT-4 Omni - инновационный инструмент для взаимодействия с компьютером. Работает с текстом, аудио и изображениями, отличается высокой скоростью ответа и улучшенной работой с разноязычными данными. Революционное объединение модальностей для эффективного обучения и обработки информации

Новости 2024 05 13

Еще один шаг к AGI

GPT-4 Omni (GPT-4o), новая версия модели, делает большой шаг в сторону более естественного взаимодействия человека с компьютером. Эта модель принимает входные данные в виде текста, аудио, изображений и видео, выводя информацию в виде текста, аудио и изображений. Время реакции на аудиовходы составляет всего 232 миллисекунды, что сопоставимо с реакцией человека в беседе.

Новая версия модели GPT-4 Omni (GPT-4o) представляет собой значительный прорыв в сфере естественного взаимодействия человека с компьютером. Она способна обрабатывать входные данные в различных форматах - тексте, аудио, изображениях и видео, и генерировать соответствующие выходные данные в форме текста, звука и картинок. Быстродействие модели воспринятия аудиосигналов поражает: время реакции на входные аудиосообщения составляет лишь 232 миллисекунды, что соответствует времени реакции человека в разговоре. GPT-4o превосходит производительность GPT-4 Turbo в тексте на английском языке, кодировании, а также демонстрирует значительное улучшение в обработке текста на других языках. Кроме того, модель работает значительно быстрее и стоит на 50% дешевле при использовании в API. Особое преимущество модели заключается в ее способности лучше понимать видео- и аудиоматериалы по сравнению с уже существующими моделями.

Улучшения по сравнению с предыдущими моделями

GPT-4o демонстрирует такую же производительность, как и GPT-4 Turbo, в обработке англоязычных текстов и программировании, при этом значительно улучшая работу с текстами на других языках. Новая модель работает быстрее и стоит на 50% дешевле при использовании через API. Особенно примечательно, что GPT-4o существенно превосходит предыдущие модели в понимании визуальных материалов и аудио.

Интеграция и результаты

Перед GPT-4o в режиме голоса время ответа составляло 2,8 секунды для GPT-3.5 и 5,4 секунды для GPT-4. Эти показатели достигались за счет триступенчатой модели обработки (транскрибация аудио в текст, обработка текста и преобразование обратно в аудио). GPT-4o обучена как единая модель для всех типов входных и выходных данных, что позволяет более точно обрабатывать информацию.

Новейшая версия GPT-4 Omni (GPT-4o) представляет собой значительный шаг вперед в области взаимодействия человека с компьютером, учитывая ввод в виде текста, аудио, изображения и видео и генерируя соответствующий вывод в различных форматах. Модель обладает уникальными возможностями, такими как отклик на аудио с задержкой всего 232 миллисекунды, что приближается к скорости реакции человека в разговоре. GPT-4o превзошла даже GPT-4 Turbo в производительности по тексту на английском языке и коду, а также значительно улучшила производительность в тексте на не-английских языках.

Кроме того, GPT-4o продемонстрировала значительное улучшение в понимании зрительных и аудио данных по сравнению с предыдущими моделями. Ее способности оценивались на различных типах задач, таких как аудио-распознавание и перевод, мультиязычные тесты и понимание визуальных вопросов, и в каждом случае GPT-4o достигала уровня наивысших достижений.

Использование одной модели для обработки всевозможных типов входных и выходных данных позволило улучшить точность обработки информации и значительно повысило эффективность работы модели. Однако, несмотря на все достоинства, GPT-4o все еще имеет некоторые ограничения, над которыми продолжается работа для их устранения и дальнейшего совершенствования модели в целом.

Текстовая оценка

GPT-4o продемонстрировал высокие результаты в области рассуждений, достигая 88,7% верных ответов на нейтральных вопросах. Эти оценки собраны с помощью нашей новой библиотеки простых оценок и подтверждают превосходство GPT-4o в 0-шотовом тестировании на общие знания. В дополнение к этому, на традиционных вопросах без предварительного обучения GPT-4o устанавливает новый рекорд в 87,2%. Такие высокие показатели подтверждают эффективность и интеллект модели GPT-4o, что позволяет ей успешно справляться с различными типами запросов и заданий.

Значительное улучшение распознавания речи

С выходом новой модели GPT-4o мы видим значительное улучшение в производительности распознавания речи на всех языках по сравнению с предыдущими моделями. Это означает, что теперь модель способна более точно и эффективно обрабатывать аудио ввод, что является важным шагом в развитии технологий и взаимодействии с компьютером. Такие улучшения позволяют улучшить работу AI-систем в различных областях, включая сферу обучения, медицину, переводы и многое другое.

Новый эталон аудио переводов

GPT-4o предлагает новый стандарт в области аудио переводов, превосходя предыдущие модели по бенчмарку MLS. Этот шаг вперед в области распознавания и перевода речи открывает новые возможности для многоязычного общения и обработки аудиоинформации. Благодаря комплексному подходу и использованию современных нейронных сетей, GPT-4o достигает рекордных результатов в качестве и скорости перевода речи, что делает его ведущим игроком в этой области.

Лучшее понимание визуальной информации.

GPT-4 Omni представляет значительный прорыв в области искусственного интеллекта, предоставляя возможность взаимодействия пользователя с компьютерной системой с использованием текста, аудио, изображений и видео. Эта улучшенная версия модели способна генерировать различные комбинации выходных данных, оптимизирована для быстрого и точного распознавания аудио и видео, а также стала более доступной для пользователей, предлагая оптимизированный API. GPT-4 Omni выделяется своей способностью к визуальному и звуковому анализу, превосходя существующие модели. Однако, несмотря на потрясающие возможности, модель все еще имеет свои ограничения, требующие дальнейшей разработки и совершенствования.

Комментарий Сема Альтмана

Комментарий Сема Альтмана к выпуску новой модели

В нашем сегодняшнем объявлении я хотел бы подчеркнуть две вещи.

Во-первых, ключевая часть нашей миссии — предоставить людям в руки очень эффективные инструменты искусственного интеллекта бесплатно (или по отличной цене). Я очень горжусь тем, что мы сделали лучшую в мире модель доступной бесплатно в ChatGPT, без рекламы и чего-то подобного.

Когда мы запустили OpenAI, наша первоначальная концепция заключалась в том, что мы создадим ИИ и будем использовать его для создания всевозможных благ для мира. Вместо этого теперь похоже, что мы создадим ИИ, а затем другие люди будут использовать его для создания всевозможных удивительных вещей, от которых мы все выиграем.

Мы — бизнес, и мы найдем множество вещей, за которые можно взимать плату, и это поможет нам предоставлять бесплатные, выдающиеся услуги искусственного интеллекта (надеюсь) миллиардам людей.

Во-вторых, новый голосовой (и видео) режим — лучший компьютерный интерфейс, который я когда-либо использовал. Это похоже на ИИ из фильмов; и меня до сих пор немного удивляет, что это реально. Переход к времени отклика и выразительности на человеческом уровне оказывается большим изменением.

Оригинальный ChatGPT показал возможности языковых интерфейсов; эта новая вещь ощущается совершенно по-другому. Это быстро, умно, весело, естественно и полезно.

Разговор с компьютером никогда не казался мне по-настоящему естественным; теперь это так. Когда мы добавим (необязательную) персонализацию, доступ к вашей информации, возможность совершать действия от вашего имени и многое другое, я действительно вижу захватывающее будущее, в котором мы сможем использовать компьютеры, чтобы делать гораздо больше, чем когда-либо прежде.

Наконец, огромное спасибо команде, которая вложила столько труда, чтобы это произошло!