OpenAI использует расшифрованные видео YouTube для обучения ИИ

OpenAI транскрибировала миллион часов видео с YouTube для GPT-4, используя инструмент Whisper. Нарушение правил YouTube вызвало волну критики компаний, включая OpenAI и Google. NYT сообщает, что данные для обучения ИИ-моделей скоро иссякнут. OpenAI рассматривает приобретение стартапов для данных. Google также использовала транскрипции YouTube

Новости 2024 04 07

Нехватка данных

В 2021 году OpenAI столкнулась с нехваткой данных из авторитетных источников, что привело к созданию Whisper, работающего на базе нейросетей Transformer. Это решение позволило собирать больше информации для обучения искусственного интеллекта.

Использование YouTube данных в проектах OpenAI

Согласно информации из New York Times, OpenAI использовала инструмент распознавания речи Whisper для того, чтобы расшифровать более миллиона часов видео с YouTube и использовать их в обучении модели GPT-4. Этот подход позволяет компании улучшать свои искусственные интеллектуальные модели.

По данным Wall Street Journal, OpenAI также планирует использовать эти транскрипции для разработки будущей модели GPT-5. Ранее компания столкнулась с нехваткой данных из надежных источников, поэтому создала инструмент Whisper на базе нейросети Transformer для анализа контента YouTube.

Судебные разбирательства и предположения о будущем данных

Несмотря на возможные нарушения правил YouTube, OpenAI, а также Google и Meta, проявляли интерес к использованию данных из видеохостинга для собственных моделей искусственного интеллекта. В прошлом Google также использовала транскрипции YouTube для своих нужд, несмотря на потенциальные нарушения авторских прав создателей контента.

Судебные иски между NYT, OpenAI и Microsoft, а также предположения Epoch об исчерпании высококачественных данных для обучения моделей искусственного интеллекта к 2026 году, указывают на возможный дефицит данных в будущем. OpenAI также исследует возможность приобретения стартапов, специализирующихся на сборе больших объемов данных.

Реакция Google и заключение

Несмотря на использование расшифровок видео с YouTube OpenAI, Google не предъявила обвинений, так как сама была вовлечена в противоправное использование контента, защищенного авторским правом. Это свидетельствует о сложных вопросах в области соблюдения авторских прав и использования данных компаниями.