OpenAI использует расшифрованные видео YouTube для обучения ИИ
Нехватка данных
В 2021 году OpenAI столкнулась с нехваткой данных из авторитетных источников, что привело к созданию Whisper, работающего на базе нейросетей Transformer. Это решение позволило собирать больше информации для обучения искусственного интеллекта.
Использование YouTube данных в проектах OpenAI
Согласно информации из New York Times, OpenAI использовала инструмент распознавания речи Whisper для того, чтобы расшифровать более миллиона часов видео с YouTube и использовать их в обучении модели GPT-4. Этот подход позволяет компании улучшать свои искусственные интеллектуальные модели.
По данным Wall Street Journal, OpenAI также планирует использовать эти транскрипции для разработки будущей модели GPT-5. Ранее компания столкнулась с нехваткой данных из надежных источников, поэтому создала инструмент Whisper на базе нейросети Transformer для анализа контента YouTube.
Судебные разбирательства и предположения о будущем данных
Несмотря на возможные нарушения правил YouTube, OpenAI, а также Google и Meta, проявляли интерес к использованию данных из видеохостинга для собственных моделей искусственного интеллекта. В прошлом Google также использовала транскрипции YouTube для своих нужд, несмотря на потенциальные нарушения авторских прав создателей контента.
Судебные иски между NYT, OpenAI и Microsoft, а также предположения Epoch об исчерпании высококачественных данных для обучения моделей искусственного интеллекта к 2026 году, указывают на возможный дефицит данных в будущем. OpenAI также исследует возможность приобретения стартапов, специализирующихся на сборе больших объемов данных.
Реакция Google и заключение
Несмотря на использование расшифровок видео с YouTube OpenAI, Google не предъявила обвинений, так как сама была вовлечена в противоправное использование контента, защищенного авторским правом. Это свидетельствует о сложных вопросах в области соблюдения авторских прав и использования данных компаниями.