Исследователи создали модель ИИ для воспроизведения игры Doom

Исследователи успешно создали модель ИИ, способную точно воспроизводить игру Doom и взаимодействовать с игровой средой. Этот прорыв открывает новые возможности для создания интерактивных видеоигр с высоким качеством изображения и реалистичным игровым процессом
Новости 2024 09 04

Исследователи создали модель ИИ для воспроизведения игры Doom

Инженеры и исследователи разработали модель искусственного интеллекта (ИИ), способную воспроизводить культовую игру Doom. Эта модель, основанная на Stable Diffusion v1.4, была обучена на игровом процессе другого агента и способна создавать кадры из игры с высоким качеством. Согласно данным издания TechSpot, модель ИИ успешно воспроизводит игру Doom с частотой 20 кадров в секунду, при этом сохраняя оригинальное качество изображения. Исследователи отмечают, что модель демонстрирует интерактивность, способность реагировать на действия игрока и воспроизводить элементы игрового мира, такие как враги, предметы и оружие. Несмотря на некоторые ограничения, связанные с ограничением на запоминание последних трех секунд игрового процесса, созданная модель ИИ представляет собой значительный шаг в развитии технологий виртуальной симуляции и может найти применение в будущем в индустрии видеоигр.

GameNGen сгенерировал Doom

Исследователи и инженеры совместно разработали инновационную модель искусственного интеллекта (ИИ) под названием GameNGen, способную воспроизводить популярную игру Doom. Этот проект базируется на модифицированной версии Stable Diffusion v1.4, которая была обучена на игровом процессе другого агента. Согласно информации издания TechSpot, данная модель успешно генерировала кадры игры Doom с частотой 20 кадров в секунду, при этом сохраняя качество изображения, сравнимое с оригиналом. Модель обладает удивительной интерактивностью, способностью реагировать на действия игрока, включая взаимодействие с врагами, боеприпасами, ключами и другими игровыми объектами. Однако из-за особенностей нейросети, в некоторых случаях разрушенные объекты или уничтоженные противники могли вновь появляться из-за того, что модель "помнила" только последние три секунды игрового процесса. Это инновационное достижение позволяет предполагать возможность использования подобных моделей в будущем при создании видеоигр.

Модель на основе Stable Diffusion

Инженеры и исследователи успешно создали модель искусственного интеллекта на основе Stable Diffusion, способную в реальном времени генерировать кадры из культовой игры Doom. Эта модель достигла частоты 20 кадров в секунду, при этом сохраняя высокое качество изображения, сравнимое с оригинальной игрой. Таким образом, специалисты продемонстрировали потенциал использования подобных моделей для воспроизведения игрового контента и создания интерактивных сценариев. Следующие шаги исследований могут раскрыть новые возможности применения и усовершенствования данной технологии в области развлечений и разработки видеоигр.

Интерактивность и ограниченная память

Интерактивность модели искусственного интеллекта, созданной для воспроизведения игры Doom, представляет собой современное достижение в области геймдева. Модель способна реагировать на действия игрока, воссоздавая поведение врагов, распределение боеприпасов, появление ключей и других игровых элементов. Однако стоит отметить, что из-за ограниченной памяти нейросети, она помнит лишь последние три секунды игрового процесса. Это иногда приводит к ситуациям, когда разрушенные объекты или уничтоженные враги могут вновь появиться на экране, так как модель не может учитывать длительные истории происходящего в игре. Несмотря на это ограничение, достижение ученых и инженеров Google и израильского коллектива демонстрирует потенциал использования подобных моделей в разработке будущих видеоигр.

Комментарии Google

Инженеры из Google и израильские специалисты обнаружили, что созданная модель искусственного интеллекта успешно воспроизводит игру Doom с высоким качеством. Они отметили, что результат работы модели близок к оригиналу, что открывает новые перспективы для применения подобных технологий в индустрии видеоигр. Согласно заявлению Google, данная модель способна генерировать игровой процесс с частотой 20 кадров в секунду, сохраняя при этом качество изображения на уровне оригинальной игры. В будущем специалисты предполагают, что подобные модели могут стать основой для разработки новых захватывающих видеоигр, с уникальной возможностью интерактивного взаимодействия и генерации игровой среды в реальном времени.

Diffusion Models Are Real-Time Game Engines

Diffusion модели - это игровые движки в реальном времени, которые питаются полностью нейросетевой моделью, обеспечивающей интерактивное взаимодействие с сложной средой на протяжении больших траекторий высокого качества. GameNGen способен интерактивно симулировать классическую игру DOOM более чем 20 кадров в секунду на одном TPU. Прогнозирование следующего кадра достигает значения PSNR 29.4, сравнимого с потерянным сжатием JPEG. Люди оценивают клипы игры немного лучше случайного выбора, чем короткие клипы симуляции. GameNGen обучается в два этапа: сначала агент RL учится играть в игру, и его тренировочные сессии записываются и становятся данными обучения для нашей генеративной модели.Затем диффузионная модель обучается выводить следующий кадр, основываясь на последовательности предыдущих кадров и действий. Устойчивое авторегрессивное поколение обеспечивается условием аугментации, что позволяет сохранять визуальную стабильность на протяжении длительных траекторий.

Основные достижения GameNGen

GameNGen - инновационная игровая платформа, основанная на нейронной модели, позволяющая проводить интерактивное взаимодействие с сложной игровой средой в реальном времени. Специфические возможности этой модели позволяют ей симулировать оригинальную игру DOOM со скоростью более 20 кадров в секунду на единственном обработчике TPU. Важным достижением является достижение PSNR 29.4 при предсказании следующего кадра, что сравнимо с качеством сжатия JPEG. Эксперименты показали, что даже эксперты затрудняются отличить короткие клипы оригинальной игры от симуляции, продемонстрированной GameNGen. Это является важным шагом в развитии технологий игровой индустрии и предоставляет перспективы для будущего создания инновационных видеоигр с использованием подобных моделей искусственного интеллекта.

Этапы тренировки

В ходе разработки модели искусственного интеллекта для воспроизведения игры Doom специалисты решили разделить процесс обучения на два этапа. Первый этап включал тренировку автоматического агента с поддержкой обучения с подкреплением (RL-agent), который учился играть в игру и записывал свои игровые сессии с последовательностью действий и наблюдений. Эти данные стали основой для обучения генеративной модели.

Второй этап обучения заключался в использовании небольшой модели диффузии, Stable Diffusion v1.4, которую доработали и условили последовательностью предыдущих действий и наблюдений (кадров). Для предотвращения авторегрессивного смещения в ходе вывода были предприняты меры по искажению контекстных кадров путем добавления гауссовского шума к закодированным кадрам во время обучения. Это позволило сети корректировать информацию, выбранную в предыдущих кадрах, и оказалось критическим для сохранения визуальной стабильности на протяжении длительных периодов времени.

Также для улучшения качества изображения было проведено дополнительное обучение только декодера латентного автоэнкодера, используя потерю среднеквадратическую ошибку (MSE), вычисленную по значениям пикселей целевых кадров.

Архитектура GameNGen

GameNGen - первый игровой движок, полностью основанный на нейронной модели, который позволяет в реальном времени взаимодействовать с сложной средой на протяжении длительных траекторий высокого качества. GameNGen способен интерактивно моделировать классическую игру DOOM более чем на 20 кадрах в секунду на одной TPU. Предсказание следующего кадра достигает уровня PSNR 29.4, что сравнимо с потерями при сжатии JPEG. Видеоигра DOOM записана в реальном времени благодаря модели GameNGen, что позволяет создавать долгие траектории прохождения с высоким качеством. Модель обучается в два этапа, в ходе первого агент на основе RL учится играть в игру, а сессии обучения записываются как данные для обучения генеративной модели. На втором этапе модель диффузии обучается создавать следующий кадр, на основе последовательности прошлых кадров и действий. Условные аугментации обеспечивают стабильную авторегрессионную генерацию на протяжении долгих траекторий.

Сбор данных через игровой агент

Для успешного создания модели искусственного интеллекта, способной воспроизводить игру Doom, исследователи провели сбор данных, используя специально обученного RL-агента. Этот агент был обучен играть в Doom, записывая свои действия и наблюдения во время тренировочных эпизодов. Эти данные послужили основой для обучения генеративной модели, которая затем смогла успешно генерировать кадры из игры. Благодаря этому подходу удалось создать модель, способную воспроизводить игровой процесс с частотой 20 кадров в секунду и сохранять качество картинки, сравнимое с оригинальной игрой Doom. В дальнейшем подобные технологии могут найти применение при разработке видеоигр и различных интерактивных симуляций.

Обучение генеративной диффузионной модели

Использование модифицированной версии модели Stable Diffusion v1.4 для создания следующего кадра в игре Doom открывает перед исследователями и инженерами новые возможности в области генерации игрового процесса с помощью искусственного интеллекта. Путем условной обработки предыдущих действий и наблюдений, ученые смогли минимизировать дрейф авторегрессивной модели при выводе, добавляя гауссовский шум к кадрам контекста. Этот подход оказался важным для сохранения визуальной стабильности длительных игровых сессий. Результаты работы позволяют представить использование подобных моделей не только для воспроизведения уже существующих игр, но и для создания новых виртуальных миров с интерактивным игровым процессом, открывая новые перспективы в развитии игровой индустрии и исследованиях в области искусственного интеллекта.

Подгонка декодера латентных представлений

Подгонка декодера латентных представлений играет ключевую роль в обучении модели Stable Diffusion v1.4 для сжатия изображений и предсказания игровых кадров. Предварительно обученный автоэнкодер выводил заметные артефакты, влияющие на нижнюю панель HUD и другие детали изображения. Для улучшения качества изображения специалисты сконцентрировались на обучении только декодера латентного автоэнкодера по MSE потерям относительно целевых пикселей кадра. Этот подход призван улучшить точность предсказания игровых кадров и минимизировать нежелательные визуальные искажения.

Поиск