Генеративные модели страдают от "аутофагии", ухудшая качество контента

Исследования учёных из Университета Райса и Стэнфорда выявили проблему "аутофагии" в генеративных моделях ИИ. При обучении на синтетических данных качество контента снижается, что приводит к однородности и искажению. Это угрожает не только визуальным, но и языковым моделям

Новости 2024 09 10

Генеративные модели и проблема «аутофагии»

Современные генеративные модели искусственного интеллекта, включая большие языковые модели (LLM), критически зависят от свежих данных, созданных людьми, для поддержания высокого качества контента. Ученые из Университета Райса и Стэнфордского университета предостерегли о потенциальной проблеме, известной как «аутофагия ИИ». Это явление возникает, когда генеративные модели начинают обучаться на собственных синтетических выводах, поскольку исчерпан ресурс реальных данных. Такой процесс может привести к ухудшению качества создаваемого контента, что эквивалентно состоянию «модельного расстройства аутофагии» (MAD). Исследования показали, что при отсутствии свежих обучающих данных, качество изображений и текстов, генерируемых ИИ, резко снижается, проявляясь в искажениях и утрате разнообразия. Это приводит к созданию контента, который со временем может стать неконкурентоспособным и однообразным, что ставит под сомнение дальнейшее развитие технологий генеративного ИИ.

Модельное расстройство аутофагии (MAD)

Исследователи выделили явление ухудшения качества работы генеративных моделей, когда они обучаются на синтетическом контенте, назвав его модельным расстройством аутофагии (MAD). Это явление парадоксально напоминает коровье бешенство, когда организм разрушается из-за самоедства. В контексте ИИ это означает, что модели, лишенные свежих и разнообразных данных, начинают «поглощать» собственные результаты, создавая контент низкого качества. При отсутствии реальных данных ИИ может оказаться в ловушке, производя всё более однообразные и искаженные результаты, что ставит под угрозу их функциональность. Исследование демонстрирует, что процесс самопотребления приводит к деградации контента, а модели могут оказаться зависимыми от устаревшего и неэффективного материала, что в будущем станет серьезным препятствием для их развития.

Эксперимент и его результаты

В ходе исследования эффекта аутофагии модели учёные сосредоточились на использовании визуальных генеративных моделей и проверили их на трёх различных типах обучающих данных. Первым типом стали полностью синтетические данные, вторым — синтетические данные в сочетании с фиксированными реальными, а третьим — синтетические данные, которые постоянно обновлялись реальными источниками. Результаты показали, что в первых двух случаях качество выходных данных значительно ухудшалось. Сгенерированные изображения лица начали напоминать друг друга, при этом на них появились заметные артефакты, напоминающие сетку, что приводило к неестественности изображений. Также в тестах с рукописными цифрами наблюдалось ухудшение четкости, где без наличия свежих обучающих данных цифры становились неразборчивыми. Эти наблюдения подтверждают важность актуальных и разнообразных данных для обеспечения высокого качества результатов генеративных моделей.

Значение свежих данных

Использование свежих данных является критически важным для генеративных моделей искусственного интеллекта. Даже если модели обучаются на реальных данных, их фиксированная версия со временем теряет свою актуальность, что приводит к снижению качества сгенерированного контента. Инженер Ричард Баранюк подчеркивает, что, несмотря на несколько циклов самообучения, новые модели могут стать непоправимо испорченными. Это говорит о том, что текущие наборы данных должны постоянно обновляться и дополняться свежим контентом, иначе ИИ столкнется с «аутофагией», то есть самопотреблением, что естественно отразится на разнообразии и качестве результатов. Ограниченность актуальных данных приведет к однородности и снижению уровня точности выдаваемых моделей, что в конечном итоге негативно скажется на их применении в реальных задачах.

Последствия для языковых моделей

Исследование, сосредоточенное на визуальных генеративных моделях, поднимает важные вопросы, касающиеся языковых моделей (LLM). Поскольку обе технологии основаны на аналогичных принципах обработки и генерации данных, проблемы, выявленные в области изображений, вероятно, касаются и текстовых моделей. В условиях нехватки свежих реальных данных модели рискуют стать заложниками своего собственного контента, что приводит к ухудшению качества и разнообразия создаваемых текстов.

Эксперты предупреждают о необходимости контроля над генеративными процессами, чтобы избежать последствий, связанных с модельным расстройством аутофагии (MAD). Если оставить этот процесс бесконтрольным на протяжении длительного времени, это может серьезно отразиться на качестве данных, доступных в интернете, что приведёт к вырождению языковых моделей и снижению их эффективности. Понимание этих ограничений становится критически важным для разработки устойчивых и высококачественных решений в области искусственного интеллекта.

Заключение

Исследование, представленное на конференции International Conference on Learning Representations (ICLR), акцентирует внимание на критической роли регулярного обновления данных, используемых для обучения моделей искусственного интеллекта. Важно отметить, что устойчивость и качество генеративных систем напрямую зависят от объема свежего контента, созданного людьми. Как показали эксперименты, использование устаревших или исключительно синтетических данных приводит к ухудшению качества сгенерированного контента, проявляющемуся в однообразии и наличию артефактов. Это явление, обозначенное как модельное расстройство аутофагии, может негативно сказаться на разнообразии данных в интернете. Поэтому необходимо уделять внимание актуализации источников информации и вовлечению реальных данных в процесс обучения ИИ, чтобы избежать деградации его возможностей и обеспечить стабильное развитие технологий. Подписка на наш телеграм-канал «Голос Технократии» позволит оставаться в курсе последних событий и получать актуальную информацию из мира информационных технологий.