Исследование Anthropic улучшает понимание работы AI моделей

Anthropic расшифровала "черный ящик" AI моделей, представив состояния через понятные признаки. Исследование позволяет идентифицировать миллионы концепций и манипулировать ими, повышая безопасность и управляемость систем AI
Новости 2024 05 30

Модели ИИ обычно рассматриваются как "черный ящик", где входные данные преобразуются в выходные результаты без ясного понимания внутренних процессов, ведущих к этим результатам. Это вызывает вопросы относительно интерпретируемости и предсказуемости моделей ИИ, особенно в контексте их применения в критически важных областях.

Проблема "черного ящика" в моделях ИИ

Основная трудность в понимании работы моделей ИИ заключается в сложности их внутреннего состояния. Внутренние представления ИИ состоят из длинных списков чисел, представляющих активации нейронов, которые сами по себе не дают понятной информации о принятии решений модели. Изучение этих чисел не позволяет сделать выводы о том, какие именно концепции и как они представлены внутри модели.

Обучение словаря как метод интерпретации

Недавно сотрудники компании Anthropic предложили и успешно применили технику "обучения словаря", которая позволяет сопоставлять паттерны активации нейронов с понятными человеку концепциями. Этот метод обеспечивает интерпретацию внутренних состояний модели через несколько активных признаков вместо множества активных нейронов, делая процесс принятия решений более прозрачным.

Применение на небольшой модели

В октябре 2023 года обучение словаря было успешно применено к небольшой "игрушечной" языковой модели. Это стало значимым шагом в понимании работы более сложных моделей ИИ.

Расширение на большие модели

Исследования были расширены на более крупные и сложные модели, такие как Claude Sonnet, что позволило выявить миллионы признаков. Эти признаки охватывают широкий спектр сущностей, включая города, людей, элементы, научные области и синтаксис языков программирования. Примечательно, что эти признаки могут быть мультимодальными и многоязычными, что говорит о гибкости и универсальности предложенного метода.

Манипуляция признаками

Один из важных аспектов этой работы - возможность манипулирования выявленными признаками. Усиление определенных признаков приводит к изменению поведения модели. Например, усиление признака "Золотые ворота" привело к тому, что модель начала ассоциировать себя с мостом и включать соответствующие определения в разговор. Это открывает новые горизонты для управления поведением ИИ.

Применение для безопасности ИИ

Открытия в области обучения словаря имеют потенциал для значительного улучшения безопасности ИИ. В компании Anthropic надеются использовать эти достижения для мониторинга систем ИИ на предмет нежелательного поведения, корректировки их действий в направлении желаемых результатов или удаления опасных тем. Это важно для создания безопасных и надежных ИИ-систем, способных действовать в интересах людей.

Заключение

Техника обучения словаря представляет собой важный шаг в интерпретации и управлении моделями ИИ. Она позволяет не только заглянуть внутрь "черного ящика", но и активно манипулировать его содержимым для достижения желаемых результатов. В будущем это может привести к созданию более прозрачных, предсказуемых и безопасных ИИ-систем, что особенно важно в контексте их растущего влияния на различные аспекты жизни.

Поиск