HLE — комплексный тест для оценки ИИ и его возможностей

HLE — новый комплексный тест для оценки ИИ, состоящий из более 3000 вопросов уровня PhD по различным дисциплинам. Он помогает отслеживать развитие возможностей языковых моделей и стимулирует обсуждение безопасности. Тест нацелен на структурированные проблемы и создан экспертами в области
Новости 2025 03 11

HLE — Комплексный тест для оценки ИИ

Humanity's Last Exam (HLE) представляет собой комплексный тест, разработанный для оценки возможностей современных моделей искусственного интеллекта. Этот тест включает более 3000 вопросов уровня PhD по различным дисциплинам, таким как математика, физика, биология и гуманитарные науки. В отличие от существующих бенчмарков, таких как MMLU, оценка точности HLE остается на низком уровне для многих современных моделей, что подтверждает его сложность и актуальность. Создание HLE стало возможным благодаря совместным усилиям специалистов из более чем 500 университетов и исследовательских учреждений по всему миру. Вопросы прошли тщательную проверку, где оценивались как результаты моделей, так и мнения экспертов. Этот тест служит важным инструментом для ученых и политиков, позволяя лучше понимать достижения в области ИИ и обсуждать необходимые меры по его регулированию.

Введение

Бенчмарки являются ключевыми инструментами для анализа стремительного прогресса в возможностях больших языковых моделей (LLM). Однако существующие бенчмарки не всегда соответствуют растущей сложности задач: современные LLM демонстрируют более 90% точности на популярных тестах, таких как MMLU. Это создает проблему, поскольку достижения в области машинного обучения не могут быть точно оценены, что затрудняет определение их реальных возможностей. В ответ на эту ситуацию был разработан Humanity's Last Exam — многомодальный бенчмарк, призванный стать последним закрытым академическим тестом с обширным охватом тем. Он нацелен на шкалу человеческого знаний и стал ответом на необходимость более сложной и точной оценки модельных способностей, обеспечивая пространство для дальнейших исследований и безопасного регулирования искусственного интеллекта.

Сложность и сравнение

На фоне стремительного роста производительности современных моделей языкового моделирования, существующие бенчмарки, такие как MMLU, начали терять свою релевантность. Модели стремительно достигли уровня точности свыше 90% на этих тестах, что ставит под сомнение их способность адекватно измерять настоящие академические знания и навыки. В отличие от них, Humanity's Last Exam (HLE) демонстрирует низкий уровень точности для нескольких передовых моделей, что подчеркивает его эффективность в оценке закрытых академических возможностей. Этот тест, состоящий из 2,500 сложных вопросов по более чем ста дисциплинам, был создан для того, чтобы проверить действительно глубокие и специализированные знания, которые выходят за рамки типичных учебных курсов. Таким образом, HLE служит важным инструментом для измерения способностей моделей в контексте высоких стандартов образования, не позволяя им полагаться на случайные совпадения или поверхностные знания.

Данные

Humanity's Last Exam (HLE) представляет собой глобальную совместную инициативу, объединяющую усилия более 1 000 экспертов из свыше 500 академических учреждений в 50 странах мира. Основу команды составляют профессора, исследователи и обладатели ученых степеней, которые внесли свой вклад в разработку теста через краудсорсинг вопросов. Этот подход обеспечил разнообразие тем и сложность вопросов, охватывающих множество научных дисциплин, таких как математика, физика, биология и гуманитарные науки. Вопросы были тщательно отобраны и оценены как ведущими ИИ-моделями, так и человеческими экспертами, находя свое место среди лучших предложений. Таким образом, HLE не только служит мерилом возможностей современных языковых моделей, но и представляет собой уникальный пример международного сотрудничества в научном сообществе.

Будущие результаты моделей

В настоящее время модели LLM показывают низкую точность на тестах Humanity's Last Exam, что подчеркивает сложность и высокие требования данного бенчмарка. Однако история развития ИИ свидетельствует о том, что такие тесты быстро насыщаются: модели могут перейти от почти нулевой точности к практически идеальным результатам за короткие промежутки времени. Учитывая текущий темп развития технологий, вполне вероятно, что к концу 2025 года некоторые модели смогут преодолеть отметку в 50% точности на HLE. Высокие результаты на данном экзамене будут свидетельствовать о достижении экспертного уровня в области закрытых проверяемых вопросов и демонстрировать передовые знания в научной области. Тем не менее, важно отметить, что высокая точность тестирования не указывает на наличие в ИИ способности к автономным исследованиям или достижение "общего искусственного интеллекта", так как HLE в первую очередь направлен на оценку структурированных академических навыков.

Воздействие

Humanity's Last Exam (HLE) предоставляет уникальную возможность для ученых и политиков оценить прогресс в области искусственного интеллекта, создавая четкую меру для анализа возможностей современных моделей. Благодаря универсальному характеру теста, который охватывает широкий спектр академических дисциплин, HLE становится общим ориентиром для оценки способностей AI. Это помогает в проведении более осмысленных и конструктивных дискуссий о путях развития технологий, их потенциальных рисках и необходимости создания адекватных мер регулирования. Результаты HLE могут стать основой для формирования стратегий и рекомендаций, которые позволят безопасно внедрять ИИ в различные сферы жизни, обеспечивая гармоничное сосуществование технологий и человечества.

Создание

Тест Humanity's Last Exam (HLE) был разработан Дэном Хендриксом, исследователем в области машинного обучения и директором Центра безопасности ИИ. Идея создать столь амбициозный экзамен возникла после его беседы с Илоном Маском, который выразил мнение, что существующие бенчмарки слишком легки для современных языковых моделей. В сотрудничестве с компанией Scale AI Хендрикс собрал вопросы от экспертов-предметников из различных научных учреждений по всему миру. Для обеспечения высокого качества вопросов они сначала подвергались фильтрации ведущими моделями ИИ; если модель не могла ответить или показывала результаты хуже случайного угадывания, вопросы оценивались людьми-экспертами. В итоге, только вопросы с высокими рейтингами были включены в финальный набор данных. Авторов лучших вопросов ожидали денежные призы из общего фонда в 500 000 долларов США, что дополнительно стимулировало качество и разнообразие полученного материала.

Состав

Бенчмарк Humanity's Last Exam (HLE) включает в себя 2700 вопросов в общедоступном наборе, охватывающих широкий спектр дисциплин. Вопросы классифицированы на различные предметные области, среди которых математика занимает наибольшую долю (41%). Физика, биология и медицина составляют 9% и 11% соответственно, тогда как гуманитарные и социальные науки, компьютерные науки и искусственный интеллект — 9% и 10%. Инженерия и химия занимают 5% и 6% вопросов. Примечательно, что около 13% вопросов требуют мультимодального подхода, то есть способности воспринимать как текстовую, так и визуальную информацию. Вопросы также делятся на две категории: 24% из них — это вопросы с множественным выбором, а остальные требуют кратких ответов с точным совпадением. Для проверки адаптации моделям поддерживается отдельный частный набор вопросов.

Поиск