Оценка возможностей ИИ с помощью логических головоломок и экзаменов
В сфере искусственного интеллекта оценка истинных возможностей систем ИИ становится все более важной. Несмотря на то, что для проверки навыков ИИ в определенных областях, таких как лингвистика, математика и здравый смысл, используются различные эталонные тесты и человеческие экзамены, остается проблемой выяснить, действительно ли машины могут превзойти людей в этих областях.
Один из таких тестов, GPT-4, подвергался тестам на понимание текста, математике и программированию, а также 30 экзаменам на людях. Несмотря на то, что система преуспела в контрольных тестах, достигнув результатов наравне с лучшими 10% студентов на экзаменах, прохождение этих оценок не гарантирует превосходных результатов для людей в реальном мире.
Серьезную озабоченность вызывает то, что модели ИИ обучаются на огромном количестве текста, что позволяет им сталкиваться с похожими вопросами и давать готовые ответы, а не генерировать оригинальные ответы. Эта проблема «загрязнения» была предметом разногласий среди разработчиков LLM (Large Language Model), и были предприняты усилия, чтобы уменьшить ее влияние. Однако критики утверждают, что такой подход может неточно отражать реальные способности.
Кроме того, человеческие экзамены также могут создавать проблемы для систем ИИ. Например, ChatGPT продемонстрировал успешность на экзамене по бизнес-администрированию, но у него возникли трудности, когда вопрос был слегка перефразирован — задача, с которой люди справляются легко. Это подчеркивает тот факт, что машины и люди по-разному обрабатывают данные, что затрудняет приравнивание их результатов на экзаменах к показателю общего интеллекта.
В то время как человеческие экзамены надежно оценивают общий интеллект, понятие, которое включает в себя способность решать проблемы, адаптивность и абстрактное мышление, LLM не обязательно обладают истинным пониманием значения слов. Их знания ограничены языковыми конструкциями и лишены личного опыта, который помогает людям понять связь между языком и физическим миром.
Несмотря на эти ограничения, недавние эксперименты с GPT-4 выявили некоторые неожиданные способности, выходящие за рамки понимания языка. Исследователи зафиксировали случаи, когда GPT-4 демонстрировал навыки, связанные с пониманием человеческого опыта и прогнозированием поведения, что заставило некоторых считать его ранней версией общего искусственного интеллекта. Однако скептики утверждают, что такие утверждения преждевременны, поскольку истинная сущность человеческого познания остается неисследованной в LLM.
Для более глубокого понимания сильных и слабых сторон LLM требуются более сложные инструменты оценки. Цветные логические головоломки, такие как Корпус абстракций и рассуждений (ARC), предложенный Франсуа Шолле, стали потенциальными инструментами для оценки абстрактного мышления и способностей решать проблемы. Предоставляя визуальные демонстрации и прося системы ИИ экстраполировать шаблоны на новые проблемы, эти головоломки проверяют ключевую особенность человеческого разума.
В заключение, точная оценка возможностей и ограничений систем ИИ представляет собой серьезную проблему. Хотя эталонные тесты и человеческие экзамены дают ценную информацию, они могут не отражать истинную суть общего интеллекта и человеческого познания в LLM. Непрерывные исследования и разработка более совершенных инструментов оценки, таких как логические головоломки, имеют решающее значение для улучшения нашего понимания искусственного интеллекта и его потенциала в будущем.