
Даже Покемоны не защищены от споров о бенчмарках искусственного интеллекта.
На прошлой неделе пост в X стал вирусным, утверждая, что последняя модель Google Gemini превзошла флагманскую модель Claude компании Anthropic в оригинальной трилогии видеоигр Pokémon. По сообщениям, Gemini достиг Лавандер Тауна в Твитч-стриме разработчика; в то время как Клод застрял на Горе Луны к концу февраля.
Гемини буквально опережает Клода в pokemon'ах после достижения Лавандер Тауна
Только 119 прямых просмотров, кстати, невероятно недооцененный стрим pic.twitter.com/8AvSovAI4x
- Джуш (@Jush21e8) 10 апреля 2025 г.
Но в посте не было упомянуто, что у Gemini было преимущество.
Как отметили пользователи на Reddit, разработчик, поддерживающий стрим Gemini, создал специальную миникарту, которая помогает модели идентифицировать "плитки" в игре, такие как деревья, которые можно срубить. Это уменьшает необходимость для Gemini анализировать снимки экрана перед принятием игровых решений.
Теперь, Pokémon - это максимум полусерьезный AI бенчмарк, но мало кто скажет, что это очень информативное тестирование возможностей модели. Но это поучительный пример того, как различные реализации бенчмарков могут влиять на результаты.
Например, Anthropic сообщила два показателя для своей недавней модели Anthropic 3.7 Sonnet на бенчмарке SWE-bench Verified, который предназначен для оценки способностей модели в области кодирования. Claude 3.7 Sonnet достиг 62,3% точности на SWE-bench Verified, но 70,3% с "пользовательским строительным каркасом", который разработала Anthropic.
Недавно Meta настроила версию одной из своих новых моделей, Llama 4 Maverick, чтобы хорошо справляться с определенным бенчмарком, LM Arena. Ванильная версия модели значительно хуже показывает себя на том же самом тестировании.
Учитывая, что бенчмарки искусственного интеллекта, включая Pokémon, изначально являются неполными мерами, специальные и нестандартные реализации могут только запутать карты еще сильнее. То есть, кажется маловероятным, что сравнивать модели станет проще по мере их появления.