
Исследователи обнаружили новый закон масштабирования искусственного интеллекта"? Об этом говорят в социальных сетях — но эксперты скептически настроены.
\n\nЗаконы масштабирования искусственного интеллекта — неформальное понятие, описывающее, как улучшается производительность моделей искусственного интеллекта по мере увеличения размера наборов данных и вычислительных ресурсов, используемых для их обучения. До примерно года назад масштабирование «предварительного обучения» — обучение все более крупных моделей на все более крупных наборах данных — было доминирующим законом. по крайней мере, в том смысле, что большинство лабораторий прикладного искусственного интеллекта его приняли.
\n\nПредварительное обучение не исчезло, но к нему добавились два дополнительных закона масштабирования: масштабирование после обучения и масштабирование во время тестирования. Масштабирование после обучения это в основном настройка поведения модели, тогда как масштабирование при тестировании подразумевает применение большего количества вычислительных мощностей к выводу — т. е. запуск моделей — для обеспечения формы «рассуждения» (см.: модели, такие как R1).
\n\nИсследователи из компании Google и Университета Калифорнии в Беркли недавно предложили в документе то, что некоторые комментаторы в Интернете описали как четвертый закон: «поиск во время вывода».
\n\nПоиск во время вывода позволяет модели генерировать множество возможных ответов на запрос параллельно, а затем выбирать «лучший» из них. Исследователи утверждают, что это может повысить производительность годовалой модели, такой как Google Gemini 1.5 Pro, до уровня, превосходящего модель «рассуждения» о1-preview OpenAI по научным и математическим показателям.
\n\n\n\n\nНаша статья фокусируется на этой оси поиска и ее тенденциях масштабирования. Например, просто случайным образом сэмплируя 200 ответов и самопроверяя, Gemini 1.5 (древняя модель начала 2024 года!) побеждает o1-Preview и приближается к o1. Это без донастройки, RL или исходных проверяющих. pic.twitter.com/hB5fO7ifNh
\n\n— Эрик Чжао (@ericzhao28) 17 марта 2025 года
\n
«[В] просто случайно сэмплируя 200 ответов и самопроверяясь, Гемини 1.5 — древняя модель начала 2024 года — побеждает o1-просмотр и приближается к o1,» написал Эрик Чжао, стажер-аспирант Google и один из соавторов статьи, в ряде постов на X. «Магия заключается в том, что самопроверка естественным образом становится проще на масштабе! Вы ожидали бы, что выбор правильного решения станет труднее, если у вас будет больший выбор решений, но на самом деле все наоборот!»
\nНесколько экспертов говорят, что результаты не удивительны, и поиск во время вывода может не пригодиться во многих сценариях.
\n\nМэтью Гуздиал, исследователь и ассистент профессор Университета Альберты, сообщил TechCrunch, что подход лучше всего работает, когда есть хорошая «функция оценки» — другими словами, когда лучший ответ на вопрос легко устанавливается. Но большинство запросов не являются настолько однозначными.
\n\n«[Е]сли мы не можем написать код для определения того, что мы хотим, мы не можем использовать [поиск во время вывода],» — сказал он. «Для чего-то вроде общего взаимодействия с языком, мы не можем это сделать [...] Это обычно не лучший подход для реального решения большинства проблем.»
\n\nМайк Кук, исследователь-стажер Королевского колледжа Лондона, специализирующийся на искусственном интеллекте, согласился с оценкой Гуздиала, добавив, что это подчеркивает разрыв между «рассуждением» в понимании искусственного интеллекта и наших собственных мыслительных процессов.
\n\n«[Поиск во время вывода] не 'повышает процесс рассуждения' модели,» — сказал Кук. «[Э]то просто способ работы вокруг ограничений технологии, склонной к очень уверенно поддерживаемым ошибкам [...] Интуитивно, если ваша модель ошибается 5% времени, то проверка 200 попыток решить ту же проблему должна облегчить обнаружение этих ошибок.»
\n\nТот факт, что поиск во время вывода может иметь ограничения, наверняка не будет радостной новостью для отрасли искусственного интеллекта, стремящейся масштабировать модели «рассуждения» с вычислительной эффективностью. Как отмечают соавторы статьи, сегодня модели рассуждения могут потреблять тысячи долларов вычислительных мощностей на одну математическую задачу.
\n\nПохоже, поиск новых техник масштабирования будет продолжаться.