Бенчмарки ИИ теряют смысл – как тогда выбирать модель

6 мин чтения
Stanislav Belyaev
Stanislav Belyaev Engineering Leader в Microsoft
Бенчмарки ИИ теряют смысл – как тогда выбирать модель

В марте мы разбирали, как устроены бенчмарки LLM – GPQA Diamond, SWE-bench, Chatbot Arena. В апреле протестировали 53 модели и обнаружили, что разница в качестве между топовыми моделями – десятые доли балла, а в цене – три порядка величины.

Теперь – следующий вопрос. Что если сами бенчмарки перестают работать?

1 мая 2026 года Epoch AI – организация, которая создала несколько ключевых бенчмарков индустрии, – опубликовала дискуссию с говорящим названием: «Are AI Benchmarks Doomed?». Три исследователя – Anson Ho, Грег Бёрнхэм и Том Адамчевский – разобрали, почему тесты насыщаются быстрее, чем их успевают разрабатывать, и что с этим делать.

Разберём их аргументы через призму того, что важно менеджеру.

Проблема: бенчмарки насыщаются быстрее, чем создаются

Раньше новый бенчмарк жил годами. MMLU, созданный в 2020 году, оставался релевантным до 2024-го. Сегодня ситуация другая.

GPQA Diamond – тест, в котором даже эксперты с доступом в интернет ошибаются в 60% случаев – продержался два года. По стандартам 2026-го это исключительно долго. GDPVal от OpenAI, на разработку которого ушли миллионы долларов, уже почти насыщен. Когда зимой 2025 года появились модели с рассуждениями (o1), они одним рывком закрыли математические бенчмарки, которые считались долгосрочными.

Паттерн прослеживается чётко: чем быстрее развиваются модели, тем короче живут тесты.

Разрыв между баллами и бизнес-ценностью

Это ключевое наблюдение Epoch AI, и оно совпадает с нашими данными – а также с их собственным исследованием глубины использования ИИ: 62% пользователей применяют модели лишь на одну-две задачи. Насыщение GPQA Diamond не привело к пропорциональному экономическому эффекту. Модели, набирающие 90%+ по экспертным тестам, не стали в два раза полезнее для типичных управленческих задач.

Причина – в том, что бенчмарки измеряют «самодостаточную» часть работы. Ответить на сложный вопрос по физике – это одно. Встроить этот ответ в контекст проекта, учесть политические ограничения, согласовать с тремя стейкхолдерами и оформить в формате, который примет финансовый комитет – это другое.

В нашем тестировании 53 моделей мы видели то же самое: разница между моделями за $0,17 и $0,002 за запрос – 0,24 балла по пятибалльной шкале. Бенчмарки показывают разрыв. Реальные задачи – нет.

Разрыв между баллом и реальной пользой очевиден на примерах. Сложнее другое: как выработать практическое чутьё на то, что модель умеет делать именно для вас. Это не читается из таблицы – это формируется через задачи.

Попробуйте 9 управленческих задач бесплатно. Ваш результат расскажет о модели больше, чем любой бенчмарк.

Доступ сразу после регистрации

Начать обучение

Три категории оценки – и почему это важно

Том Адамчевский предложил полезную классификацию того, как вообще можно оценивать модели:

КатегорияКак работаетПримерПроблема
Машинная проверкаАлгоритм сравнивает ответ с эталономMMLU, FrontierMathЛегко насыщается – модели учатся «решать тест»
LLM-как-судьяДругая модель оценивает ответ по рубрикеНаше тестирование 54 моделейЗависимость от качества судьи
Человеческая оценкаЛюди оценивают результатChatbot Arena, Remote Labor IndexДорого и медленно

Для менеджера важен вывод: чем ближе оценка к реальной работе, тем она дороже и медленнее – но и полезнее. Автоматические тесты дают цифру. Человеческая оценка даёт понимание.

Именно поэтому Chatbot Arena – рейтинг, в котором живые люди вслепую сравнивают ответы – остаётся самым авторитетным. Он ближе всего к тому, как вы выбираете инструмент: «какой ответ мне больше помог?»

Что приходит на смену классическим бенчмаркам

Epoch AI выделяет несколько направлений, которые заслуживают внимания.

Масштабируемые семейства задач

Вместо фиксированного набора вопросов – задачи с регулируемой сложностью. Пример – MirrorCode, совместный проект Epoch AI и METR. Модель должна воспроизвести программу, видя только её поведение. Сложность масштабируется от 100 строк кода до 100 000+. Лучшие модели потратили миллиарды токенов на реимплементацию Apple Pkl (16 000 строк на C) – и не завершили задачу полностью.

Для менеджера аналогия понятна: это как тестировать сотрудника не на знание теории, а на способность выполнить проект растущей сложности.

Реальная работа вместо тестов

Remote Labor Index от Scale AI берёт ~100 реальных задач с Upwork и проверяет, удовлетворит ли результат ИИ настоящего заказчика. Этот бенчмарк пока не насыщен – потому что «удовлетворить заказчика» включает в себя тысячу неформализуемых нюансов.

Существующая инфраструктура

Вместо того чтобы создавать новые тесты, можно использовать уже работающие системы оценки: научные конференции (подать статью, написанную ИИ, на рецензирование), литературные конкурсы, профессиональные сертификации. Модель, которая получит положительную рецензию на NeurIPS, доказывает больше, чем любой автоматический тест.

Выбирать ИИ по результату, а не по рейтингу – это навык. 9 задач на реальных моделях, бесплатно, за 30 минут.

Доступ сразу после регистрации

Начать обучение

Что это значит для выбора ИИ-инструмента

Если бенчмарки теряют предсказательную силу, как тогда менеджеру принимать решение?

Самый прямой подход – тестировать на конкретных задачах вашей команды, а не на абстрактных. Три–пять типичных сценариев, прогнанных через две-три модели, дадут больше, чем таблица с двадцатью бенчмарками. Мы подробно описали этот подход в исследовании 54 моделей. Если кажется, что бюджетная модель не справляется, проверьте: может, это вопрос не в модели, а в качестве промпта – структурированные инструкции часто компенсируют разницу в размере модели.

Стоит смотреть на «качество на доллар», а не на абсолютный балл. Kimi K2.5 даёт 99% качества GPT-5.2 Pro за 1,4% цены. Ни один бенчмарк это не покажет – только прямое сравнение на ваших задачах.

Полезно разделить задачи по сложности. Стратегия 80/20 – рутину на бюджетную модель, критичные задачи на премиум – снижает расходы на 79% при потере 11% качества. Что считать «рутинной» задачей в вашем контексте – это вопрос, который решаете только вы.

Из всех систем оценки Chatbot Arena и Remote Labor Index ближе всего к реальному использованию. Arena показывает предпочтения людей, Remote Labor Index – удовлетворённость заказчиков.

Бенчмарки не умирают – они взрослеют

Вывод Epoch AI – не в том, что бенчмарки бесполезны. Они по-прежнему фиксируют переходы возможностей – момент, когда модель «научилась» чему-то новому. Но их роль меняется: от единственного критерия выбора к одному из сигналов.

Для менеджера это означает конец удобной иллюзии. Нельзя просто посмотреть в таблицу и сказать: «Эта модель лучше, берём». Нужно понимать, что именно вы измеряете, почему и как результат соотносится с вашими задачами.

Разница между «модель набрала 92% на GPQA» и «модель сэкономила нашей команде 12 часов в неделю» – это разница между бенчмарком и реальностью. Навык перевода из первого во второе – один из ключевых для менеджера в 2026 году.

Специализация

От рейтингов к реальным результатам

Курс MySummit: Foundation по критическому мышлению с ИИ и трек для менеджеров. Научитесь оценивать модели по задачам, а не по бенчмаркам.

От pre-mortem до антикризисного плана
Переиспользуемые промпт-шаблоны
Сквозной кейс на реальном проекте
~300 часов экономии в год
Stanislav Belyaev

Stanislav Belyaev

Engineering Leader в Microsoft

18 лет в управлении инженерными командами. Основатель mysummit.school. 700+ выпускников в Яндекс Практикуме и Стратоплане.