Epoch AI

Бенчмарки ИИ теряют смысл – как тогда выбирать модель

6 мин чтения

В марте мы разбирали, как устроены бенчмарки LLM – GPQA Diamond, SWE-bench, Chatbot Arena. В апреле протестировали 53 модели и обнаружили, что разница в качестве между топовыми моделями – десятые доли балла, а в цене – три порядка величины.

Теперь – следующий вопрос. Что если сами бенчмарки перестают работать?

Читать полностью
Бенчмарки ИИ теряют смысл – как тогда выбирать модель