Бенчмарки ИИ теряют смысл – как тогда выбирать модель
В марте мы разбирали, как устроены бенчмарки LLM – GPQA Diamond, SWE-bench, Chatbot Arena. В апреле протестировали 53 модели и обнаружили, что разница в качестве между топовыми моделями – десятые доли балла, а в цене – три порядка величины.
Теперь – следующий вопрос. Что если сами бенчмарки перестают работать?
Читать полностью