mysummit.school

Epoch AI

AI-võrdlusuuringud kaotavad mõtte – kuidas siis mudelit valida

3. mai 2026

6 min lugemist

Märtsis vaatasime, kuidas LLM-i võrdlusuuringud on üles ehitatud – GPQA Diamond, SWE-bench, Chatbot Arena. Aprillis testisime 53 mudelit ja avastasime, et tippmudelite kvaliteedivahe on kümnendik punkti, hinnavahe aga kolm suurusjärku.

Nüüd – järgmine küsimus. Mis siis, kui võrdlusuuringud ise lakkavad töötamast?

AI-võrdlusuuringud kaotavad mõtte – kuidas siis mudelit valida