AI-võrdlusuuringud kaotavad mõtte – kuidas siis mudelit valida
5 min lugemist
Märtsis vaatasime, kuidas LLM-i võrdlusuuringud on üles ehitatud – GPQA Diamond, SWE-bench, Chatbot Arena. Aprillis testisime 53 mudelit ja avastasime, et tippmudelite kvaliteedivahe on kümnendik punkti, hinnavahe aga kolm suurusjärku.
Nüüd – järgmine küsimus. Mis siis, kui võrdlusuuringud ise lakkavad töötamast?
Loe edasi