AI-võrdlusuuringud kaotavad mõtte – kuidas siis mudelit valida

5 min lugemist
Stanislav Belyaev
Stanislav Belyaev Engineering Leader Microsoftis
AI-võrdlusuuringud kaotavad mõtte – kuidas siis mudelit valida

Märtsis vaatasime, kuidas LLM-i võrdlusuuringud on üles ehitatud – GPQA Diamond, SWE-bench, Chatbot Arena. Aprillis testisime 53 mudelit ja avastasime, et tippmudelite kvaliteedivahe on kümnendik punkti, hinnavahe aga kolm suurusjärku.

Nüüd – järgmine küsimus. Mis siis, kui võrdlusuuringud ise lakkavad töötamast?

  1. mail 2026 avaldas Epoch AI – organisatsioon, mis on loonud mitu valdkonna võtmevõrdlusuuringut – arutelu kõneka pealkirjaga: «Are AI Benchmarks Doomed?». Kolm teadlast – Anson Ho, Greg Burnham ja Tom Adamczewski – analüüsisid, miks testid küllastuvad kiiremini, kui jõutakse uusi välja töötada, ja mida sellega peale hakata.

Vaatame nende argumente läbi prisma, mis on juhile oluline.

Probleem: võrdlusuuringud küllastuvad kiiremini, kui neid jõutakse luua

Varem elas uus võrdlusuuring aastaid. 2020. aastal loodud MMLU jäi asjakohaseks kuni 2024. aastani. Täna on olukord teine.

GPQA Diamond – test, milles isegi internetiligipääsuga eksperdid eksivad 60% juhtudest – pidas vastu kaks aastat. 2026. aasta standardite järgi on see erakordselt kaua. OpenAI GDPVal, mille väljatöötamiseks kulus miljoneid dollareid, on juba peaaegu küllastunud. Kui 2025. aasta talvel ilmusid arutlusvõimega mudelid (o1), sulgesid nad ühe hüppega matemaatikavõrdlusuuringud, mida peeti pikaajalisteks.

Muster on selge: mida kiiremini mudelid arenevad, seda lühema elueaga on testid.

Lõhe punktide ja ärilise väärtuse vahel

See on Epoch AI võtmetähelepanek ja see ühtib meie andmetega – samuti nende enda uuringuga tehisintellekti kasutuse sügavusest: 62% kasutajatest rakendavad mudeleid vaid ühe-kahe ülesande jaoks. GPQA Diamondi küllastumine ei toonud kaasa proportsionaalset majanduslikku mõju. Mudelid, mis koguvad eksperttestides 90%+, ei muutunud tüüpiliste juhtimisülesannete jaoks kaks korda kasulikumaks.

Põhjus on selles, et võrdlusuuringud mõõdavad töö «isepiisavat» osa. Keerulisele füüsikaküsimusele vastata on üks asi. Seda vastust projekti konteksti sobitada, poliitilisi piiranguid arvestada, kolme huvirühmaga kooskõlastada ja vormistada formaadis, mille finantskomitee vastu võtab – see on teine asi.

Meie 53 mudeli testimises nägime sama: vahe 0,17 ja 0,002 dollarit päringu eest maksvate mudelite vahel oli 0,24 punkti viiepallisel skaalal. Võrdlusuuringud näitavad lõhet. Reaalsed ülesanded ei näita.

Lõhe punkti ja tegeliku kasu vahel on näidetes ilmne. Keerulisem on muu: kuidas kujundada praktilist vaistu selle suhtes, mida mudel oskab teha just sinu jaoks. Seda ei loe tabelist välja – see kujuneb ülesannete kaudu.

Proovi 9 juhtimisülesannet tasuta. Sinu tulemus räägib mudelist rohkem kui ükski võrdlusuuring.

Makset ei nõuta • Teavitus käivitumisel

Liitu nimekirjaga

Kolm hindamiskategooriat – ja miks see on oluline

Tom Adamczewski pakkus välja kasuliku klassifikatsiooni sellest, kuidas mudeleid üldse hinnata saab:

KategooriaKuidas töötabNäideProbleem
MasinkontrollAlgoritm võrdleb vastust etalonigaMMLU, FrontierMathKüllastub kergesti – mudelid õpivad testi lahendama
LLM kohtunikunaTeine mudel hindab vastust rubriigi aluselMeie 54 mudeli testimineSõltuvus kohtuniku kvaliteedist
InimhinnangInimesed hindavad tulemustChatbot Arena, Remote Labor IndexKallis ja aeglane

Juhi jaoks on oluline järeldus: mida lähemal on hinnang reaalsele tööle, seda kallim ja aeglasem see on – aga ka kasulikum. Automaatsed testid annavad numbri. Inimhinnang annab arusaamise.

Just seetõttu jääb Chatbot Arena – edetabel, milles elavad inimesed pimesi vastuseid võrdlevad – kõige usaldusväärsemaks. See on kõige lähemal sellele, kuidas sina tööriista valid: «milline vastus mind rohkem aitas?»

Mis tuleb klassikaliste võrdlusuuringute asemele

Epoch AI toob esile mitu suunda, mis väärivad tähelepanu.

Skaleeruvad ülesannete perekonnad

Fikseeritud küsimuste komplekti asemel – reguleeritava keerukusega ülesanded. Näide on MirrorCode, Epoch AI ja METR ühisprojekt. Mudel peab taastama programmi, nähes ainult selle käitumist. Keerukus skaleerub 100 koodireast kuni 100 000+. Parimad mudelid kulutasid miljardeid tokeneid Apple Pkl-i (16 000 rida C-keeles) taasimplementeerimisele – ega lõpetanud ülesannet täielikult.

Juhi jaoks on analoogia selge: see on nagu testida töötajat mitte teooria tundmise, vaid kasvava keerukusega projekti täitmise võime järgi.

Reaalne töö testide asemel

Scale AI Remote Labor Index võtab umbes 100 reaalset ülesannet Upworkist ja kontrollib, kas tehisintellekti tulemus rahuldab tegelikku tellijat. See võrdlusuuring pole veel küllastunud – sest «tellija rahuldamine» sisaldab tuhandeid vormistamatuid nüansse.

Olemasolev taristu

Uute testide loomise asemel saab kasutada juba toimivaid hindamissüsteeme: teaduskonverentse (esita tehisintellekti kirjutatud artikkel retsenseerimisele), kirjanduskonkursse, kutsesertifikaate. Mudel, mis saab NeurIPS-il positiivse retsensiooni, tõestab rohkem kui ükski automaatne test.

Valida tehisintellekti tulemuse, mitte edetabeli järgi – see on oskus. 9 ülesannet reaalsetel mudelitel, tasuta, 30 minutiga.

Makset ei nõuta • Teavitus käivitumisel

Liitu nimekirjaga

Mida see tähendab tehisintellekti tööriista valimisel

Kui võrdlusuuringud kaotavad ennustusjõu, kuidas siis juht otsust peaks tegema?

Kõige otsesem lähenemine on testida oma meeskonna konkreetsete, mitte abstraktsete ülesannete peal. Kolm-viis tüüpilist stsenaariumi, mis on läbi kahe-kolme mudeli aetud, annavad rohkem kui tabel kahekümne võrdlusuuringuga. Kirjeldasime seda lähenemist põhjalikult 54 mudeli uuringus. Kui tundub, et odav mudel ei tule toime, kontrolli: võib-olla pole asi mudelis, vaid päringu kvaliteedis – struktureeritud juhised kompenseerivad sageli mudeli suuruse erinevuse.

Tasub vaadata «kvaliteeti dollari kohta», mitte absoluutset punktiarvu. Kimi K2.5 annab 99% GPT-5.2 Pro kvaliteedist 1,4% hinna eest. Ükski võrdlusuuring seda ei näita – ainult otsene võrdlus sinu ülesannetel.

Kasulik on jagada ülesanded keerukuse järgi. Strateegia 80/20 – rutiin odavale mudelile, kriitilised ülesanded premium-mudelile – vähendab kulusid 79% võrra, kaotades 11% kvaliteedist. Mida sinu kontekstis «rutiinseks» ülesandeks pidada – selle otsustad ainult sina.

Kõikidest hindamissüsteemidest on Chatbot Arena ja Remote Labor Index reaalsele kasutusele kõige lähemal. Arena näitab inimeste eelistusi, Remote Labor Index – tellijate rahulolu.

Võrdlusuuringud ei sure – nad kasvavad suureks

Epoch AI järeldus pole see, et võrdlusuuringud oleksid kasutud. Nad fikseerivad endiselt võimekuse üleminekuid – hetke, mil mudel «õppis» midagi uut. Aga nende roll muutub: ainsast valikukriteeriumist üheks signaalidest.

Juhi jaoks tähendab see mugava illusiooni lõppu. Ei saa lihtsalt tabelisse vaadata ja öelda: «See mudel on parem, võtame.» Tuleb mõista, mida täpselt sa mõõdad, miks ja kuidas tulemus sinu ülesannetega seostub.

Vahe «mudel kogus GPQA-l 92%» ja «mudel säästis meie meeskonnale 12 tundi nädalas» vahel – see on vahe võrdlusuuringu ja reaalsuse vahel. Oskus tõlkida esimesest teiseks on 2026. aasta juhi jaoks üks võtmeoskustest.

Spetsialiseerumine

Edetabelitest reaalsete tulemusteni

MySummiti kursus: Foundation tehisintellektiga kriitilise mõtlemise kohta ja juhtide rada. Õpi mudeleid hindama ülesannete, mitte võrdlusuuringute järgi.

От pre-mortem до антикризисного плана
Переиспользуемые промпт-шаблоны
Сквозной кейс на реальном проекте
~300 часов экономии в год
Stanislav Belyaev

Stanislav Belyaev

Engineering Leader Microsoftis

18 aastat insenerimeeskondade juhtimist. mysummit.school asutaja. 700+ lopetajat Yandex Practicumis ja Stratoplanis.