GigaChat Ultra Thinking: mõtleb kauem – vastab halvemini?
GigaChat Ultra Thinking mõtleb kauem ja kulutab rohkem arvutusvõimsust. Juhtimisülesandeid lahendab see 3,3% halvemini kui versioon ilma arutluseta. See ei ole viga ega juhus – see on muster, mida akadeemilised tööd on viimase kahe aasta jooksul dokumenteerinud.
Sel nädalal tutvustas Sber GigaChat Ultrat – uut lipulaevmudelit arutlusrežiimiga (Thinking). Mudel on tasuta saadaval veebiversioonis, mobiilirakendustes ja Telegrami boti kaudu. Lisasime mõlemad variandid kohe oma AI-mudelite uuringusse juhtidele: lasime läbi kõik 32 stsenaariumi ühtse metoodika järgi, hindasime mõlema LLM-kohtuniku poolt, võrdlesime ülejäänud 52 mudeliga.
Loe edasi

