KazLLM ja suveräänne AI: Kasahstani riigiametniku teejuht

10 min lugemist
KazLLM ja suveräänne AI: Kasahstani riigiametniku teejuht
  1. veebruaril 2026 kritiseeris president Tokajev valitsuse istungil avalikult KazLLM-i. Mudelit, mis käivitati suure kõminaga 2024. aasta detsembris, kasutab vaid 600 000 inimest – 3% riigi elanikkonnast. Võrdluseks: ChatGPT-d kasutab Kasahstanis 2,6 miljonit inimest. President oli otsekohene: KazLLM «ei suuda ChatGPT-ga konkureerida».

See avaldus seab küsimuse teravalt. Milleks vajab Kasahstan oma keelemudelit, kui globaalsed lahendused töötavad paremini? Ja kui suveräänne AI on vajalik – miks see kaotab?

Vastus on keerulisem, kui paistab. Sest KazLLM ei ole «kasahhi ChatGPT». See on täiesti erinev tööriist erineva ülesandega. Ja nende võrdlemine on sama, mis võrrelda riiklikku elektrijaama imporditud kodumasinaga.

Miks vajab riik oma keelemudelit

Kui riigiametnik töötleb kodanike pöördumisi ChatGPT kaudu, juhtub korraga kolm asja. Kodanike isikuandmed lähevad OpenAI serveritesse USA-sse. Kasahhi keele kontekst – aglutinatiivne morfoloogia, kasahhi ja vene keele vahel lülitumine – tõlgendatakse kadudega. Ja riik ei kontrolli teenuse kättesaadavust, hinda ega andmetöötluse poliitikat.

See ei ole teoreetiline risk. Kui Itaalia blokeeris 2023. aastal ChatGPT GDPR-i rikkumiste tõttu, peatusid sellest sõltuvad riiklikud protsessid. Kui OpenAI kehtestab piiranguid teatud piirkondadele – tagajärjed on ettearvamatud. AI abil tehtud otsuste eest vastutamise küsimus ulatub kaugelt üle tehnoloogia piiride.

Suveräänne mudel lahendab selle probleemi arhitektuuriliselt. Andmed ei lahku riiklikust infrastruktuurist. Mudel on treenitud kasahhi keelel, arvestades piirkondlikke dialekte. Ja riik kontrollib iga elementi – arvutusvõimsustest algoritmideni.

Kasahstan ei ole selles üksi. AÜE ehitas Falconi, Jaapan – Fugaku-LLM-i, Taiwan – TAIDE, Singapur – SEA-LION-i. Iga neist riikidest jõudis sama järelduseni: sõltuvus võõrastest mudelitest on strateegiline haavatavus.

Mis on KazLLM tegelikult

KazLLM – ametlikult ISSAI KAZ-LLM – on välja töötatud Nutikate süsteemide ja tehisintellekti instituudi (ISSAI) poolt Nazarbajevi Ülikooli juures koostöös QazCode’iga (VEON/Beeline Kazakhstan allüksus). Rahvusvahelist tuge pakkusid Barcelona Superarvutuskeskus ja GSMA Foundry. 2025. aasta märtsis pälvis mudel GSMA Foundry Excellence Award’i ja esitleti Mobile World Congressil Barcelonas.

Üllatavalt – sellise rahvusvahelise tunnustuse juures on 600 000 kasutajat ChatGPT 2,6 miljoni vastu. Auhind on muljetavaldav, aga numbrid räägivad muud.

Tehniliselt on mudel ehitatud Meta Llama 3.1 arhitektuurile – tõestatud avatud lähtekoodiga raamistikule. Meeskond ei ehitanud arhitektuuri nullist, vaid kohandas olemasolevat, treenides neurovõrgu kaalud ümber kasahhi keele prioritiseerimiseks. Saadaval on kaks versiooni: kompaktne 8-miljardne kiirete ülesannete jaoks ja täielik 70-miljardne keeruka analüüsi jaoks. Mõlemad mudelid on avaldatud Hugging Face’is – neid saab alla laadida, testida ja oma infrastruktuuri paigaldada.

Peamine eelis on andmed. ISSAI juures tegutsev erikomando «Token Factory» kogus ja kureeris üheksa kuu jooksul treeningkorpust, mis sisaldab üle 150 miljardi tokeni. Allikad – kasahhi veebilehed, riiklikud arhiivid, akadeemiline kirjandus. Mudel on treenitud neljal keelel – kasahhi, vene, inglise ja türgi – toetades koodilülitust, kui inimene vahetab keelt ühe lause sees. Just see eristab KazLLM-i globaalsetest mudelitest: piirkonna mitmekeelse reaalsuse sügav mõistmine.

Miks on siis võrdlus ChatGPT-ga ebakorrektne? Kazahtelecomi juhatuse esimees Bagdat Mussin sõnastas selle analoogia kaudu: fundamentaalne keelemudel on nagu riiklik elektrijaam. See toodab «intellektuaalset energiat». ChatGPT ja sarnased teenused on aga kodumasinad: kasulikud ja mugavad, aga töötavad võõra pistiku taga.

ISSAI ise avaldas pärast Tokajevi kriitikat üksikasjaliku analüüsi. Ressursside mastaap räägib enda eest: Llama loomiseks kasutas Meta üle 16 000 NVIDIA DGX H100 sõlme ja enam kui 400 teadlast. ISSAI meeskond töötas 8 DGX H100 sõlmel, mille tagas eraõiguslik telekomiettevõte.

Samas tunnistab instituut: «AI on võidujooks. Uued mudelid ilmuvad umbes iga kuue kuu tagant ja KazLLM-i tuleb edasi arendada.» Kuid pärast mudeli üleandmist Astana Hubile 2024. aasta detsembris ISSAI-lt «ei palutud jätkata selle arendamist». Mudel jäi uuendusteta, samal ajal kui konkurendid väljastavad uusi versioone iga kvartal.

Alem LLM ja Alem.Cloud superarvuti

Paralleelselt KazLLM-iga käivitas riik teise mastaabiga infrastruktuuriprojekti. Alem.Cloud on riiklik superarvuti ja Kesk-Aasia võimsaim arvutusklaster. Selle parameetrid: 2 eksaflopsi jõudlust (FP8), 512 NVIDIA H200 GPU-d.

Nende kiipide hankimine oli iseenesest geopoliitiline manööver – see nõudis läbirääkimisi USA-ga eksportlitsentside saamiseks keset ülemaailmseid piiranguid tipptasemel GPU-de tarnimisele.

Alem LLM on teine suveräänne mudel, mis töötab sellel infrastruktuuril. Nagu KazLLM, on see mitmekeelne (kasahhi, vene, inglise, türgi) ja mõeldud riiklikele teenustele. Peamine erinevus on sügav integratsioon riikliku arvutusressursiga: andmeid töödeldakse Kasahstani territooriumil, riiklikul varustamisel.

Sellel infrastruktuuril ehitatakse Riiklikku tehisintellekti platvormi – turvalist keskkonda, kus riiklikud arendajad ja partnerülikoolid saavad ligipääsu arvutusvõimsustele, puhastatud andmekogudele ja eeltreenitud mudelitele. 2026. aasta jaanuaris Davosi foorumil kuulutati välja partnerlused NVIDIA, OpenAI ja Scale AI-ga – superarvutuse, haridusinfrastruktuuri ja RLHF-põhise andmete ettevalmistamise valdkonnas.

AI-agendid riigihalduses: plaanid vs tegelikkus

Abstraktsed mudelid omandavad väärtuse, kui muutuvad konkreetseteks tööriistadeks. Kasahstan teatas üle kümne spetsialiseeritud AI-agendi käivitamisest riiklike protsesside jaoks. Kuid oluline on eristada plaane tegelikkusest.

Mis juba töötab:

  • AI Therapist – ainus kinnitatud pilootprojektiga agent. Käivitatud 30 kliinikus Akmola oblastis. Analüüsib arsti ja patsiendi vestlust reaalajas, väljastab esialgseid diagnoose kuni 80% täpsusega ja vähendab dokumentatsiooni koostamise aega kuni 40%. Plaanis on laiendamine kõigile meditsiiniasutustele riigis.

Mis on välja kuulutatud, aga veel arendamisel:

  • AlemGPT / eGov AI – AI-assistent riigiteenuste portaalile. Digiministeerium testib prototüüpi. 2026. aasta lõpuks plaanitakse käivitada 50 AI-agenti umbes 7 miljoni kasutaja teenindamiseks.
  • Tax Helper – virtuaalne maksunõustaja. Välja kuulutatud osana maksusüsteemi digitaliseerimisest, aga käivitamise kohta andmed puuduvad.
  • QQazaq Law – juriidiline assistent munitsipaalaktide vastavuse kontrollimiseks seadusandlusele. Mainitud strateegilistes dokumentides, aga tegeliku käivitamise kinnitusi ei ole.
  • e-Otinish AI – kodanike avalduste ja pöördumiste töötlemise süsteem. Kirjeldatud kontseptuaalsetes materjalides, käivitamise kohta andmeid ei leitud.

See paneb mõtlema. Lõhe teadaannete ja tegeliku juurutamise vahel on veel üks tahk sellest probleemist, millest Tokajev rääkis. Infrastruktuuri ehitatakse, aga tee mudelist riigiametniku käes töötava tooteni osutub pikemaks, kui plaaniti.

Agendid on kasutud ilma kvaliteetsete andmeteta. Platvorm Smart Data Ukimet lahendab seda ülesannet – 2025. aasta keskpaigaks ühendas see 124 riiklikku infosüsteemi, toetas 80 analüütilist kasutusjuhtu ja teenindas üle 8 500 riigiametniku. Osakonnajuhi jaoks tähendab see üleminekut reaktiivselt juhtimiselt prognoosivale – infrastruktuuri rikete prognoosimine ja ressursside jaotamine algoritmi-põhiste teadmiste alusel reaktiivse tuletõrjumise asemel.

Multimodaalsed tööriistad: tekstist kaugemale

Kasahstani suveräänse AI ökosüsteem ulatub tekstimudelitest kaugemale. ISSAI töötas välja rea multimodaalseid tööriistu – kõik on saadaval demoversioonidena instituudi veebilehel:

  • Oylan – multimodaalne mudel (keel + heli + video). Potentsiaalselt rakendatav meediaseires, videosalvestuste analüüsis ja riiklike arhiivide transkribeerimises. Mudel on suletud – erinevalt KazLLM-ist ei ole Oylan avaldatud Hugging Face’is ja selle arhitektuur on ISSAI toe sõnul «konfidentsiaalne».

    Huvitav detail: Telegrami kogukonna kasutajad avastasid, et Oylan identifitseerib end Qwen’ina Alibaba Cloudilt. ISSAI tugi nimetas seda «laialt tuntud nähtuseks LLM-ides» – aga küsimus mudeli tegelikust alusest jäi otsese vastuseta. Kaudsete tunnuste järgi – multimodaalsus (tekst + pildid + video) ja versioonide kokkulangevus – on aluseks tõenäoliselt Qwen2.5-VL või hilisem variant Qweni perekonnast.

    Seda kinnitab ka akadeemiline publikatsioon: ISSAI meeskonna uurimisartiklis on mudel Qolda kirjeldatud kui Qwen3-4B baasil ehitatud, integreerituna InternVL3.5 arhitektuuri – Qweni perekond on selgelt instituudi multimodaalsete projektide alus. Testimisel leiti ka faktivigu – mudel ajas segamini Abai teoste autorlust ja kasutas aegunud geopoliitilisi andmeid.

  • MangiSoz – kõne tuvastamise ja sünteesi mootor koos tõlkimisega. Kavandatud diplomaatilise kirjavahetuse ja asutuste vahelise suhtluse tööriistana mitmekeelsetes piirkondades. Ja taas tuttav lugu: testimisel paljastas tõlkemudel oma identiteedi – Google Gemma. See ei ole pelgalt kaudne tunnus: ISSAI ametlikul veebilehel (mai 2025) on otseselt märgitud, et instituut «uurib potentsiaalset koostööd Google’iga Gemma mudeli peenhäälestamiseks kasahhi keele jaoks». Seega on MangiSozi aluseks Google’i avatud lähtekoodiga mudel, mis on peenhäälestatud kasahhi keele jaoks.

MangiSoz tõlgib artikli teksti vene keelest kasahhi keelde koos helindamisega – ISSAI teenuse liides

Näiteks tõlkisime selle artikli katkendi vene keelest kasahhi keelde ja helindamise tulemus – mehe ja naise häälega:

MangiSozi meeshääl

MangiSozi naishääl

MangiSozi demo tõlkimisega mitme keele vahel:

Kogukonnas on näha reaalset nõudlust MangiSozi järele: kasutajad küsivad API-ligipääsu ja võimalust paigaldada on-premise (ilma internetita) – mis on kriitiliselt oluline suletud kontuuriga riigiasutustele. Toe andmetel on avalik API eraldi teenustega (TTS, STT, tõlge) ettevalmistamise lõppfaasis.

  • TilSync – reaalajas subtiitrimise süsteem. Mõeldud tagama riiklike ülekannete kättesaadavust kasahhi, vene ja inglise keeles.
  • Beynele – pildigeneraator, mis on treenitud Kesk-Aasia visuaalkultuuril. Võimaldab luua visuaalset sisu ilma sõltuvuseta lääne generaatoritest.

Beynele liides – Kasahstani pildigeneraator ISSAI-lt: viip, suuruse seaded ja galerii Kesk-Aasia temaatikaga

Beynele genereerimise tulemus: riigiametnik arvuti taga kontoris Astana vaatega, kasahhi ornament seinal, analüütilised graafikud ekraanil

Sama lugu nagu Oylaniga: küsimusele «what model(AI) are you» genereeris Beynele pildi Qweni logoga – Alibaba Cloudi mudel. Qwen ise on tekstimudel, mitte pildigeneraator. Kuid Alibaba Cloudi ökosüsteemis on tekst-pildiks mudel Tongyi Wanxiang (通义万相, Wan seeria), mis on kättesaadav sama API kaudu. Tõenäoliselt on Beynele peenhäälestatud Tongyi Wanxiang kasahhi kultuurilise spetsiifikaga, töötades Qwen/Tongyi ühise kaubamärgi all.

Beynele genereerib küsimusele «what model are you» pildi Alibaba Cloudi Qweni logoga

ISSAI-l on Telegrami kogukond, kus saab jälgida uuendusi ja esitada arendajatele küsimusi.

Oluline märkus: kõik neli tööriista on uurimuslike demoversioonide staadiumis. Sõltumatuid ülevaateid ega võrdlusi analoogidega (Google Translate, Whisper, Midjourney) ei ole artikli kirjutamise hetkel leitud. Telegrami kogukonnas teatavad kasutajad tehnilistest probleemidest – nulltokenid uutel kontodel, ebastabiilne API töö. Tugi reageerib, aga need on toote varase staadiumi iseloomulikud tunnused. Juurutamist planeeriva riigiametniku jaoks tähendab see: testimist väärt, aga tööstuslikuks kasutamiseks veel vara.

Tehisintellekti seadus: raamistik kõigile

  1. jaanuaril 2026 jõustus Kasahstani Vabariigi tehisintellekti seadus (N 230-VIII) – esimene terviklik AI-seadus Kesk-Aasias. Allkirjastatud 17. novembril 2025, töötati see välja 13 riigiasutuse kooskõlastamisel sotsioloogide, filosoofide ja juristide osalusel.

Seaduse põhisätted:

  1. AI-süsteemide riskitaseme klassifikatsioonisüsteem (sarnane EU AI Actiga).
  2. AI kasutamise läbipaistvuse nõuded riiklikes otsustes.
  3. AI-genereeritud teosed on autoriõigusega kaitstud ainult inimese loomingulise panuse olemasolu korral (viipamine, redigeerimine). Ette on nähtud õigus keelduda andmete kasutamisest treenimiseks.
  4. Selgesõnalised keelud AI kasutamisele kodanike psühholoogiliseks manipuleerimiseks.

Riigiametnike jaoks tähendab see: iga ametkondlik AI juurutamine peab läbima regulaarse auditi eetiliste standardite ja kodanike õiguste vastavuse osas.

Probleem number üks: kompetentsilõhe

Infrastruktuur on olemas. Mudelid on olemas. Seadus on olemas. AI-agendid on käivitatud. Aga Tokajevi kriitika osutab peamisele probleemile – lõhele tehnoloogia ja selle kasutamise vahel.

600 000 KazLLM-i kasutajat 2,6 miljoni ChatGPT kasutaja vastu – see ei ole kohtuotsus mudeli kvaliteedile. See on indikaator, et inimesed ei tea, milleks ja kuidas suveräänseid tööriistu kasutada. Mudel, mida ei mõisteta ega rakendata, on kasutu – ükskõik kui võimas see ka ei oleks. See ei ole ainult Kasahstani eripära – analoogset lõhet on tuvastatud üle kogu maailma.

Programm AI Qyzmet – riigiametnike kohustuslik AI-sertifitseerimine – on mõeldud selle lõhe ületamiseks. Programm AI Sana on suunatud 650 000 üliõpilase koolitamisele. Keskus Alem.ai Astanas plaanib 2029. aastaks koolitada 10 000 AI-spetsialisti aastas.

Aga väljakutse ulatus on tohutu. Haridusprogrammid alles käivituvad, aga riigiametnikud töötavad juba täna ChatGPT-ga – kasutades seda ülesannete jaoks, kus suveräänsed tööriistad oleksid turvalisemad ja täpsemad. Uuringud kinnitavad: ilma süsteemse koolituseta tehnoloogia ei juurdu.

See paneb mõtlema: riik investeerib miljardeid tehnoloogiasse, mis seisab kasutamata, sest kasutajaid ei ole õpetatud sellega töötama.

Mida see tähendab riigiametniku jaoks

Me testisime Oylani, MangiSozi ja Beynelet – ja nägime tuttavat pilti. Mudelid töötavad, aga mööndustega. Oylan ajas segamini Abai teoste autorlust ja nimetas Bidenit USA kehtivaks presidendiks 2025. aasta lõpus. MangiSoz annab vastuvõetava tõlke, aga fassaadi taga on Google Gemma. Nagu näitavad Anthropicu uuringud, AI-süsteemid eksivad mitte järjekindlalt, vaid kaootiliselt – ja see puudutab iga mudelit, suveräänset või globaalset.

Suveräänne AI ei ole enam tulevik. Platvorm, mudelid ja agendid on olemas. Küsimus ei ole selles, kas teie ametkond hakkab AI-d kasutama, vaid selles, kas te juhite seda protsessi – või toimub see iseenesest, töötajate isiklike ChatGPT-kontode kaudu. Samas ei kao globaalsed mudelid kuhugi: ChatGPT, Claude, Gemini jäävad võimsateks tööriistadeks ülesannete jaoks, mis ei puuduta kodanike isikuandmeid.

Uuringud näitavad, et AI ei vähenda tööd, vaid intensiivistab seda – luues uusi nõudmisi oskustele. Kui AI Qyzmet muutub kohustuslikuks, on praktiliste oskustega riigiametnikud liidripositsioonil.

Kasahstani suveräänse AI peamine väljakutse ei ole tehnoloogiline. Riik ehitas maailmatasemel infrastruktuuri ja ei suutnud veel veenda oma ametnikke seda kasutama. 16 000 DGX H100 sõlme Metal, 8 sõlme ISSAI-l, null uuendust pärast mudeli üleandmist – ja president, kes küsib, miks see ei tööta nagu ChatGPT. Võib-olla tuleks küsimust teisiti püstitada: mitte «miks on KazLLM halvem kui ChatGPT», vaid «kes täpselt oleks pidanud tegelema selle arendamisega pärast 2024. aasta detsembrit»?

Tulemas

Suveräänne AI juurutatakse. Kes oskab sellega töötada – on ees

Kursus generatiivse AI kohta riigiametnikele ja juhtidele: ChatGPT, Claude, viipamine, kriitiline hindamine – praktika registreerimata.

Põhjalik tööriistade analüüs koos näidetega
Valmis promptid tavaliste ülesannete jaoks
TI ohutu kasutamise oskused
Kuidas mõõta TI investeeringu tasuvust
Alusta õppimist →
Makset ei nõuta

Allikad

Kõik lingid ja andmed on ajakohased 2026. aasta veebruari seisuga. Kasahstani suveräänse AI ökosüsteem areneb aktiivselt – soovitame kontrollida info ajakohasust.