KazLLM и суверенный AI: гид для госслужащего Казахстана

11 мин чтения
KazLLM и суверенный AI: гид для госслужащего Казахстана

11 февраля 2026 года на заседании правительства президент Токаев публично раскритиковал KazLLM. Модель, запущенную с большой помпой в декабре 2024-го, используют лишь 600 тысяч человек – 3% населения страны. Для сравнения: ChatGPT в Казахстане пользуются 2,6 миллиона человек. Президент был прямолинеен: KazLLM «не может конкурировать с ChatGPT».

Это заявление ставит вопрос ребром. Зачем Казахстану собственная языковая модель, если глобальные решения работают лучше? И если суверенный AI необходим – почему он проигрывает?

Ответ сложнее, чем кажется. Потому что KazLLM – это не «казахский ChatGPT». Это совершенно другой инструмент с другой задачей. И сравнивать их – всё равно что сравнивать национальную электростанцию с импортным бытовым прибором.

Зачем стране собственная языковая модель

Когда государственный чиновник обрабатывает обращения граждан через ChatGPT, происходят три вещи одновременно. Персональные данные граждан уходят на серверы OpenAI в США. Контекст казахского языка – агглютинативная морфология, code-switching между казахским и русским – интерпретируется с потерями. И государство не контролирует ни доступность сервиса, ни его стоимость, ни политику обработки данных.

Это не теоретический риск. Когда Италия заблокировала ChatGPT в 2023 году из-за нарушений GDPR, государственные процессы, зависящие от него, остановились. Когда OpenAI вводит ограничения для определённых регионов – последствия непредсказуемы. Вопрос ответственности за решения, принятые с помощью AI, выходит далеко за рамки технологий.

Суверенная модель решает эту проблему архитектурно. Данные не покидают национальную инфраструктуру. Модель обучена на казахском языке с учётом региональных диалектов. И государство контролирует каждый элемент стека – от вычислительных мощностей до алгоритмов.

Казахстан в этом не одинок. ОАЭ построили Falcon, Япония – Fugaku-LLM, Тайвань – TAIDE, Сингапур – SEA-LION. Каждая из этих стран пришла к тому же выводу: зависимость от чужих моделей – стратегическая уязвимость.

Что такое KazLLM на самом деле

KazLLM – официально ISSAI KAZ-LLM – разработан Институтом умных систем и искусственного интеллекта (ISSAI) при Назарбаев Университете совместно с QazCode (подразделение VEON/Beeline Kazakhstan). Международную поддержку обеспечивали Барселонский суперкомпьютерный центр и GSMA Foundry. В марте 2025 года модель получила GSMA Foundry Excellence Award и была представлена на Mobile World Congress в Барселоне.

Удивительно, но при таком международном признании – 600 тысяч пользователей против 2,6 миллиона у ChatGPT. Награда впечатляет, а цифры говорят о другом.

Технически модель построена на архитектуре Meta Llama 3.1 – проверенном open-source фреймворке. Команда не строила архитектуру с нуля, а адаптировала существующую, переобучив нейронные веса для приоритета казахского языка. Доступны две версии: компактная 8-миллиардная для быстрых задач и полная 70-миллиардная для сложного анализа. Обе модели открыто опубликованы на Hugging Face – их можно скачать, протестировать и развернуть на собственной инфраструктуре.

Ключевое преимущество – данные. Специальная команда «Token Factory» при ISSAI на протяжении девяти месяцев собирала и курировала обучающий корпус из более чем 150 миллиардов токенов. Источники – казахские веб-ресурсы, государственные архивы, академическая литература. Модель обучена на четырёх языках – казахском, русском, английском и турецком – с поддержкой code-switching, когда человек переключается между языками в одном предложении. Именно это отличает KazLLM от глобальных моделей: глубокое понимание мультиязычной реальности региона.

Почему тогда сравнение с ChatGPT некорректно? Председатель правления Казахтелекома Багдат Мусин сформулировал это через аналогию: фундаментальная языковая модель – это национальная электростанция. Она вырабатывает «интеллектуальную энергию». А ChatGPT и подобные сервисы – это бытовые приборы: полезные, удобные, но работающие от чужой розетки.

Сам ISSAI опубликовал подробный разбор ситуации после критики Токаева. Масштаб ресурсов говорит сам за себя: для создания Llama Meta задействовала более 16 000 узлов NVIDIA DGX H100 и свыше 400 исследователей. Команда ISSAI работала на 8 узлах DGX H100, предоставленных частной телеком-компанией.

При этом институт признаёт: «ИИ – это гонка. Новые модели появляются примерно каждые шесть месяцев, и KazLLM необходимо развивать дальше». Однако после передачи модели в Astana Hub в декабре 2024 года ISSAI «не просили продолжать её разработку». Модель осталась без обновлений, пока конкуренты выпускали новые версии каждый квартал.

Alem LLM и суперкомпьютер Alem.Cloud

Параллельно с KazLLM государство развернуло инфраструктурный проект другого масштаба. Alem.Cloud – национальный суперкомпьютер и самый мощный вычислительный кластер в Центральной Азии. Его характеристики: 2 экзафлопа производительности (FP8), 512 GPU NVIDIA H200.

Получение этих чипов само по себе было геополитическим маневром – потребовались переговоры с США для получения экспортных лицензий на фоне глобальных ограничений на поставки продвинутых GPU.

Alem LLM – вторая суверенная модель, работающая на этой инфраструктуре. Как и KazLLM, она мультиязычна (казахский, русский, английский, турецкий) и предназначена для государственных сервисов. Ключевое отличие – глубокая интеграция с национальным вычислительным ресурсом: данные обрабатываются на территории Казахстана, на государственном оборудовании.

На этой инфраструктуре строится Национальная платформа искусственного интеллекта – защищённая среда, где государственные разработчики и партнёрские вузы получают доступ к вычислительным мощностям, очищенным датасетам и предобученным моделям. На форуме в Давосе в январе 2026 года были анонсированы партнёрства с NVIDIA, OpenAI и Scale AI – по направлениям суперкомпьютинга, образовательной инфраструктуры и подготовки данных с помощью RLHF.

AI-агенты для госуправления: планы vs реальность

Абстрактные модели приобретают ценность, когда превращаются в конкретные инструменты. Казахстан анонсировал развёртывание более десяти специализированных AI-агентов для государственных процессов. Но важно различать планы и реальность.

Что уже работает:

  • AI Therapist – единственный агент с подтверждённым пилотом. Запущен в 30 клиниках Акмолинской области. Анализирует разговоры врача и пациента в реальном времени, выдаёт предварительные диагнозы с точностью до 80% и сокращает время на документацию до 40%. Планируется масштабирование на все медучреждения страны.

Что анонсировано, но пока в разработке:

  • AlemGPT / eGov AI – AI-ассистент для портала госуслуг. Министерство цифрового развития тестирует прототип. К концу 2026 года планируется запуск 50 AI-агентов для обслуживания ~7 миллионов пользователей.
  • Tax Helper – виртуальный налоговый консультант. Анонсирован как часть цифровизации налоговой системы, но пока без данных о запуске.
  • QQazaq Law – юридический ассистент для проверки муниципальных актов на соответствие законодательству. Упоминается в стратегических документах, но подтверждений реального развёртывания нет.
  • e-Otinish AI – система обработки петиций и обращений граждан. Описана в концептуальных материалах, данных о запуске не найдено.

Это заставляет задуматься. Разрыв между анонсами и реальным внедрением – ещё одна грань той проблемы, о которой говорил Токаев. Инфраструктура строится, но путь от модели до работающего продукта в руках госслужащего оказывается длиннее, чем планировалось.

Агенты бесполезны без качественных данных. Платформа Smart Data Ukimet решает эту задачу – к середине 2025 года она объединяла 124 государственные информационные системы, поддерживала 80 аналитических кейсов и обслуживала более 8 500 госслужащих. Для руководителя департамента это означает переход от реактивного к предиктивному управлению – прогнозирование инфраструктурных сбоев и распределение ресурсов на основе алгоритмических инсайтов вместо реактивного тушения пожаров.

Мультимодальные инструменты: за пределами текста

Экосистема суверенного AI Казахстана выходит за рамки текстовых моделей. ISSAI разработал линейку мультимодальных инструментов – все доступны как демо на сайте института:

  • Oylan – мультимодальная модель (язык + аудио + видео). Потенциально применима для мониторинга СМИ, анализа видеозаписей и транскрибирования государственных архивов. Модель закрыта – в отличие от KazLLM, Oylan не опубликован на Hugging Face, а его архитектура, по словам поддержки ISSAI, «конфиденциальна».

    Любопытная деталь: пользователи в Telegram-сообществе обнаружили, что Oylan идентифицирует себя как Qwen от Alibaba Cloud. Поддержка ISSAI назвала это «широко известным явлением в LLM» – но вопрос о реальной базе модели остался без прямого ответа. По косвенным признакам – мультимодальность (текст + изображения + видео) и совпадение версий – базой, вероятнее всего, служит Qwen2.5-VL или более поздний вариант из семейства Qwen.

    Это подтверждается и академической публикацией: в исследовательской статье команды ISSAI модель Qolda описана как построенная на Qwen3-4B, интегрированной в архитектуру InternVL3.5 – семейство Qwen явно является базовым для мультимодальных проектов института. При тестировании были обнаружены и фактические ошибки – модель путала авторство произведений Абая и использовала устаревшие геополитические данные.

  • MangiSoz – движок распознавания и синтеза речи с переводом. Задуман как инструмент для дипломатической переписки и межведомственной коммуникации в многоязычных регионах. И снова знакомая история: при тестировании модель перевода раскрыла свою идентичность – Google Gemma. Это не просто косвенный признак: на официальном сайте ISSAI (май 2025) прямо указано, что институт «изучает потенциальное сотрудничество с Google по дообучению модели Gemma для казахского языка». Таким образом, в основе MangiSoz лежит open-source модель от Google, дообученная для казахского языка.

MangiSoz переводит текст статьи с русского на казахский с озвучкой – интерфейс сервиса от ISSAI

Для примера мы перевели фрагмент этой статьи с русского на казахский и озвучили результат – мужским и женским голосом:

Мужской голос MangiSoz

Женский голос MangiSoz

Демо MangiSoz с переводом между несколькими языками:

В сообществе видно реальный спрос на MangiSoz: пользователи запрашивают API-доступ и возможность развёртывания on-premise (без интернета) – что критически важно для государственных структур с закрытым контуром. По данным поддержки, публичный API с отдельными сервисами (TTS, STT, перевод) находится на финальной стадии подготовки.

  • TilSync – система субтитрирования в реальном времени. Призвана обеспечить доступность государственных трансляций на казахском, русском и английском.
  • Beynele – генератор изображений, обученный на центральноазиатской визуальной культуре. Позволяет создавать визуальный контент без зависимости от западных генераторов.

Интерфейс Beynele – казахстанского генератора изображений от ISSAI: промпт, настройки размера и галерея с центральноазиатской тематикой

Результат генерации в Beynele: госслужащий за компьютером в офисе с видом на Астану, казахский орнамент на стене, аналитические графики на экране

Та же история, что и с Oylan: на вопрос «what model(AI) are you» Beynele сгенерировал изображение с логотипом Qwen – модели от Alibaba Cloud. Сам Qwen – текстовая модель, не генератор изображений. Но в экосистеме Alibaba Cloud есть text-to-image модель Tongyi Wanxiang (通义万相, серия Wan), доступная через тот же API. Вероятнее всего, Beynele – это дообученная Tongyi Wanxiang с казахской культурной спецификой, работающая под общим брендом Qwen/Tongyi.

Beynele на вопрос «what model are you» генерирует изображение с логотипом Qwen от Alibaba Cloud

У ISSAI есть Telegram-сообщество, где можно следить за обновлениями и задавать вопросы разработчикам.

Важная оговорка: все четыре инструмента находятся на стадии исследовательских демо. Независимых обзоров или сравнений с аналогами (Google Translate, Whisper, Midjourney) на момент написания статьи не обнаружено. В Telegram-сообществе пользователи сообщают о технических проблемах – нулевые токены на новых аккаунтах, нестабильная работа API. Поддержка реагирует, но это характерные признаки ранней стадии продукта. Для госслужащего, планирующего внедрение, это означает: протестировать стоит, но рассчитывать на промышленную эксплуатацию пока рано.

Закон об искусственном интеллекте: рамки для всех

18 января 2026 года вступил в силу Закон Республики Казахстан об искусственном интеллекте (N 230-VIII) – первый комплексный закон об AI в Центральной Азии. Подписан 17 ноября 2025 года, он разработан при координации 13 государственных органов с участием социологов, философов и юристов.

Ключевые положения закона:

  1. Система классификации AI-систем по уровню риска (аналогично EU AI Act).
  2. Требования к прозрачности использования AI в государственных решениях.
  3. AI-сгенерированные произведения защищаются авторским правом только при наличии творческого вклада человека (промптинг, редактирование). Предусмотрено право на отказ от использования данных для обучения.
  4. Явные запреты на использование AI для психологической манипуляции граждан.

Для госслужащих это означает: любое ведомственное внедрение AI должно проходить регулярный аудит на соответствие этическим стандартам и правам граждан.

Проблема номер один: разрыв компетенций

Инфраструктура есть. Модели есть. Закон есть. AI-агенты развёрнуты. Но критика Токаева указывает на главную проблему – разрыв между технологией и её использованием.

600 тысяч пользователей KazLLM против 2,6 миллиона пользователей ChatGPT – это не приговор качеству модели. Это индикатор того, что люди не знают, зачем и как использовать суверенные инструменты. Модель, которая не понимается и не применяется, бесполезна – какой бы мощной она ни была. Это не казахстанская специфика – аналогичный разрыв зафиксирован по всему миру.

Программа AI Qyzmet – обязательная сертификация госслужащих в области AI – призвана закрыть этот разрыв. Программа AI Sana нацелена на обучение 650 000 студентов. Центр Alem.ai в Астане к 2029 году планирует выпускать 10 000 AI-специалистов ежегодно.

Но масштаб вызова огромен. Образовательные программы только начинают развёртываться, а госслужащие уже сегодня работают с ChatGPT – используя его для задач, в которых суверенные инструменты были бы безопаснее и точнее. Исследования подтверждают: без системного обучения технология не приживается.

Это заставляет задуматься: государство инвестирует миллиарды в технологию, которая простаивает, потому что пользователи не обучены с ней работать.

Что это значит для госслужащего

Мы протестировали Oylan, MangiSoz и Beynele – и увидели знакомую картину. Модели работают, но с оговорками. Oylan путал авторство произведений Абая и называл Байдена действующим президентом США в конце 2025 года. MangiSoz выдаёт приемлемый перевод, но за фасадом – Google Gemma. Как показывают исследования Anthropic, AI-системы ошибаются не последовательно, а хаотично – и это касается любой модели, суверенной или глобальной.

Суверенный AI – уже не будущее. Платформа, модели и агенты существуют. Вопрос не в том, будет ли ваше ведомство использовать AI, а в том, будете ли вы управлять этим процессом – или он будет происходить стихийно, через личные ChatGPT-аккаунты сотрудников. При этом глобальные модели не исчезнут: ChatGPT, Claude, Gemini остаются мощными инструментами для задач, не связанных с персональными данными граждан.

Исследования показывают, что AI не сокращает работу, а интенсифицирует её – создавая новые требования к навыкам. Когда AI Qyzmet станет обязательным, госслужащие с практическими навыками окажутся в позиции лидеров.

Главный вызов суверенного AI Казахстана – не технологический. Государство построило инфраструктуру мирового уровня и пока не смогло убедить собственных чиновников ею пользоваться. 16 000 узлов DGX H100 у Meta, 8 узлов у ISSAI, ноль обновлений после передачи модели – и президент, который спрашивает, почему это не работает как ChatGPT. Может быть, вопрос стоит ставить иначе: не «почему KazLLM хуже ChatGPT», а «кто именно должен был заниматься её развитием после декабря 2024 года»?

Бесплатный модуль

Суверенный AI внедряют. Кто умеет с ним работать – будет впереди

Курс по генеративному AI для госслужащих и менеджеров: ChatGPT, Claude, промптинг, критическая оценка – практика без регистрации.

Детальный разбор инструментов с примерами
Готовые промпты для типовых задач
Навыки безопасного использования AI
Понимание, как измерять ROI
Начать обучение →
Без платёжных данных

Источники

Все ссылки и данные актуальны по состоянию на февраль 2026 года. Экосистема суверенного AI Казахстана активно развивается – рекомендуем проверять актуальность информации.