Make Weak Model Great Again: промпты против слабых моделей

В марте 2026 года Минцифры опубликовало законопроект о «доверенных моделях» ИИ. Если его примут – вступление в силу планируется с сентября 2027 – госструктуры и критическая инфраструктура смогут использовать только модели из специального реестра. ChatGPT, Claude и Gemini, передающие данные за рубеж, могут быть ограничены. На устройства планируется обязательная предустановка российских нейросетей.

Проблема в том, что российские модели отстают. В нашем исследовании 54 моделей GigaChat набрал 3,26 из 5, GPT-5.4 – 4,80. Разрыв 32%.

Если GigaChat – всё, что у вас будет, можно ли вытянуть из него приемлемое качество с помощью грамотного промптинга?

Что мы делаем и зачем

Эксперимент «Make Weak Model Great Again» берёт четыре модели, доступные в России – GigaChat-Ultra, GigaChat-2-Max, Alice AI (YandexGPT) и Qwen3 Max – и прогоняет каждую через десять техник промптинга на шести управленческих задачах: от анализа метрик e-commerce до российского трудового права. Для сравнения те же задачи решают GPT-5.4 и Claude Sonnet 4.6 с наивными промптами – чтобы зафиксировать потолок, к которому тянутся слабые модели.

Техники разные – от простых, которые любой менеджер может освоить за минуту (ролевое задание, структурированный шаблон), до многошаговых диалогов, где модель сначала анализирует, потом критикует себя, потом дорабатывает ответ. Между ними – Chain-of-Thought («думай пошагово»), Few-Shot примеры (показываем образец хорошего ответа) и XML-структура промпта, которую обычно используют разработчики, а не менеджеры.

Но две техники делают этот эксперимент по-настоящему необычным: CAPS EMPHASIS и агрессивный тон. В интернете полно советов «напиши КАПСОМ – и модель послушается» или «поругайся на неё, она выдаст лучше». Кто-то ссылается на исследование Microsoft 2024 года, кто-то – просто на личный опыт. Научного основания под этим почти нет, тем более для российских моделей. Мы включили обе техники, чтобы раз и навсегда проверить: это работает – или это городская легенда промпт-инжиниринга?

Почему ответ не очевиден заранее

Казалось бы, лучший промпт -> лучший результат. Но с небольшими моделями всё сложнее, и существующие исследования это подтверждают.

Wei et al. (Google Brain, 2022) показали, что Chain-of-Thought – техника, которая заставляет модель «думать пошагово» – отлично работает на больших моделях. Но у маленьких она провоцирует «уверенные, но неправильные» рассуждения. Модель выдаёт пять шагов, которые выглядят логично – и приходит к ошибочному выводу. Хуже, чем если бы она ответила сразу. Попадает ли GigaChat в эту ловушку – мы не знаем.

Zhang et al. (ACL 2024) установили ещё более неприятную вещь: малые модели физически не способны обнаружить собственные ошибки. Когда вы просите «найди слабые места в своём ответе и улучши его», модель не критикует себя – она «самоподтверждает». Немного переформулирует, не меняя сути. Если наши данные это подтвердят на российских моделях – это конкретный вывод: не тратить время на «улучши свой ответ» с GigaChat.

А есть ещё архитектурный потолок. Промпты реорганизуют то, что модель уже знает. Они не могут создать знания, которых нет в весах модели. Если GigaChat не «читал» Трудовой кодекс РФ во время обучения – никакой промпт «ты опытный юрист по ТК РФ» не заставит его процитировать кодекс правильно. Лучшее, чего можно добиться – чтобы модель сказала «я не знаю» вместо уверенной галлюцинации.

Кстати, в нашем бенчмарке обнаружился контринтуитивный результат: GigaChat и Alice – модели, обученные на русском – показали более низкие результаты, чем GPT-5.4 на задачах, связанных с российской реальностью. Трудовое право, региональные рынки, отечественная бизнес-специфика – по всем этим темам иностранная модель оказалась сильнее нативной. Вероятно, GPT-5.4 просто «прочитал» больше материалов о ТК РФ за счёт масштаба. Это один из ключевых вопросов эксперимента: где проходит граница, после которой никакой промпт не компенсирует разрыв в знаниях?

Промпт-техники из этого исследования лягут в основу учебных материалов. Попробуйте 9 практических задач менеджера в открытом модуле – бесплатно, без регистрации.

Доступ сразу после регистрации

Начать обучение

Что получит менеджер по итогам

Мы намеренно делаем это прикладным исследованием, а не академическим. Научные работы по малым языковым моделям обычно фокусируются на автоматизированной оптимизации – fine-tuning, DSPy, алгоритмическое улучшение промптов. Нас интересует другое: что может сделать обычный менеджер, у которого есть GigaChat и пять минут на формулировку запроса?

Для каждой техники мы оцениваем не только качество результата, но и усилие – сколько времени нужно потратить на переформулировку промпта. Потому что техника, которая улучшает ответ на 15%, но требует 20 минут подготовки, менеджеру не нужна.

По итогам выйдут три вещи. Первая – карта «техника -> модель -> задача»: если у вас GigaChat на задаче анализа документов, какой подход использовать? Если Alice на написании письма? Вторая – готовые шаблоны на русском языке под конкретные управленческие задачи. И третья – честная граница: в каких сценариях промптинг не помогает и лучше переключиться на другую модель.

Всё это войдёт в учебный курс – в раздел, где теория промпт-инжиниринга встречается с данными. Не «что такое промпт», а «что реально работает, на каком инструменте, для какой задачи».

Qwen3 Max, Alice, GigaChat – доступны без VPN. Проверьте свой подход к промптингу на реальных задачах менеджера в бесплатном модуле курса.

Доступ сразу после регистрации

Начать обучение

Когда ждать результатов

Эксперимент в фазе запуска. Полный отчёт выйдет здесь, в блоге – с разбором каждой техники, конкретными шаблонами и честным выводом о том, где потолок. Если вы ежедневно работаете с GigaChat или Alice – ответ на ваш вопрос готовится.

Специализация

Инструмент есть. Теперь – навык

Фундамент курса разбирает промпт-инжиниринг на реальных управленческих задачах: структуру, ролевые задания, декомпозицию, CoT. Специализация для менеджеров углубляет применение в планировании, аналитике и работе с командой.

От pre-mortem до антикризисного плана

Переиспользуемые промпт-шаблоны

Сквозной кейс на реальном проекте

~300 часов экономии в год

Смотреть программу курса ->

Make Weak Model Great Again: промпты против слабых моделей

Что мы делаем и зачем

Почему ответ не очевиден заранее

Что получит менеджер по итогам

Когда ждать результатов

Инструмент есть. Теперь – навык

Технические

Аналитические

Функциональные

Маркетинговые

Что мы делаем и зачем

Почему ответ не очевиден заранее

Что получит менеджер по итогам

Когда ждать результатов

Инструмент есть. Теперь – навык

Читайте также

Как устроено обучение на платформе mysummit.school

Как обосновать AI для своей команды: данные вместо обещаний

Claude Code недоступен? OpenCode работает в России – бесплатно

Когда ИИ вредит обучению – и когда удваивает результат

⚙️ Настройки файлов cookie

Технические

Аналитические

Функциональные

Маркетинговые

Внимание!

Политика использования файлов cookie