Сравнение Инструментов

40 кейсов GigaChat: проверяем данные Сбера по бенчмарку

26 мая 2026

20 мин чтения

Сбер выпустил рекламный спецпроект: сорок бизнес-кейсов компаний, которые внедрили GigaChat и рассказывают об эффектах. EdTech, MedTech, HRTech, кибербезопасность, PropTech. Красивые карточки, конкретные цифры, реальные стартапы.

На изображении: промо-слайд «На шаг впереди» от акселератора Sber500×ГигаЧат – 40 стартапов из 9 индустрий. Заявленные эффекты: ускорение бизнес-процессов до x16, снижение затрат до 90%, автоматизация задач до 95%, рост выручки до 30%.

У нас есть бенчмарк: 29 моделей, 4 308 независимых оценок на управленческих задачах. GigaChat в нём занимает последнее, 29-е место по итогам второй волны тестирования. Это создаёт интересную ситуацию.

Не потому что Сбер лжёт. Кейсы реальные, стартапы существуют, автоматизация работает. Вопрос в другом: была ли это оптимальная модель для задач, которые они решали?

Читать полностью

40 кейсов GigaChat: проверяем данные Сбера по бенчмарку

Бенчмарки ИИ теряют смысл – как тогда выбирать модель

3 май

7 мин

Бенчмарки ИИ теряют смысл – как тогда выбирать модель

В марте мы разбирали, как устроены бенчмарки LLM – GPQA Diamond, SWE-bench, Chatbot Arena. В апреле протестировали 53 модели и обнаружили, что разница в качестве между топовыми моделями – десятые доли балла, а в цене – три порядка величины.

Теперь – следующий вопрос. Что если сами бенчмарки перестают работать?

99% качества за 1,4% цены: что не так с рынком ИИ-моделей

26 апр

7 мин

99% качества за 1,4% цены: что не так с рынком ИИ-моделей

Большинство менеджеров выбирают модель ИИ так: берут самую дорогую из доступных. Логика понятная – дороже значит лучше. Так работало с корпоративным софтом последние двадцать лет.

Рынок ИИ-моделей в 2026 году устроен иначе. Стоимость одного запроса варьируется от $0,0001 до $0,17 – три порядка величины. А реальная разница в качестве между десятью лучшими моделями? 0,24 балла по пятибалльной шкале. Тем временем Wharton / GBK Collective фиксируют: треть корпоративных ИИ-проектов не выходит за рамки пилота. А Epoch AI показывает, что лишь 5,6% пользователей применяют ИИ по-настоящему глубоко.

Может, вопрос не в том, какая модель лучше, а в том, даёт ли переплата за премиум пропорционально лучший результат для типичных управленческих задач.

Мы проверили. Ответ оказался жёстче, чем ожидали.

Как выжать максимум из YandexGPT: что работает, а что нет

23 апр

11 мин

Как выжать максимум из YandexGPT: что работает, а что нет

Миллионы людей пользуются Алисой каждый день – не потому что выбирают, а потому что она бесплатна, встроена в Яндекс Браузер и работает без VPN. YandexGPT, модель под капотом Алисы – лучшая российская модель в нашем бенчмарке, но до GPT-5.4 ей далеко.

Можно ли получить от неё ответы, близкие к GPT, если научиться правильно спрашивать? Мы проверили это в эксперименте: десять техник промптинга, шесть управленческих задач, два независимых LLM-судьи. Короткий ответ: да, можно – но не все техники работают, а некоторые делают хуже.

Ниже – конкретные шаблоны, которые вы можете скопировать в чат прямо сейчас, и антипаттерны, которых стоит избегать.

GigaChat Ultra Thinking: думает дольше – отвечает хуже?

26 мар

7 мин

GigaChat Ultra Thinking: думает дольше – отвечает хуже?

GigaChat Ultra Thinking думает дольше и тратит больше вычислений. Управленческие задачи решает на 3,3% хуже, чем версия без рассуждений. Это не баг и не случайность – это паттерн, задокументированный академическими работами за последние два года.

На этой неделе Сбер представил GigaChat Ultra – новую флагманскую модель с режимом рассуждений (Thinking). Модель доступна бесплатно в веб-версии, мобильных приложениях и через Telegram-бот. Мы сразу добавили оба варианта в наше исследование AI-моделей для менеджеров: прогнали через все 32 сценария по единой методологии, оценили обоими LLM-судьями, сравнили с остальными 52 моделями.

Kimi от Moonshot в 2026: K2.6, K2.7-Code и агенты для менеджера

18 мар

12 мин

Kimi от Moonshot в 2026: K2.6, K2.7-Code и агенты для менеджера

Может ли открытая китайская модель конкурировать с закрытыми флагманами OpenAI и Anthropic? По данным нашего независимого тестирования – да. Kimi от Moonshot AI первой из китайских моделей вошла в элитную группу наравне с лучшими моделями мира – и остаётся лидером среди всех, доступных из России без VPN.

Chat Z.AI (GLM-5) в 2026: китайская модель, которая притворяется Claude

16 мар

13 мин

Chat Z.AI (GLM-5) в 2026: китайская модель, которая притворяется Claude

6 февраля 2026 года на платформе OpenRouter появилась анонимная модель «Pony Alpha» – бесплатная, без каких-либо подробностей о создателях. ИИ-сообщество немедленно начало её идентифицировать. Способности в программировании вплотную приближались к Claude Opus 4.5. На вопрос «кто ты?» модель отвечала: «Я GLM». Но когда её попросили написать веб-страницу с описанием себя – она написала: «I am Claude, created by Anthropic».

Лучшие AI для менеджера в России: 52 модели, 3300+ оценок

15 мар

11 мин

Лучшие AI для менеджера в России: 52 модели, 3300+ оценок

Мы провели масштабное исследование: 54 модели, оценки от двух независимых LLM-судей, 8 категорий управленческих задач. Это самый полный русскоязычный рейтинг AI для менеджеров на сегодня.

Вопрос остаётся тем же: какой AI реально работает для руководителя в России – без VPN, без костылей?

Сравнение GenAI инструментов 2026: какой ИИ выбрать менеджеру

7 мар

6 мин

Сравнение GenAI инструментов 2026: какой ИИ выбрать менеджеру

К марту 2026 года на рынке генеративного ИИ – десятки инструментов. Каждый производитель заявляет о лидерстве, а маркетинговые материалы соревнуются в громкости. Как менеджеру выбрать инструмент, который реально решает задачи?

AI для создания медиаконтента в 2026: изображения, видео, музыка и презентации

7 мар

10 мин

AI для создания медиаконтента в 2026: изображения, видео, музыка и презентации

К февралю 2026 года генеративный ИИ научился создавать не только текст, но и видео, изображения, музыку и презентации. Причём качество выросло настолько, что результат часто неотличим от работы профессионала.

Сравнение Инструментов

40 кейсов GigaChat: проверяем данные Сбера по бенчмарку

Бенчмарки ИИ теряют смысл – как тогда выбирать модель

99% качества за 1,4% цены: что не так с рынком ИИ-моделей

Как выжать максимум из YandexGPT: что работает, а что нет

GigaChat Ultra Thinking: думает дольше – отвечает хуже?

Kimi от Moonshot в 2026: K2.6, K2.7-Code и агенты для менеджера

Chat Z.AI (GLM-5) в 2026: китайская модель, которая притворяется Claude

Лучшие AI для менеджера в России: 52 модели, 3300+ оценок

Сравнение GenAI инструментов 2026: какой ИИ выбрать менеджеру

AI для создания медиаконтента в 2026: изображения, видео, музыка и презентации

Технические

Аналитические

Функциональные

Маркетинговые

40 кейсов GigaChat: проверяем данные Сбера по бенчмарку

Бенчмарки ИИ теряют смысл – как тогда выбирать модель

99% качества за 1,4% цены: что не так с рынком ИИ-моделей

Как выжать максимум из YandexGPT: что работает, а что нет

GigaChat Ultra Thinking: думает дольше – отвечает хуже?

Kimi от Moonshot в 2026: K2.6, K2.7-Code и агенты для менеджера

Chat Z.AI (GLM-5) в 2026: китайская модель, которая притворяется Claude

Лучшие AI для менеджера в России: 52 модели, 3300+ оценок

Сравнение GenAI инструментов 2026: какой ИИ выбрать менеджеру

AI для создания медиаконтента в 2026: изображения, видео, музыка и презентации

⚙️ Настройки файлов cookie

Технические

Аналитические

Функциональные

Маркетинговые

Внимание!

Политика использования файлов cookie