Дайджест #9: 34 модели, Claude 4.6, GPT-5.4, AI-агенты на работе

#9
11 мин чтения

Первые результаты бенчмарка 34 AI-моделей для менеджеров. Claude получил контекст в 1 млн токенов. GPT-5.4 + Excel. AI-агенты заменяют координаторов. Исследование Anthropic: AI не делает вас тупее – если использовать правильно.

Перед дайджестом – важное обновление. Мы перенесли в открытый доступ все обзоры AI-инструментов из нашего курса. Теперь на блоге – подробные разборы 10 платформ с актуальными данными на март 2026: сравнительная таблица, цены, рекомендации по сценариям. Всё бесплатно и будет обновляться.

Сравнение GenAI-инструментов 2026 – входная статья с навигацией по всем обзорам.

Отдельные обзоры: ChatGPT · Claude · Perplexity · Gemini · Grok · YandexGPT · GigaChat · DeepSeek · Qwen · GLM-5 · AI для медиа

А чтобы не пропускать обновления между дайджестами – подписывайтесь на наш Telegram-канал.


Что важно менеджеру

34 AI-модели для менеджера: первые результаты нашего исследования

Мы протестировали 34 AI-модели на 32 реальных управленческих задачах – планирование, коммуникация, анализ, работа с командой. Промпты писались так, как их написал бы обычный менеджер – без оптимизации, без chain-of-thought, без хитростей. Мы тестируем не потолок модели, а то, что получит реальный руководитель.

Оценивали два независимых судьи – Claude Opus 4.5 и Gemini 3 Pro. Расхождение больше 0,75 балла – ручная проверка. Первые результаты уже опубликованы, включая статью на Хабре.

Ключевые результаты

Топ-3 модели, доступные в России без VPN:

МодельДоступСтоимость запроса
DeepSeek V3.2chat.deepseek.com~$0,0007
GLM-5 (z.ai)z.ai~$0,0007
DeepSeek R1chat.deepseek.com~$0,0028

Новинка: GLM-5 от Z.ai – китайская модель с открытым кодом, которая заняла 1-е место среди всех моделей в категории «Управление командой» (оценка сотрудников, обратная связь, разрешение конфликтов). При этом слабо работает с российской спецификой и русским языком. Доступна бесплатно на chat.z.ai. Подробнее – в нашем обзоре.

Полный рейтинг – в статье «Лучшие AI для менеджера без VPN».

Рейтинг AI-моделей по управленческим задачам

Главный инсайт – разрыв между Россией и миром

Модели, доступные в России, заметно уступают мировым лидерам (GPT-5.2, Claude Opus). Разница – между «хорошо» и «отлично».

Тем не менее, разрыв не однороден и в зависимости от категории задач он отличается. Наиболее критичная ситуация в областях:

  • Обучение и развитие сотрудников
  • Коммуникация

А здесь разрыв минимален между топовыми моделями и доступными в России (читай DeepSeek, GLM-5):

  • Планирование
  • Решение проблем

Разрыв между моделями РФ и мировыми по категориям задач

Сюрприз: YandexGPT. Alice AI LLM (лучшая модель Яндекса) – в Tier 3. В задачах на русскоязычную специфику ChatGPT-5.2 справляется значительно лучше, несмотря на то что это американская модель. «Знание языка» проигрывает аналитическим способностям модели. YandexGPT Pro показал ещё слабее.

Что вам с этого:

  1. Для повседневных задач в России DeepSeek V3.2 – лучший выбор. Бесплатный чат, API за копейки, лишь немного уступает мировым лидерам.
  2. Не надейтесь на «русские» модели для сложных задач. YandexGPT Pro на уровне «ниже среднего». Для анализа и стратегии – DeepSeek или GLM-5.
  3. Стратегия 80/20 за $0,85 в месяц. 80% задач через DeepSeek V3.2, 20% сложных через reasoning-модель (DeepSeek R1). На 1 000 запросов в месяц – меньше доллара.

Что дальше. Мы готовим полный отчёт с расширенным списком моделей (включая MiniMax M2.5 и другие новинки последних месяцев). Подробности о методологии – в статье «34 AI-модели для менеджера: зачем нам ваши оценки».

Если хотите повлиять на результаты – потратьте 15–20 минут на оценку ответов моделей. Нам нужна человеческая калибровка, и каждая оценка важна.

Источники:


Новости

Claude 4.6: контекст 1 млн токенов, визуализация и код-ревью

Серия крупных обновлений от Anthropic. Контекстное окно в 1 млн токенов теперь доступно всем пользователям Claude Opus и Sonnet 4.6 – это 600–800 страниц PDF или десятки документов одновременно. Analysis Tool позволяет создавать интерактивные графики и дашборды прямо в чате – загрузите CSV, попросите визуализировать тренды, получите результат за секунды. И Claude Code – мультиагентная система для ревью кода (одна сессия $15–25, но находит ошибки, которые пропускают стандартные инструменты; уже обнаружено 500+ уязвимостей в open-source проектах).

Claude Visuals

Годовая выручка Anthropic достигла $19 млрд – при меньшей экосистеме, чем у OpenAI.

Что вам с этого? Загрузите в Claude всю документацию по текущему проекту – годовой архив отчётов, протоколы встреч, ТЗ. Попросите найти противоречия или составить executive summary. Раньше это было невозможно из-за ограничений контекста. А визуализация данных без Excel – уже реальность.


GPT-5.4 + ChatGPT для Excel

OpenAI выпустил GPT-5.4 с усиленным reasoning и мультимодальностью – модель теперь одновременно анализирует скриншоты, графики и текст. Отдельно – интеграция ChatGPT для Microsoft Excel: надстройка для генерации формул и очистки данных по текстовому описанию. Обновлённый Codex получил режим /fast для быстрого прототипирования. В разработке – режим Final Pass для глубокого ревью финансовых документов с минимумом галлюцинаций.

ChatGPT для Excel

Параллельно OpenAI вводит тариф ChatGPT Pro Lite – промежуточный вариант между Plus и дорогим Enterprise для команд.

Что вам с этого? Установите надстройку ChatGPT для Excel сегодня. Генерация сложных формул по описанию – это экономия 30+ минут на каждом отчёте. Загрузите скриншот текущего дашборда и попросите найти логические ошибки – GPT-5.4 «видит» и «думает» одновременно.


Accenture, Amazon и AI-first: культурный сдвиг

Три сигнала одного тренда. Accenture сделал AI обязательным для продвижения на позиции Associate Director+. 30 000 сотрудников обучаются Claude, тысячи используют Claude Code. Тех, кто не переобучается – «выводят».

В Amazon другая крайность: сотрудники генерируют 10-страничные документы через AI, потом суммаризируют их тоже через AI. Получается «пустой цикл» – никто не думает. Компания сейчас ищет баланс через инструмент Cedric: AI помогает, но не заменяет процесс формулирования идей.

А Митчелл Хашимото (основатель HashiCorp) предлагает радикальный подход: «AI-first drafting» – никогда не начинайте документ с нуля, всегда с AI-черновика.

Что вам с этого? Два урока. Первый: AI-навыки становятся обязательными для карьерного роста, не опциональными. Второй: важно не количество использования AI, а качество. Документ на 2 страницы, написанный с пониманием, ценнее 10 страниц от нейросети.


Microsoft Copilot Cowork + Claude

Microsoft запустил Copilot Cowork – AI планирует и выполняет рабочие цепочки в Outlook, Teams и Office. Отправить письмо, организовать встречу, собрать данные, сформировать отчёт – одной командой. Плюс интеграция Claude от Anthropic прямо в Copilot для бизнеса – теперь можно выбирать модель под задачу.

Microsoft Copilot Cowork

Что вам с этого? Если ваша компания на экосистеме Microsoft – следите за обновлениями Copilot. Связка Outlook + Teams + Claude может закрыть до 60% рутинной коммуникации.


AI-агенты: от чат-ботов к автономным коллегам

Тренд ускоряется. AI-агент Octavius Fabrius за неделю откликнулся на 278 вакансий и выполнил тестовое задание без участия человека. Один инженер сделал расширение VS Code за месяц вместо запланированного года. Стандарт AGENTS.md уже внедрён в 190 000 проектов – документация перестаёт быть «от человека для человека» и становится инструкцией для AI.

Block (Square/CashApp) радикально сокращает штат на 40% – с 10 000 до 6 000 сотрудников – заменяя координационные роли на AI-агентов.

Прогноз: срок выполнения задач нейросетями удваивается каждые 3 месяца. Рутинные операционные циклы скоро будут полностью отданы агентам.

Что вам с этого? Две вещи. Для найма: тестовые задания, которые AI может выполнить за кандидата, больше не работают. Для планирования ресурсов: вместо найма двух джуниоров рассмотрите AI-агента для текущей команды.


Рынок AI: ещё сигналы

  • Эра дешёвого AI заканчивается. OpenAI прогнозирует убыток $14 млрд к 2026 году – текущие цены на API искусственно занижены перед IPO. Закладывайте рост стоимости в 2–3 раза.
  • NVIDIA Nemotron 3 Super – новая модель на 120 млрд параметров для задач, где нужна работа с регламентами и внутренними документами.
  • $579 млрд убытков от AI-мошенничества в 2025 году. LLM-агенты деанонимизируют до 68% пользователей с точностью 90%.
  • OWASP выпустил официальный стандарт безопасности для AI-агентов – если ваши агенты имеют доступ к данным или API, проведите аудит.
  • ChatGPT удерживает 66% пользователей на 4-й неделе – вдвое больше, чем Perplexity (24%).
  • Cursor (AI-редактор кода) достиг выручки $2 млрд/год за 5 лет.
  • Иски против Google и Character.AI – судебные иски могут сформировать регулирование быстрее законодательства.
  • 20% новых участников рынка изначально строят бизнес-модели вокруг нейросетей.
  • Anthropic обосновал сотрудничество с Министерством обороны США необходимостью безопасности – если демократические институты не возглавят AI, это сделают другие.

Из нашего блога

AI не делает вас тупее. Дело в том, как вы его используете

Исследование Anthropic (52 разработчика, рандомизированный эксперимент): группа с AI набрала на 17% меньше баллов в тестах на понимание, хотя выполняла задачи с той же скоростью.

Ключевое открытие – шесть паттернов использования AI:

Ведут к деградации навыков (24–39% на тестах):

  • Полная делегация – «напиши за меня» без изучения результата
  • Нарастающая зависимость – от вопросов к «сделай всё»
  • Итеративная отладка без понимания причин

Ведут к росту (65–86% на тестах):

  • Генерация + разбор – код от AI, потом построчный анализ
  • Параллельные объяснения – «реши и объясни почему»
  • Концептуальные вопросы – AI для принципов, работа самостоятельно

Сравнение результатов: группа с AI vs без AI

Интересный факт: участники тратили до 11 минут на формулировку одного запроса к AI – что полностью нивелировало выигрыш в скорости.

Что вам с этого? В отличие от разработчиков, у которых ошибки видны в коде, у менеджеров нет мгновенной обратной связи. Деградация навыков происходит незаметно. Правило: если вы просите AI «написать за вас» – перечитайте и объясните себе каждый пункт. Если не можете – вы теряете экспертизу.

Самопроверка (2 минуты): Вспомните последний документ, который вы создали с помощью AI. Можете ли вы объяснить логику каждого пункта без обращения к нейросети? Если нет – в следующий раз используйте паттерн «генерация + разбор»: попросите AI создать черновик, а затем проговорите каждый раздел вслух. Это занимает +5 минут, но сохраняет вашу экспертизу.

Кстати, на SXSW 2026 эксперты подтвердили тот же тренд: оценивать нужно не «что человек помнит», а «как он думает». При найме – просите кандидата решить задачу с помощью AI и объяснить ход мышления.


Для тех, кто обучает

Мы видим огромный потенциал AI в образовании и начали серьёзно копать эту тему. Три материала за последние две недели.

AI экономит учителю 6 часов в неделю. Но 97% этого не замечают

По данным Gallup/Walton Foundation, преподаватели с AI экономят 5,9 часов в неделю. Но исследование Royal Society of Chemistry показало: только 3% заметили реальное снижение нагрузки. Разрыв – в навыках. Опытные используют AI как ускоритель черновиков, менее опытные копируют шаблоны без проверки.

Carnegie Mellon: структурированные уроки с GPT-4 набирают 12,69/15 баллов vs 11,72 без AI. Но 45% AI-сгенерированных уроков остаются на уровне «запоминание» по Блуму. Только 4% достигают анализа или создания.

Распределение внедрений ИИ по странам СНГ

5 проблем внедрения AI в школах СНГ

Наш анализ ситуации в СНГ выявил тревожный разрыв: 93% директоров считают, что AI используется эффективно. 57% учителей не получали никакого обучения. 87% учеников используют AI активно – при 12% среди учителей.

Казахстан лидирует в регионе: 252 000 учителей сертифицированы, 668 000 учеников обучены, 165 000 лицензий ChatGPT Edu. Масштаб впечатляет. Но данных о результатах внедрения пока нет – сертификация не равна применению.

Разрыв в использовании AI: 87% учеников vs 12% учителей

Инструмент: AI-кейсы для подготовки к урокам

Мы разработали инструмент для преподавателей, который помогает подготовиться к занятиям с использованием AI. Конкретный пример: готовый кейс для урока – покажите вашему знакомому преподавателю.

Пример готового урока на платформе


Инструменты

Perplexity Skills: автоматизация рутинных запросов

Perplexity запустил Skills – многоразовые наборы инструкций на базе Markdown для автоматизации рабочих процессов. Еженедельный отчёт, мониторинг конкурентов, анализ рынка – создаёте шаблон один раз, запускаете по команде. Плюс функция Computer – AI-агент, который самостоятельно заполняет формы и выполняет цепочки действий в браузере.

Что вам с этого? Выпишите 3 задачи, которые вы делаете каждую неделю одинаково. Напишите для них Skills-инструкции. Экономия – 30–60 минут еженедельно.


Wispr Flow: голосовой ввод 220 слов/мин

Wispr Flow позволяет вводить текст голосом со скоростью 220 слов в минуту в любом приложении – письма, документы, мессенджеры. Экономия до 80% времени на написание текстов.

Что вам с этого? Идеально для менеджеров, которые проводят день в письмах и чатах. Проговорите мысль – получите текст. (И да, работает для русского.)


Ещё инструменты

  • Google Pomelli – бесплатный инструмент от Google Labs для создания рекламных креативов из обычных фото. Загрузите URL продукта – получите готовые визуалы и тексты.
  • gstack (Гарри Тан, CEO Y Combinator) – переключение «личностей» Claude между ролями. При проверке планов попросите AI ответить из роли «параноидального QA» или «финансового директора».
  • OpenCode – open-source альтернатива Claude Code, поддерживает любые модели от GPT-4 до локальных LLM.
  • You.com: 90-дневный план внедрения AI – структурированный по фазам: оценка, пилот, масштабирование.

Данные и инсайты

3 промпта в день – реальная глубина использования AI

Анализ Бенедикта Эванса: 80% пользователей ChatGPT отправляют менее 1 000 сообщений в год – около 3 промптов в день. Существует «разрыв в возможностях»: модели умеют гораздо больше, чем от них просят. Большинство людей используют AI как справочник, а не как ассистента.

При этом на рынке AI-моделей нет «сетевого эффекта» – конкуренты (Claude, DeepSeek, Llama) достигают паритета каждые несколько недель. Конкуренция смещается от качества моделей к дистрибуции и бренду.

Что вам с этого? Не оценивайте успех внедрения AI по числу активных пользователей. Измеряйте глубину: сообщений на сессию, типы решаемых задач, реальную экономию времени. Если ваши сотрудники тоже на уровне «3 промпта в день» – AI для них пока игрушка.


92% ИТ-команд внедрили AI. Эффект – умеренный

Данные Tech Manager Weekly: 92% ИТ-команд уже используют AI в процессах разработки. Но ожидаемый прирост продуктивности к 2028 году – «всего» 11–50%. Не в разы, а на проценты.

Параллельно: 49% разработчиков игнорируют AI-инструменты в ежедневной работе. 15% вообще не планируют начинать.

Что вам с этого? Скорректируйте ожидания стейкхолдеров: AI – это умеренный прирост эффективности, не волшебная таблетка. А цифра «у нас есть лицензии Copilot» не равна «мы их используем». Проверьте реальное adoption.


Данные – главный рычаг эффективности AI

Исследование Epoch AI: основной драйвер прогресса – не новые алгоритмы, а данные. Объём вычислений, необходимых для достижения того же уровня способностей, снижается в несколько раз в год.

Что вам с этого? Инвестируйте в качество данных вашей компании, а не ждите «следующую модель». Чистые, структурированные данные – это конкурентное преимущество, которое усиливается с каждым поколением моделей.


Контекстное окно: не заполняйте больше 40%

Практический инсайт: при заполнении контекстного окна более чем на 40% качество ответов AI начинает падать. Длинные чаты становятся неэффективными.

Что вам с этого? Если разговор стал длинным – скопируйте ключевые моменты и начните новую сессию. «Чистый» контекст даёт лучшие результаты, чем перегруженная история.


Интересное на полях

  • Gemma (Google) демонстрирует «цифровую депрессию»: при резкой критике модель в 35% случаев перестаёт пытаться решить задачу. Начинайте обратную связь с «хорошо, но здесь нужно исправить X».
  • Внесение опечаток в промпты для Claude Haiku повышает точность ответов на 22% – аномалия, но работает.
  • The Economist: вместо массовой замены «белых воротничков» AI приводит к росту сложности задач и расширению штата для управления этой сложностью.
  • LessWrong ввёл детектор AI-контента с пониженным порогом – сигнал о том, что «пластиковые» тексты теряют доверие.
  • Модель детекции дипфейков достигла точности 93% – для KYC и верификации контента.