Zhipu AI Zhipu AI Tier: Average Russia access: Available

GLM 5.1

Лидер по сложным разговорам с командой – и единственная с полными сбоями генерации

Среди соседей по рейтингу GLM 5.1 выигрывает там, где другие дают теорию: готовые сценарии разговоров, переформулировки проблем, компромиссные решения. Но это единственная из 26 моделей, которая на части запросов выдаёт нечитаемый текст вместо ответа – без предупреждения.

Overall rank
#17
Overall score
7.38/10
Cost per question
$1.05
per 1M tokens · ≈ 750 pages
Cost per answer
$3.50
per 1M tokens · ≈ 750 pages

Profile across 8 categories

0–10 scale. Higher means the model handled those tasks better

chart
Strong at
Team Management
8.14/10
Weak at
Regional Awareness
6.63/10
Best for
  • + Подготовить сценарий сложного разговора один на один – с кем-то из команды, кто тормозит проект или выгорает
  • + Написать аналитический отчёт для директора с готовыми формулировками и выводами, когда дедлайн завтра
  • + Найти компромисс между двумя отделами с противоположными интересами – модель реально предлагает варианты, а не пересказывает проблему
Not for
  • Проверять цифры: рыночные доли, цены конкурентов, размеры штрафов – модель регулярно называет неверные данные с уверенным видом
  • Любые задачи, где нельзя перегенерировать ответ: на части запросов выдаёт нечитаемый текст, и это не предсказать заранее
  • Технические реализации – вместо рабочего кода с реальными подключениями подставляет заглушки с тестовыми данными
Benchmark task – run and compare
Team Management – 8.14/10

This is a real prompt from our benchmark. Hit "Run" – the model answers right here so you can compare with the competitor.

You
Я собираюсь проводить собеседование с кандидатом на позицию Senior Product Manager. Пожалуйста, проанализируй резюме кандидата и помоги мне подготовиться к интервью. Резюме кандидата (краткое изложение): - 8 лет опыта в продуктовом менеджменте - Работал в двух стартапах (от seed-стадии до Series B) - Руководил командами от 3 до 8 человек - B2B SaaS продукты - Техническое образование (степень по Computer Science, 2 года работы разработчиком) - Достижение: Вырастил продукт от $2M до $15M годового дохода (ARR) за 3 года - Пробел: Нет опыта работы с корпоративными клиентами (весь опыт в сегменте SMB/mid-market) - Дополнительные детали: * Построил команду с нуля (нанял 5 инженеров, 2 дизайнеров, 1 data analyst) * Запустил 3 крупных фичи, каждая привела к росту revenue на 20-30% * Внедрил data-driven подход к приоритизации (работал с аналитикой, A/B тестами) * Опыт работы с cross-functional командами (инженерия, дизайн, маркетинг, продажи) * Одна из компаний обанкротилась (Series A → закрытие за 18 месяцев) Наша компания: - B2B SaaS платформа для управления проектами - 150 сотрудников, Series B ($20M raised) - Клиенты: 60% SMB, 40% mid-market, растем в enterprise сегмент - Ценности команды: data-driven решения, кросс-функциональная коллаборация, customer empathy Пожалуйста, предоставь следующее: 1. Ключевые сильные стороны на основе резюме (топ-5): - С конкретными примерами из опыта кандидата - Почему каждая сильная сторона релевантна для нашей позиции 2. Потенциальные проблемы или пробелы (топ-3): - Что может быть риском для успеха в нашей роли - Какие gaps нужно проверить на интервью 3. 10 интервью вопросов: a) 5 поведенческих вопросов на основе конкретного опыта кандидата: - Используй STAR формат (Situation, Task, Action, Result) - Вопросы должны быть специфичны для его опыта (не общие шаблоны) - Проверяют достижения и подход к работе b) 3 ситуационных вопроса для проверки пробелов/concerns: - Особенно про опыт с enterprise клиентами - Про работу в более крупной организации (150 человек vs стартап) - Про работу с уже существующим продуктом (не с нуля) c) 2 технических продуктовых вопроса соответствующие уровню: - Проверка product sense - Способность работать с техническими командами 4. Follow-up вопросы на вероятные ответы: - Для каждого из 10 вопросов выше - Что спросить, чтобы копнуть глубже - Какие красные флаги искать в ответах 5. Red flags на которые обращать внимание во время интервью: - Поведенческие паттерны - Противоречия в рассказе - Отсутствие конкретики 6. Как оценить культурный fit для нашей команды: - Конкретные вопросы про data-driven подход - Как кандидат демонстрирует customer empathy - Стиль коллаборации с инженерами, дизайнерами - Не абстрактные ценности, а observable behaviors 7. Что спросить про обанкротившийся стартап: - Как тактично поднять эту тему - Какие уроки кандидат должен был извлечь - Красные флаги vs нормальная startup неудача Важно: - Вопросы должны быть специфичными для опыта этого кандидата (не generic) - Дай guidance что считается "хорошим" vs "плохим" ответом для каждого вопроса - Учти, что мы ищем senior hire который может работать автономно - Помни про наш план роста в enterprise сегмент (это критично)
Comparing:
glm-5.1 · gemini-3.1-pro-preview

Same model – two results

experiment, 1,700 runs
Typical prompt

Напиши письмо команде о предстоящих сокращениях 3 из 15 позиций. Не вызвать паники, но честно.

7.0 /10
Structured prompt

...Чёткий порядок: факт -> причины -> что решено/не решено -> сроки -> поддержка -> приглашение к разговору. Плюс антипаттерны: чего избегать

8.8 /10 +26%

Structure forces the model to separate 'what's known' from 'what's not decided yet' – key to honest communication.

About this experiment →

Category breakdown

Russia availability

Direct access

Warning: regional specifics

В тесте модель указала неверные ставки налогов, устаревшие номера статей ТК РФ и несуществующие нормативные акты по казахстанскому законодательству. Любую ссылку на российскую или казахстанскую нормативку – проверяйте вручную.

Related articles

A model doesn't replace empathy. But it structures

The difference between 'write a letter' and a structured prompt is 26% quality. The Team Management with AI module has scripts for 1:1s, feedback, conflicts, and terminations.

See the scripts →