AI для менеджеров: бенчмарк моделей 2026
Независимое сравнение 34 LLM по 8 категориям управленческих задач
Методология
Каждая модель решала одинаковые управленческие задачи в 8 категориях. Ответы оценивали два LLM-судьи (Claude Opus 4.5 – 70%, Gemini 3 Pro – 30%) с коррекцией систематической ошибки.
Шкала: 1.0–5.0
| # | Модель | Балл | |
|---|---|---|---|
| 1 | Claude Opus 4.5 claude | 4.78 | |
| 2 | GPT-5.2 Pro openai | 4.78 | |
| 3 | Claude Sonnet 4.5 claude | 4.78 | |
| 4 | GPT-5 Mini openai | 4.69 | |
| 5 | GPT-5.2 openai | 4.69 | |
| 6 | Claude Haiku 4.5 claude | 4.57 | |
| 7 | GLM-5 openrouter | 4.50 | |
| 8 | Gemini 2.5 Pro gemini | 4.46 | |
| 9 | DeepSeek V3.2 openrouter | 4.42 | |
| 10 | Gemini 2.5 Flash gemini | 4.41 | |
| 11 | DeepSeek R1 openrouter | 4.33 | |
| 12 | Grok 4.1 Fast openrouter | 4.32 | |
| 13 | MiMo v2 Flash openrouter | 4.29 | |
| 14 | Gemini 3 Flash gemini | 4.29 | |
| 15 | Mistral Large openrouter | 4.28 | |
| 16 | Grok 4 Fast openrouter | 4.25 | |
| 17 | Claude Sonnet 4.0 claude | 4.22 | |
| 18 | Grok 4 openrouter | 4.14 | |
| 19 | MiniMax M1 openrouter | 4.14 | |
| 20 | Grok 3 openrouter | 4.13 | |
| 21 | Perplexity Sonar Pro perplexity | 4.03 | |
| 22 | Perplexity Sonar perplexity | 4.00 | |
| 23 | Qwen3 235B openrouter | 3.97 | |
| 24 | Alice AI LLM (Yandex) yandexgpt | 3.86 | |
| 25 | Gemma 3 27B openrouter | 3.75 | |
| 26 | Qwen3 32B openrouter | 3.67 | |
| 27 | Gemma 3 12B openrouter | 3.58 | |
| 28 | Gemma 3 4B openrouter | 3.27 | |
| 29 | YandexGPT Pro 5.1 yandexgpt | 3.13 | |
| 30 | GPT-4o openai | 3.08 | |
| 31 | Llama 4 Maverick openrouter | 2.95 | |
| 32 | YandexGPT Pro 5 yandexgpt | 2.85 | |
| 33 | YandexGPT Lite yandexgpt | 2.61 | |
| 34 | Phi-4 openrouter | 2.27 |