ChatGPT в онлайн-школе: проверка эссе дала 47% галлюцинаций

11 мин чтения
ChatGPT в онлайн-школе: проверка эссе дала 47% галлюцинаций

82% EdTech-компаний в 2024-2025 годах тестировали ChatGPT для автоматизации проверки работ студентов, но только 14% продолжили использовать его в продакшне – по данным исследования HolonIQ. Остальные 68% отказались после пилота из-за галлюцинаций и жалоб преподавателей.

В сентябре 2024 года я запустил эксперимент в нашей онлайн-школе: ChatGPT проверяет эссе студентов курса по digital-маркетингу. 120 работ в неделю, каждая – 800-1200 слов. Ожидали освободить 15 часов времени преподавателя. Реально получили 47% ответов с фактическими ошибками и галлюцинациями.

Парадокс: модель отлично оценивала структуру текста и грамматику, но полностью проваливалась на проверке фактов. “Отличная аргументация, 9/10” – написала про эссе, где студент выдумал три несуществующих исследования Gartner и цитату Илона Маска, которую тот никогда не говорил.

В этой статье – честный разбор того, что сработало, а что провалилось при внедрении AI в образовательный процесс. С реальными метриками, стоимостью ошибок и выводами.

Как я внедрял ChatGPT для проверки студенческих работ

Исходная задача

В онлайн-школе у нас было 340 активных студентов на курсе по digital-маркетингу. Каждую неделю – 120 эссе по 800-1200 слов. Преподаватель Анна тратила на проверку:

  • Чтение и оценка: 12-15 минут на одно эссе
  • Написание фидбека: 5-7 минут
  • Итого: ~18 часов в неделю только на проверку

Нагрузка нарастала, качество фидбека падало, Анна выгорала.

Гипотеза: ChatGPT может проверять эссе за 2-3 минуты каждое, освободив 80% времени преподавателя для персональных консультаций.

Что я сделал (технически)

Создал систему на Python, которая:

  1. Забирает эссе из LMS (Moodle)
  2. Отправляет в ChatGPT с подробным промптом
  3. Получает оценку и развернутый фидбек
  4. Сохраняет результаты обратно в LMS

Промпт для проверки эссе (упрощенная версия):

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
from openai import OpenAI
import os

client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

def check_essay(essay_text, assignment_topic):
    """
    Проверяет студенческое эссе и дает развернутый фидбек.
    """
    system_prompt = """Вы – опытный преподаватель курса по digital-маркетингу в онлайн-школе.

Оцените эссе студента по следующим критериям (каждый по шкале 0-10):
1. Структура и логика изложения
2. Аргументация и использование примеров
3. Знание теории (концепции, фреймворки)
4. Практическая применимость
5. Язык и стиль

ВАЖНО:
- Будьте строги к фактическим ошибкам
- Требуйте конкретики вместо общих фраз
- Указывайте на отсутствие примеров
- Снижайте балл за неструктурированность

Формат ответа:
1. Общая оценка: X/10
2. Сильные стороны (2-3 пункта)
3. Что улучшить (3-4 конкретных рекомендации)
4. Оценки по критериям"""

    messages = [
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": f"Тема задания: {assignment_topic}\n\nЭссе студента:\n{essay_text}"}
    ]

    response = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=messages,
        temperature=0.3,  # Низкая температура для предсказуемости
        max_tokens=800
    )

    return response.choices[0].message.content

# Пример использования
essay = """
[Текст эссе студента...]
"""

feedback = check_essay(essay, "Стратегии контент-маркетинга для B2B")
print(feedback)

Метрики первой недели эксперимента:

  • Проверено эссе: 120
  • Время на одно эссе: 2,5 минуты (vs 18 минут вручную)
  • Общее время: 5 часов (vs 36 часов у преподавателя)
  • Стоимость API: 340₽ (gpt-4o-mini, ~3000 токенов на эссе)

Казалось бы, успех! Но потом начались проблемы.

Три сценария, где ChatGPT реально сработал

Не все было плохо. Вот задачи, где модель показала себя хорошо:

Сценарий 1: Проверка структуры и форматирования

Задача: Студенты часто сдавали эссе без введения, без заключения, с нарушенной логикой абзацев.

Результат:

  • ChatGPT выявлял структурные проблемы в 94% случаев
  • Давал конкретные рекомендации: “Отсутствует вводный абзац”, “Третий и четвертый абзацы стоит поменять местами”
  • Преподаватель подтвердил точность в 89% случаев (проверили выборку из 50 эссе)

Экономия времени: 3-4 минуты на каждое эссе – больше не нужно вручную проверять структуру.

Сценарий 2: Оценка языка и стиля

Задача: Проверить грамотность, читабельность, отсутствие канцелярита.

Результат:

  • Модель находила грамматические ошибки, которые пропускал даже преподаватель
  • Указывала на сложные конструкции и канцелярит
  • Давала примеры улучшения формулировок

Точность: 91% (сравнили с ручной проверкой)

Важно: Для этой задачи достаточно gpt-4o-mini, не нужна дорогая модель.

Сценарий 3: Генерация шаблонных комментариев

Задача: Частые ошибки (нет примеров, слишком общие формулировки, нет ссылок на источники).

Что сделали:

  • Создали базу из 15 типовых ошибок
  • ChatGPT подбирал подходящие комментарии и персонализировал их под конкретное эссе

Результат:

  • 70% фидбека генерировалось автоматически
  • Преподаватель дописывал только персональные рекомендации (3-5 минут)
  • Студенты не жаловались на “роботизированность” – комментарии были контекстные

Общая экономия по трем сценариям: ~10 часов в неделю преподавателя.

Где ChatGPT провалился: три дорогих ошибки

А теперь честно про провалы. Именно они заставили нас пересмотреть всю стратегию.

Провал 1: Галлюцинации при проверке фактов

Что случилось:

Студент написал эссе про “тренды digital-маркетинга в 2024 году”. В тексте:

  • Цитата Илона Маска про эффективность TikTok-рекламы
  • Ссылка на исследование Gartner “Digital Marketing Trends 2024”
  • Статистика: “87% компаний увеличили бюджеты на контент-маркетинг”

ChatGPT дал оценку 9/10: “Отлично аргументированное эссе с актуальными данными и цитатами экспертов.”

Реальность:

  • Илон Маск никогда такого не говорил (я проверил через поиск)
  • Исследования Gartner с таким названием не существует
  • Статистика выдумана

Масштаб проблемы:

  • Из 120 проверенных эссе 56 содержали выдуманные данные (47%)
  • ChatGPT не выявил ни одной галлюцинации
  • Более того: хвалил студентов за “хорошее использование источников”

Стоимость ошибки:

  • 23 студента подали жалобы на несправедливые оценки
  • Пришлось перепроверять все 120 работ вручную = 36 часов преподавателя
  • Репутационный ущерб: “школа ставит оценки через робота”

Почему провалилось:

ChatGPT – это языковая модель, а не поисковая система. Она генерирует правдоподобный текст на основе паттернов, но не проверяет факты. Если студент напишет “По данным McKinsey…”, модель не пойдет проверять, существует ли такое исследование.

Провал 2: Непонимание контекста курса

Задача: Оценить, насколько студент применил знания, полученные на курсе.

Что случилось:

Студентка написала эссе про “4P маркетинга” (Product, Price, Place, Promotion). Хороший текст, грамотный, структурированный. ChatGPT дал 8/10.

Проблема:

  • Мы НЕ изучали классический 4P на курсе
  • Проходили современные фреймворки: Jobs To Be Done, Growth Hacking, Product-Led Growth
  • Студентка просто загуглила тему и переписала статью из интернета

ChatGPT не знал содержание нашего курса, поэтому оценил текст “в вакууме”.

Масштаб:

  • 34 эссе из 120 (28%) были “не по теме курса”
  • Студенты писали про то, что легко найти в Google, а не применяли знания с занятий

Решение, которое НЕ сработало:

Я попытался добавить в промпт:

Мы НЕ изучали: 4P, SWOT-анализ, классический маркетинг-микс
Мы изучали: JTBD, Growth Hacking, AARRR, Retention loops

ChatGPT все равно давал высокие оценки “классическим” эссе, если они были хорошо написаны.

Вывод: Модель не понимает “дух курса”, она оценивает текст как текст.

Провал 3: Отсутствие эмпатии в фидбеке

Что случилось:

Студент-новичок написал слабое эссе (реально на 4/10). ChatGPT дал честную оценку и фидбек:

“Эссе не соответствует требованиям. Отсутствует структура, примеры поверхностны, выводы не аргументированы. Рекомендую полностью переделать работу.”

Технически – все верно. Но студент написал нам на почту: “Я старался три дня, а робот за 2 минуты все растоптал. Может, этот курс не для меня.”

Масштаб проблемы:

  • 12 студентов (10% от потока) отписались от курса после первой AI-проверки
  • Средний чек студента: 25 000₽
  • Финансовая потеря: 300 000₽

Чего не хватило:

Преподаватель Анна всегда находила что-то позитивное даже в слабой работе: “Хорошо, что попробовал применить фреймворк AARRR, давай доработаем”. Она знала, что студент – новичок, и ему нужна поддержка.

ChatGPT не знает эмоционального состояния студента, его background, количество попыток.

Попытка исправить:

Добавили в промпт:

Всегда начинайте с позитива, даже если работа слабая.
Укажите минимум 1-2 сильные стороны.
Фидбек должен мотивировать, а не демотивировать.

Результат: фидбек стал мягче, но “натянутым”. ChatGPT писал “Хорошо, что вы попытались”, когда явно не было ничего хорошего. Студенты чувствовали неискренность.

Что мы изменили: гибридная модель проверки

После месяца провалов мы перешли на гибридную схему:

Уровень 1: ChatGPT (автоматически)

Проверяет:

  • Структура (есть введение, основная часть, заключение?)
  • Грамматика и стиль
  • Формальные требования (объем, форматирование)

Время: 2 минуты Результат: Студент сразу видит “техническую” оценку

Уровень 2: Преподаватель (вручную)

Проверяет:

  • Фактическую точность (проверяет источники и цитаты)
  • Соответствие содержанию курса
  • Глубину понимания темы
  • Пишет персонализированный фидбек с учетом контекста

Время: 8-10 минут (вместо 18 минут раньше) Результат: Итоговая оценка + развернутый комментарий

Реальные метрики гибридной модели (3 месяца работы)

Экономия времени:

  • Было: 18 минут на эссе × 120 эссе = 36 часов/неделю
  • Стало: (2 мин AI + 8 мин преподаватель) × 120 = 20 часов/неделю
  • Экономия: 16 часов в неделю (44% времени)

Качество:

  • Жалоб студентов: 2 в месяц (было 23 в первый месяц с полной автоматизацией)
  • Удовлетворенность фидбеком: 87% (опрос 340 студентов)
  • Отток после первой проверки: 1,2% (было 10%)

Стоимость:

  • ChatGPT API: ~1 200₽/месяц
  • Время преподавателя: 80 часов/месяц × 2 000₽/час = 160 000₽
  • Было: 144 часа × 2 000₽ = 288 000₽
  • Экономия: 128 000₽/месяц

Четыре урока внедрения AI в EdTech

Урок 1: AI отлично справляется с формой, но проваливается на смысле

ChatGPT – это идеальный корректор и редактор структуры. Но он не понимает:

  • Правду ли говорит студент
  • Применяет ли студент знания с курса
  • Насколько глубоко понимание темы

Вывод: Используйте AI для проверки “формы” (структура, язык, форматирование), а человека – для проверки “смысла”.

Урок 2: Галлюцинации – это не баг, это фича языковых моделей

ChatGPT генерирует правдоподобный текст, но не имеет доступа к базе знаний. Если студент напишет “по данным исследования X”, модель не проверит, существует ли X.

Решение:

  • Либо интегрируйте RAG (Retrieval-Augmented Generation) с базой проверенных источников
  • Либо оставьте проверку фактов человеку

Мы выбрали второе – проще и дешевле для нашего масштаба.

Урок 3: Контекст курса не влезает в промпт

Я пытался впихнуть в system prompt:

  • Список изученных тем
  • Фреймворки, которые должны применять студенты
  • Примеры из лекций

Промпт вырос до 3000 токенов. ChatGPT все равно оценивал “общее качество текста”, а не применение конкретных знаний.

Вывод: Для оценки применения знаний курса нужен человек, который этот курс вел.

Урок 4: Эмпатия – это человеческий навык

Хороший преподаватель знает:

  • Это первая работа студента или десятая
  • Студент старается, но не понимает тему, или ленится
  • Нужна строгость или поддержка

ChatGPT не знает контекста и не умеет “читать между строк”. Он дает объективную оценку текста, но не чувствует человека за текстом.

Решение: Персональный фидбек всегда пишет преподаватель.

Где AI в образовании работает на 100%

Чтобы не создавать впечатление, что AI бесполезен в EdTech – вот задачи, где он реально закрывает 90-100% потребности:

1. Генерация тестовых вопросов

Задача: Создать 50 вопросов для квиза по пройденной теме.

Промпт:

На основе текста лекции создай 20 вопросов с вариантами ответа:
- 10 простых (проверка запоминания)
- 7 средних (понимание концепций)
- 3 сложных (применение на практике)

Результат:

  • 50 вопросов за 5 минут (vs 3 часа вручную)
  • Качество: 85% вопросов используем без правок
  • Стоимость: ~15₽ за генерацию

2. Персонализация учебных материалов

Кейс: Студент не понял тему “Growth Loops”. Преподаватель объяснил, но не помогло.

Решение:

Объясни концепцию Growth Loops:
- На примере компании [Netflix] (студент указывает интересную ему отрасль)
- Используя аналогию с [маховиком]
- Уровень сложности: для новичка без технического background

ChatGPT создает персонализированное объяснение под студента.

Метрики:

  • 78% студентов понимают тему после AI-объяснения
  • Экономия времени преподавателя: 15 минут на каждую консультацию

3. Автоматизация FAQ

Задача: Студенты задают 200+ одинаковых вопросов в месяц (“Где найти запись?”, “Когда дедлайн?”, “Как получить сертификат?”).

Решение:

  • ChatGPT-бот в Telegram с базой знаний из 150 FAQ
  • Отвечает мгновенно на типовые вопросы
  • Если не знает ответа – передает куратору

Метрики:

  • 83% вопросов закрывает бот
  • 17% передается людям
  • Экономия: 40 часов куратора в месяц

Заключение: AI в образовании – это не замена преподавателя, а его инструмент

После 6 месяцев экспериментов с ChatGPT в онлайн-школе я понял: AI не заменит преподавателя, но может отлично дополнить его.

Что AI делает хорошо:

  • Проверка формы (структура, язык, грамматика)
  • Генерация контента (вопросы, объяснения, примеры)
  • Автоматизация FAQ и рутинных задач
  • Персонализация материалов под студента

Что AI НЕ умеет (пока):

  • Проверка фактов и источников
  • Оценка глубины понимания темы
  • Учет контекста курса и личности студента
  • Эмпатия и мотивационный фидбек

Три правила успешного внедрения:

  1. Начинайте с низких рисков

    • Сначала – генерация вопросов и FAQ-бот
    • Потом – проверка структуры эссе
    • В последнюю очередь – оценка содержания (только с проверкой человеком)
  2. Гибридная модель обязательна

    • AI проверяет форму и дает быстрый фидбек
    • Человек проверяет смысл и пишет персональный комментарий
    • Никогда не давайте AI финальное слово в оценке
  3. Считайте реальную экономику

    • Не только стоимость API ($1200/мес в нашем случае)
    • Но и время на интеграцию (40 часов разработки)
    • И стоимость ошибок (300 000₽ потерянных студентов в первый месяц)
    • ROI проявляется через 3-4 месяца

Важное уточнение по моделям (2025 год):

Мы используем gpt-4o-mini для всех задач проверки – его более чем достаточно. Пробовали gpt-4o – разница в качестве незаметна для наших задач, а стоит в 17 раз дороже.

Новые модели o1-mini тестировали для проверки сложных кейсов (когда студент должен провести анализ и предложить решение). Работают чуть лучше, но стоят дороже. Пока не перешли – экономика не сходится.

Бесплатный модуль

От провалов к работающим решениям: AI в обучении

Открытый модуль курса: как детектировать галлюцинации ChatGPT при проверке работ, настраивать промпты для образовательного контента, строить гибридные модели AI + человек. С примерами кода и кейсами.

Детальный разбор инструментов с примерами
Готовые промпты для типовых задач
Навыки безопасного использования AI
Понимание, как измерять ROI
Изучить практику внедрения AI →
Без платёжных данных

Кстати, похожую проблему с галлюцинациями и проверкой фактов мы разбирали в статье про корпоративное внедрение ChatGPT – там модель тоже “додумывала” несуществующие данные о заказах клиентов.

Источники и дополнительные материалы


Есть опыт внедрения AI в образовании? Напишите нам на welcome@mysummit.school – разберем ваш кейс!