Artificial intelligence
Влияние различных типов промптов на качество автоматической оценки ответов учащихся моделями искусственного интеллекта
И. А. Мещеряков,
Н. С. Лагутина Ярославский государственный университет им. П.Г. Демидова, Ярославль, Россия
Аннотация:
Модели искусственного интеллекта (AI) могут полностью или частично автоматизировать проверку контрольных работ учащихся, делая методы экспертизы более точными и объективными. Качество работы таких моделей зависит не только от базовых алгоритмов и обучающих данных, но и от эффективности формулируемых запросов. Целью работы является исследование возможности применения открытых моделей искусственного интеллекта для оценивания ответов студентов на соответствие эталонному ответу преподавателя, а также увеличение качества решения задачи при помощи промпт-инжиниринга. Методом определения этого качества выбраны статистические характеристики результатов классификации текстов ответов на четыре категории: правильные, частично правильные, неверные, несоответствующие теме вопроса, моделями AI при использовании следующих вариантов промптов: простой промпт, ролевой промпт, промпт «цепочка мыслей», промпт, сгенерированный искуственным интеллектом. Для исследования были выбраны модели, доступные для открытого использования, ChatGPT o3-mini, DeepSeek V3, Mistral-Small-3.1-24B-Instruct-2503-IQ4_XS и Grok 3. Тестирование моделей проводилось на корпусе текстов студентов, собранном преподавателями ЯрГУ имени Демидова, из 507 ответов на 8 вопросов. Лучшее качество оценки ответов показала модель ChatGPT o3-mini со сгенерированным ей же промптом. Доля правильных ответов (accuracy) составила 0,82, среднеквадратичная ошибка (MSE) — 0,2, а F-мера достигла 0,8, что показывает перспективность использования AI не только в качестве инструмента оценки, но и в качестве средства автоматической генерации инструкций. Для оценки согласованности ответов модели при 10 одинаковых запросах был использован коэффициент Флейсса. Для указанной пары модели и промпта он составил от 0,48 для сложных вопросов до 0,69 для простых вопросов.
Ключевые слова:
искусственный интеллект, промпт-инжиниринг, автоматическая оценка ответов учащихся, ChatGPT o-3 mini, DeepSeek V3, Mistral-Small-3.1-24B-Instruct-2503-IQ4_XS, Zero-Shot Prompting, нейронные сети, NLP, Chain-of-Thought, Role prompting.
УДК:
004.891.3
MSC: 68T50 Поступила в редакцию: 30.09.2025
Исправленный вариант: 02.11.2025
Принята в печать: 18.11.2025
DOI:
10.18255/1818-1015-2025-4-396-416