RUS  ENG
Полная версия
ЖУРНАЛЫ // Моделирование и анализ информационных систем // Архив

Модел. и анализ информ. систем, 2025, том 32, номер 4, страницы 396–416 (Mi mais858)

Artificial intelligence

Влияние различных типов промптов на качество автоматической оценки ответов учащихся моделями искусственного интеллекта

И. А. Мещеряков, Н. С. Лагутина

Ярославский государственный университет им. П.Г. Демидова, Ярославль, Россия

Аннотация: Модели искусственного интеллекта (AI) могут полностью или частично автоматизировать проверку контрольных работ учащихся, делая методы экспертизы более точными и объективными. Качество работы таких моделей зависит не только от базовых алгоритмов и обучающих данных, но и от эффективности формулируемых запросов. Целью работы является исследование возможности применения открытых моделей искусственного интеллекта для оценивания ответов студентов на соответствие эталонному ответу преподавателя, а также увеличение качества решения задачи при помощи промпт-инжиниринга. Методом определения этого качества выбраны статистические характеристики результатов классификации текстов ответов на четыре категории: правильные, частично правильные, неверные, несоответствующие теме вопроса, моделями AI при использовании следующих вариантов промптов: простой промпт, ролевой промпт, промпт «цепочка мыслей», промпт, сгенерированный искуственным интеллектом. Для исследования были выбраны модели, доступные для открытого использования, ChatGPT o3-mini, DeepSeek V3, Mistral-Small-3.1-24B-Instruct-2503-IQ4_XS и Grok 3. Тестирование моделей проводилось на корпусе текстов студентов, собранном преподавателями ЯрГУ имени Демидова, из 507 ответов на 8 вопросов. Лучшее качество оценки ответов показала модель ChatGPT o3-mini со сгенерированным ей же промптом. Доля правильных ответов (accuracy) составила 0,82, среднеквадратичная ошибка (MSE) — 0,2, а F-мера достигла 0,8, что показывает перспективность использования AI не только в качестве инструмента оценки, но и в качестве средства автоматической генерации инструкций. Для оценки согласованности ответов модели при 10 одинаковых запросах был использован коэффициент Флейсса. Для указанной пары модели и промпта он составил от 0,48 для сложных вопросов до 0,69 для простых вопросов.

Ключевые слова: искусственный интеллект, промпт-инжиниринг, автоматическая оценка ответов учащихся, ChatGPT o-3 mini, DeepSeek V3, Mistral-Small-3.1-24B-Instruct-2503-IQ4_XS, Zero-Shot Prompting, нейронные сети, NLP, Chain-of-Thought, Role prompting.

УДК: 004.891.3

MSC: 68T50

Поступила в редакцию: 30.09.2025
Исправленный вариант: 02.11.2025
Принята в печать: 18.11.2025

DOI: 10.18255/1818-1015-2025-4-396-416



© МИАН, 2026