Preview

Моделирование и анализ информационных систем

Расширенный поиск

Влияние различных типов промптов на качество автоматической оценки ответов учащихся моделями искусственного интеллекта

https://doi.org/10.18255/1818-1015-2025-4-396-416

Аннотация

Модели искусственного интеллекта (AI) могут полностью или частично автоматизировать проверку контрольных работ учащихся, делая методы экспертизы более точными и объективными. Качество работы таких моделей зависит не только от базовых алгоритмов и обучающих данных, но и от эффективности формулируемых запросов. Целью работы является исследование возможности применения открытых моделей искусственного интеллекта для оценивания ответов студентов на соответствие эталонному ответу преподавателя, а также увеличение качества решения задачи при помощи промпт-инжиниринга. Методом определения этого качества выбраны статистические характеристики результатов классификации текстов ответов на четыре категории: правильные, частично правильные, неверные, несоответствующие теме вопроса, моделями AI при использовании следующих вариантов промптов: простой промпт, ролевой промпт, промпт «цепочка мыслей», промпт, сгенерированный искуственным интеллектом. Для исследования были выбраны модели, доступные для открытого использования, ChatGPT o3-mini, DeepSeek V3, Mistral-Small-3.1-24B-Instruct-2503-IQ4_XS и Grok 3. Тестирование моделей проводилось на корпусе текстов студентов, собранном преподавателями ЯрГУ имени Демидова, из 507 ответов на 8 вопросов. Лучшее качество оценки ответов показала модель ChatGPT o3-mini со сгенерированным ей же промптом. Доля правильных ответов (accuracy) составила 0,82, среднеквадратичная ошибка (MSE) — 0,2, а F-мера достигла 0,8, что показывает перспективность использования AI не только в качестве инструмента оценки, но и в качестве средства автоматической генерации инструкций. Для оценки согласованности ответов модели при 10 одинаковых запросах был использован коэффициент Флейсса. Для указанной пары модели и промпта он составил от 0,48 для сложных вопросов до 0,69 для простых вопросов.

Об авторах

Иван Андреевич Мещеряков
Ярославский государственный университет им. П.Г. Демидова
Россия


Надежда Станиславовна Лагутина
Ярославский государственный университет им. П.Г. Демидова
Россия


Список литературы

1. S. Khan, L. Blessing, and Y. Ndiaye, “Artificial intelligence for competency assessment in design education: a review of literature,” in International Conference on Research into Design, 2023, pp. 1047–1058, doi: 10.1007/978-981-99-0428-0_85.

2. J. Lu, B. K. Balasubramanian, M. Joy, and Q. Xu, “Survey and Analysis for the Challenges in Computer Science to the Automation of Grading Systems,” ACM Computing Surveys, p. 3748521, 2025, doi: 10.1145/3748521.

3. L. Yan et al., “Practical and ethical challenges of large language models in education: A systematic scoping review,” British Journal of Educational Technology, vol. 55, no. 1, pp. 90–112, 2024, doi: doi.org/10.1111/bjet.13370.

4. L. Kaldaras, H. O. Akaeze, and M. D. Reckase, “Developing valid assessments in the era of generative artificial intelligence,” in Frontiers in Education, 2024, vol. 9, p. 1399377, doi: 10.3389/feduc.2024.1399377.

5. L. S. Lo, “The art and science of prompt engineering: a new literacy in the information age,” Internet Reference Services Quarterly, vol. 27, no. 4, pp. 203–210, 2023, doi: 10.1080/10875301.2023.2227621.

6. J. Park and S. Choo, “Generative AI prompt engineering for educators: Practical strategies,” Journal of Special Education Technology, p. 01626434241298954, 2024, doi: 10.1177/01626434241298954.

7. C. H. Leung, “Promoting Optimal Learning with ChatGPT: A Comprehensive Exploration of Prompt Engineering in Education,” Asian Journal of Contemporary Education, vol. 8, no. 2, pp. 104–114, 2024, doi: 10.55493/5052.v8i2.5101.

8. L. S. Lo, “The CLEAR path: A framework for enhancing information literacy through prompt engineering,” The Journal of Academic Librarianship, vol. 49, no. 4, p. 102720, 2023, doi: 10.1016/j.acalib.2023.102720.

9. C. Jin et al., “Apeer: Automatic prompt engineering enhances large language model reranking,” in Companion Proceedings of the ACM on Web Conference 2025, 2025, pp. 2494–2502, doi: 10.1145/3701716.3717574.

10. A. Gilson et al., “How does ChatGPT perform on the United States Medical Licensing Examination (USMLE)? The implications of large language models for medical education and knowledge assessment,” JMIR Medical Education, vol. 9, no. 1, p. e45312, 2023, doi: 10.2196/45312.

11. L. Morjaria et al., “Examining the efficacy of ChatGPT in marking short-answer assessments in an undergraduate medical program,” International Medical Education, vol. 3, no. 1, pp. 32–43, 2024, doi: 10.3390/ime3010004.

12. T. Jade and A. Yartsev, “ChatGPT for automated grading of short answer questions in mechanical ventilation.” 2025, doi: 10.48550/arXiv.2505.04645.

13. L. Henrickson and A. Mero no-Pe nuela, “Prompting meaning: a hermeneutic approach to optimising prompt engineering with ChatGPT,” AI & SOCIETY, vol. 40, no. 2, pp. 903–918, 2025, doi: 10.1007/s00146-023-01752-8.

14. G. Kortemeyer, “Performance of the pre-trained large language model GPT-4 on automated short answer grading,” Discover Artificial Intelligence, vol. 4, no. 1, p. 47, 2024, doi: 10.1007/s44163-024-00147-y.

15. J. Flod'en, “Grading exams using large language models: A comparison between human and AI grading of exams in higher education using ChatGPT,” British Educational Research Journal, vol. 51, no. 1, pp. 201–224, 2025, doi: 10.1002/berj.4069.

16. A. V. Rezaev and N. D. Tregubova, “ChatGPT and AI in the Universities: An Introduction to the Near Future,” Higher Education in Russia, vol. 32, no. 6, pp. 19–37, 2023, doi: 10.31992/0869-3617-2023-32-6-19-37.

17. P. A. A., “Potentials of integrating generative artificial intelligence technologies into formative assessment processes in higher education,” Vestnik Majkopskogo Gosudarstvennogo Tehnologiceskogo Universiteta, vol. 16, no. 2, pp. 98–109, 2024, doi: 10.47370/2078-1024-2024-16-2-98-109.

18. A. Kong et al., “Better Zero-Shot Reasoning with Role-Play Prompting,” in Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers), 2024, pp. 4099–4113, doi: 10.18653/v1/2024.naacl-long.228.

19. J. Wei et al., “Chain-of-thought prompting elicits reasoning in large language models,” Advances in Neural Information Processing Systems, vol. 35, pp. 24824–24837, 2022.

20. B. Wang et al., “Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters,” in Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 2023, pp. 2717–2739.

21. G. Chochlakis, N. M. Pandiyan, K. Lerman, and S. Narayanan, “Larger language models don’t care how you think: Why chain-of-thought prompting fails in subjective tasks,” in Proceedings of the 2025-2025 IEEE International Conference on Acoustics, Speech and Signal Processing, 2025, pp. 1–5.

22. J. Cheng et al., “Chain-of-Thought Prompting Obscures Hallucination Cues in Large Language Models: An Empirical Evaluation.” 2025.

23. Z. Li, Y. Du, J. Hu, X. Wan, and A. Gao, “Self-Instructed Derived Prompt Generation Meets In-Context Learning: Unlocking New Potential of Black-Box LLMs.” 2024.

24. P. Sahoo, A. K. Singh, S. Saha, V. Jain, S. Mondal, and A. Chadha, “A systematic survey of prompt engineering in large language models: Techniques and applications.” 2024.

25. X. Wang and D. Zhou, “Chain-of-thought reasoning without prompting,” Advances in Neural Information Processing Systems, vol. 37, pp. 66383–66409, 2024.


Рецензия

Для цитирования:


Мещеряков И.А., Лагутина Н.С. Влияние различных типов промптов на качество автоматической оценки ответов учащихся моделями искусственного интеллекта. Моделирование и анализ информационных систем. 2025;32(4):396-416. https://doi.org/10.18255/1818-1015-2025-4-396-416

For citation:


Meshcheryakov I.A., Lagutina N.S. The impact of different prompt types on the quality of automatic assessment of student answers by artificial intelligence models. Modeling and Analysis of Information Systems. 2025;32(4):396-416. (In Russ.) https://doi.org/10.18255/1818-1015-2025-4-396-416

Просмотров: 70


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-1015 (Print)
ISSN 2313-5417 (Online)