Сравнение современных моделей русскоязычных текстов для задачи классификации по уровням CEFR

Вадим Алексеевич Лавровский; Надежда Станиславовна Лагутина; Ольга Борисовна Лавровская

doi:10.18255/1818-1015-2025-3-298-310

Сравнение современных моделей русскоязычных текстов для задачи классификации по уровням CEFR

Вадим Алексеевич Лавровский, Надежда Станиславовна Лагутина, Ольга Борисовна Лавровская

https://doi.org/10.18255/1818-1015-2025-3-298-310

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Разработка качественных инструментов автоматического определения уровней текстов по шкале CEFR позволяет создавать учебные и проверочные материалы более быстро и объективно. В данной работе авторы исследуют два типа современных моделей текста: лингвистические характеристики и эмбеддинги больших языковых моделей для задачи классификации русскоязычных текстов по шести уровням CEFR: A1—C2 и трём укрупнённым категориям A, B, C. Два вида моделей явным образом представляет текст в виде вектора числовых характеристик. При этом разделение текста на уровни рассматривается как обычная задача классификации в области компьютерной лингвистики. Эксперименты проводились с собственным корпусом из 1904 текстов. Лучшее качество достигается rubert-base-cased-conversational без дополнительной адаптации при определении как шести, так и трёх категорий текста. Максимальное значение F-меры для уровней A, B, C равно 0,77. Максимальное значение F-меры для прогнозирования шести категорий текста равно 0,67. Качество определения уровня текста больше зависит от модели, чем от алгоритма классификации машинного обучения. Результаты отличаются друг от друга не более чем на 0,01-0,02, особенно это касается ансамблевых методов.

Ключевые слова

автоматическая обработка текста, классификация русскоязычных текстов, лингвистические характеристики, эмбеддинги, BERT, GPT, CEFR

MSC2020: 68T50

Об авторах

Вадим Алексеевич Лавровский

Ярославский государственный университет им. П.Г. Демидова
Россия

Надежда Станиславовна Лагутина

Ярославский государственный университет им. П.Г. Демидова
Россия

Ольга Борисовна Лавровская

Ярославский государственный университет им. П.Г. Демидова
Россия

Список литературы

1. N. V. Bordovskaya, E. A. Koshkina, M. A. Tikhomirova, and L. A. Melkaya, “Blended Educational Technologies in Higher Education: Systematic Review of Domestic Publications,” Vysshee obrazovanie v Rossii = Higher Education in Russia, vol. 31, no. 8-9, pp. 58–78, 2022, doi: 10.31992/0869-3617-2022-31-8-9-58-78.

2. A. W. Zaki and R. Darmi, “CEFR: Education towards 21st century of learning. Why matters,” Journal of Social Science and Humanities, vol. 4, no. 2, pp. 14–20, 2021, doi: 10.26666/rmp.jssh.2021.2.3.

3. T. Gaillat et al., “Predicting CEFR levels in learners of English: The use of microsystem criterial features in a machine learning approach,” ReCALL, vol. 34, no. 2, pp. 130–146, 2022, doi: 10.1017/S095834402100029X.

4. I. Natova, “Estimating CEFR reading comprehension text complexity,” The Language Learning Journal, vol. 49, no. 6, pp. 699–710, 2021, doi: 10.1080/09571736.2019.1665088.

5. G. Fakhretdinova, L. M. Zinnatullina, F. T. Galeeva, and E. Valeeva, “The CEFR for languages: research perspectives in foreign language teaching in Engineering university,” in International Conference on Interactive Collaborative Learning, 2021, pp. 225–232, doi: 10.1007/978-3-030-93907-6_24.

6. A. Dmitrieva, A. Laposhina, and M. Lebedeva, “A comparative study of educational texts for native, foreign, and bilingual young speakers of russian: are simplified texts equally simple?,” Frontiers in Psychology, vol. 12, p. 703690, 2021, doi: 10.3389/fpsyg.2021.703690.

7. V. J. Schmalz and A. Brutti, “Automatic Assessment of English CEFR Levels Using BERT Embeddings,” in Computational Linguistics CliC-it 2021, 2022, pp. 293–299.

8. N. S. Lagutina, K. V. Lagutina, A. M. Brederman, and N. N. Kasatkina, “Text classification by CEFR levels using machine learning methods and the BERT language model,” Automatic Control and Computer Sciences, vol. 58, no. 7, pp. 869–878, 2024, doi: 10.3103/S0146411624700329.

9. R. M. S'anchez, D. Alfter, S. Dobnik, M. Szawerna, and E. Volodina, “Jingle BERT, Jingle BERT, Frozen All the Way: Freezing Layers to Identify CEFR Levels of Second Language Learners Using BERT,” in Swedish Language Technology Conference and NLP4CALL, 2024, pp. 137–152, doi: 10.3384/ecp211011.

10. K. Clark, U. Khandelwal, O. Levy, and C. D. Manning, “What Does BERT Look at? An Analysis of BERT’s Attention,” in Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP, 2019, pp. 276–286, doi: 10.18653/v1/W19-4828.

11. N. Khallaf and S. Sharoff, “Automatic Difficulty Classification of Arabic Sentences,” in Proceedings of the Sixth Arabic Natural Language Processing Workshop, 2021, pp. 105–114.

12. D. Kogan et al., “Ace-CEFR--A Dataset for Automated Evaluation of the Linguistic Difficulty of Conversational Texts for LLM Applications.” 2025.

13. H. Ma, J. Wang, and L. He, “Linguistic features distinguishing students’ writing ability aligned with CEFR levels,” Applied Linguistics, vol. 45, no. 4, pp. 637–657, 2024, doi: 10.1093/applin/amad054.

14. V. Franzoni, G. Biondi, A. Milani, and others, “Morpho-Phraseological Based Classification of CEFR Italian L2 Learner Writing Proficiency,” IEEE ACCESS, vol. 12, pp. 156433–156441, 2024, doi: 10.1109/ACCESS.2024.3485988.

15. A. N. Laposhina and M. Y. Lebedeva, “Textometr: an online tool for automated complexity level assessment of texts for Russian language learners,” Russian language studies, vol. 19, no. 3, pp. 331–345, 2021, doi: 10.22363/2618-8163-2021-19-3-331-345.

16. I. Glivsi'c, C. L. Richter, and A. K. Ingason, “Testing relevant linguistic features in automatic CEFR skill level classification for Icelandic,” in Proceedings of the Joint 25th Nordic Conference on Computational Linguistics and 11th Baltic Conference on Human Language Technologies (NoDaLiDa/Baltic-HLT 2025), 2025, pp. 217–222.

17. N. Lagutina, K. Lagutina, A. Brederman, and N. Kasatkina, “Text classification by CEFR levels using machine learning methods and BERT language model,” Modeling and Analysis of Information Systems, vol. 30, no. 3, pp. 202–213, 2023, doi: 10.18255/1818-1015-2023-3-202-213.

18. P. Qi, Y. Zhang, Y. Zhang, J. Bolton, and C. D. Manning, “Stanza: A Python Natural Language Processing Toolkit for Many Human Languages,” in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations, 2020, pp. 101–108, doi: 10.18653/v1/2020.acl-demos.14.

Рецензия

Для цитирования:

Лавровский В.А., Лагутина Н.С., Лавровская О.Б. Сравнение современных моделей русскоязычных текстов для задачи классификации по уровням CEFR. Моделирование и анализ информационных систем. 2025;32(3):298-310. https://doi.org/10.18255/1818-1015-2025-3-298-310

For citation:

Lavrovskiy V.A., Lagutina N.S., Lavrovskaya O.B. Modern Russian-language texts models comparison for the task of CEFR levels classification. Modeling and Analysis of Information Systems. 2025;32(3):298-310. (In Russ.) https://doi.org/10.18255/1818-1015-2025-3-298-310

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 1818-1015 (Print)
ISSN 2313-5417 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Моделирование и анализ информационных систем

Сравнение современных моделей русскоязычных текстов для задачи классификации по уровням CEFR

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов