Preview

Моделирование и анализ информационных систем

Расширенный поиск

Классификация русскоязычных текстов по жанрам на основе современных эмбеддингов и ритма

https://doi.org/10.18255/1818-1015-2022-4-334-347

Аннотация

В статье исследуются современные векторные модели текстов для решения задачи классификации русскоязычных текстов по жанрам. Модели включают эмбеддинги ELMo, языковую модель BERT с предобучением и комплекс числовых ритмических характеристик на основе лексико-грамматических средств. Эксперименты проводились на корпусе из 10 000 текстов пяти жанров: романы, научные статьи, отзывы, посты из социальной сети Вконтакте, новости из OpenCorpora. Визуализация и анализ статистики для ритмических характеристик позволили выделить как наиболее разнообразные по ритму жанры: романы и отзывы, так и наименее - научные статьи. Именно эти жанры были впоследствии классифицированы лучше всего с помощью ритма и нейросети-классификатора LSTM. Кластеризация и классификация текстов по жанрам с помощью эмбеддингов ELMo и BERT позволила отделить один жанр от другого с небольшим количеством ошибок. F-мера мультиклассификации достигла 99%. Исследование подтверждает эффективность современных эмбеддингов в задачах компьютерной лингвистики, а также позволяет выделить достоинства и ограничения комплекса ритмических характеристик на материале классификации по жанрам.

Об авторе

Ксения Владимировна Лагутина
Ярославский государственный университет им. П. Г. Демидова
Россия


Список литературы

1. L. A. Kochetova and V. V. Popov, "Research of Axiological Dominants in Press Release Genre based on Automatic Extraction of Key Words from Corpus”, Nauchnyi dialog, no. 6, 2019, In Russian.

2. B. Kessler, G. Numberg, and H. Schutze, "Automatic detection of text genre”, in Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics, 1997, pp. 32-38.

3. A. Onan, "An ensemble scheme based on language function analysis and feature engineering for text genre classification”, Journal of Information Science, vol. 44, no. 1, pp. 28-47, 2018.

4. Z. Dai and R. Huang, "A Joint Model for Structure-based News Genre Classification with Application to Text Summarization”, in Findings of the Association for Computational Linguistics:ACL-IJCNLP 2021, 2021, pp. 3332-3342.

5. K. V. Lagutina, N. S. Lagutina, and E. I. Boychuk, "Text classification by genre based on rhythm features”, Modeling and analysis of information systems, vol. 28, no. 3, pp. 280-291, 2021.

6. K. Lagutina, A. Poletaev, N. Lagutina, E. Boychuk, and I. Paramonov, "Automatic extraction of rhythm figures and analysis of their dynamics in prose of 19th-21st centuries”, Proceedings of the 26th Conference of Open Innovations Association FRUCT, pp. 247-255, 2020.

7. M. Peters, M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee, and L. Zettlemoyer, "Deep Contextualized Word Representations”, in Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), 2018, pp. 2227-2237.

8. J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”, in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 2019, pp. 4171-4186.

9. C. Wang, P. Nulty, and D. Lillis, "A comparative study on word embeddings in deep learning for text classification”, in Proceedings of the 4th International Conference on Natural Language Processing and Information Retrieval, 2020, pp. 37-46.

10. Y. Kuratov and M. Arkhipov, "Adaptation of deep bidirectional multilingual transformers for Russian language”, in Komp’juternaja Lingvistika i Intellektual’nye Tehnologii, 2019, pp. 333-339.

11. A. Kutuzov, L. Pivovarova, etal., "RuShiftEval: a shared task on semantic shift detection for Russian”, in Computational Linguistics and Intellectual Technologies Papers from the Annual International Conference “Dialogue” (2021), vol. 20, 2021, pp. 533-545.

12. J. Rodina, Y. Trofimova, A. Kutuzov, and E. Artemova, "ELMo and BERT in semantic change detection for Russian”, in International Conference on Analysis of Images, Social Networks and Texts, Springer, 2020, pp. 175-186.

13. A. V. Glazkova, "Topical classification of text fragments accounting for their nearest context”, Automation and Remote Control, vol. 81, no. 12, pp. 2262-2276, 2020.

14. I. A. Batraeva, A. D. Nartsev, and A. S. Lezgyan, "Using the analysis of semantic proximity of words in solving the problem of determining the genre of texts within deep learning”, Vestnik Tomskogo gosudarstvennogo universiteta. Upravlenie vychislitelnaja tehnika i informatika, no. 50, pp. 14-22, 2020, In Russian.

15. V. Bocharov, S. Alexeeva, D. Granovsky, E. Protopopova, M. Stepanova, and A. Surikov, "Crowdsourcing morphological annotation”, in Computational Linguistics and Intellectual Technologies: Papers from the Annual International Conference ’’Dialogue”. Volume 1, 2013, pp. 109-114.

16. K. Lagutina, N. Lagutina, E. Boychuk, V. Larionov, and I. Paramonov, "Authorship verification of literary texts with rhythm features”, in 28th Conference of Open Innovations Association FRUCT, IEEE, 2021, pp. 240-251.


Рецензия

Для цитирования:


Лагутина К.В. Классификация русскоязычных текстов по жанрам на основе современных эмбеддингов и ритма. Моделирование и анализ информационных систем. 2022;29(4):334-347. https://doi.org/10.18255/1818-1015-2022-4-334-347

For citation:


Lagutina K.V. Classification of Russian Texts by Genres Based on Modern Embeddings and Rhythm. Modeling and Analysis of Information Systems. 2022;29(4):334-347. (In Russ.) https://doi.org/10.18255/1818-1015-2022-4-334-347

Просмотров: 626


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-1015 (Print)
ISSN 2313-5417 (Online)