Preview

Моделирование и анализ информационных систем

Расширенный поиск

Классификация текстов по жанрам на основе ритмических характеристик

https://doi.org/10.18255/1818-1015-2021-3-280-291

Полный текст:

Аннотация

Статья посвящена анализу ритма текстов различных жанров: художественных романов, рекламы, научных статей, отзывов, твитов и политических статей. Авторы выделили в текстах лексико-грамматические средства: анафору, эпифору, диакопу, апозиопезу и т. п., которые являются маркерами ритма текста. На их основе были подсчитаны статистические характеристики, описывающие количественно и структурно данные ритмические средства.

Полученная модель текста была визуализирована для статистического анализа с помощью диаграмм размаха и тепловых карт, которые показали отличия в ритме текстов различных жанров. Диаграммы размаха показали, что практически все жанры отличаются друг от друга по общей плотности ритмических характеристик. Тепловые карты показали различную структуру ритма у жанров.

Далее ритмические характеристики успешно использовались для классификации текстов по шести жанрам. Высокое качество классификации показало, что ритмические характеристики являются хорошим маркером для большинства жанров, в особенности для художественной литературы. Эксперименты проводились с помощью программного инструмента ProseRhythmDetector для русского и английского языков. Корпуса текстов содержат по 300 текстов для каждого языка.

Об авторах

Ксения Владимировна Лагутина
Ярославский государственный университет им. П.Г. Демидова
Россия

Аспирант.

Ул. Советская, д. 14, Ярославль, 150003



Надежда Станиславовна Лагутина
Ярославский государственный университет им. П.Г. Демидова
Россия

Канд. физико-математических наук, доцент.

Ул. Советская, д. 14, Ярославль, 150003



Елена Игоревна Бойчук
Ярославский государственный педагогический университет им. К.Д. Ушинского
Россия

Доктор философский наук, доцент.

Ул. Республиканская, д. 108/1, Ярославль, 150000



Список литературы

1. J. Worsham and J. Kalita, “Genre identification and the compositional effect of genre in literature”, in Proceedings of the 27th international conference on computational linguistics, 2018, pp. 1963–1973.

2. M. N. Melissourgou and K. T. Frantzi, “Genre identification based on SFL principles: The representation of text types and genres in English language teaching material”, Corpus Pragmatics, vol. 1, no. 4, pp. 373–392, 2017.

3. L. A. Kochetova and V. V. Popov, “Research of Axiological Dominants in Press Release Genre based on Automatic Extraction of Key Words from Corpus”, Nauchnyi dialog, no. 6, 2019, In Russian.

4. S. E. Murphy, “Shakespeare and his contemporaries: Designing a genre classification scheme for Early English Books Online 1560-1640”, ICAME Journal, pp. 59–82, 2019.

5. R. Malhotra and A. Sharma, “Quantitative evaluation of web metrics for automatic genre classification of web pages”, International Journal of System Assurance Engineering and Management, vol. 8, no. 2, pp. 1567–1579, 2017.

6. D. DEJICA, “Understanding Technical and Scientific Translation: A Genre-based Approach”, Scientific Bulletin of the Politehnica University of Timisoara. Transactions on Modern Languages/Buletinul Stiintific al Universitatii Politehnica din Timisoara. Seria Limbi Moderne, vol. 19, no. 1, pp. 56–66, 2020.

7. V. Thakur and A. C. Patel, “An Improved Dictionary Based Genre Classification Based on Title and Abstract of E-book Using Machine Learning Algorithms”, in Proceedings of Second International Conference on Computing, Communications, and Cyber-Security, Springer, 2021, pp. 323–337.

8. A. Cimino, M. Wieling, F. Dell’Orletta, S. Montemagni, and G. Venturi, “Identifying predictive features for textual genre classification: the key role of syntax”, Proceedings of the Fourth Italian Conference on Computational Linguistics CLiC-it 2017, pp. 107–112, 2017.

9. K. Lagutina, A. Poletaev, N. Lagutina, E. Boychuk, and I. Paramonov, “Automatic extraction of rhythm figures and analysis of their dynamics in prose of 19th-21st centuries”, Proceedings of the 26th Conference of Open Innovations Association FRUCT, pp. 247–255, 2020.

10. K. Lagutina, N. Lagutina, E. Boychuk, V. Larionov, and I. Paramonov, “Authorship verification of literary texts with rhythm features”, Proceedings of the 28th Conference of Open Innovations Association FRUCT, pp. 240–251, 2021.

11. A. Onan, “An ensemble scheme based on language function analysis and feature engineering for text genre classification”, Journal of Information Science, vol. 44, no. 1, pp. 28–47, 2018.

12. A. M. El-Halees, “Arabic Text Genre Classification”, Journal of Engineering Research and Technology, vol. 4, no. 3, pp. 105–109, 2017.

13. I. A. Batraeva, A. D. Nartsev, and A. S. Lezgyan, “Using the analysis of semantic proximity of words in solving the problem of determining the genre of texts within deep learning”, Vestnik Tomskogo gosudarstvennogo universiteta. Upravlenie vychislitelnaja tehnika i informatika, no. 50, pp. 14–22, 2020, In Russian.

14. V. B. Barahnin, O. Y. Kozhemyakina, E. V. Rychkova, I. S. Pastushkov, and Y. S. Borzilova, “Izvlechenie leksicheskih i metroritmicheskih priznakov, harakternyh dlya zhanra i stilya i ih kombinacij v processe avtomatizirovannoj obrabotki tekstov na russkom yazyke”, Sovremennye informacionnye tekhnologii i IT-obrazovanie, vol. 14, no. 4, pp. 888–895, 2018, In Russian.

15. O. A. Mitrofanova and A. D. Moskvina, “On the Role of Prepositional Statistics for Genre Identification of Russian texts”, International Journal of Open Information Technologies, vol. 8, no. 11, pp. 91–96, 2020, In Russian.

16. L. G. Gorbich and A. A. Zhivoderov, “Using statistical indexes to distinguish between scientific and popular science texts on the example of the works of A. E. Fersman”, Software & Systems, vol. 33, no. 4, pp. 720–725, 2020, In Russian.

17. A. R. Dubovik, “Automatic text style identification in terms of statistical parameters”, Komp’yuternaya lingvistika i vychislitel’nye ontologii, no. 1, pp. 29–45, 2017, In Russian.

18. A. Y. Antonova, E. S. Klyshinskij, and E. V. YAgunova, “Opredelenie stilevyh i zhanrovyh harakteristik kollekcij tekstov na osnove chasterechnoj sochetaemosti”, Otkrytye sistemy, vol. 3, pp. 80–85, 2011, In Russian.

19. M. Sokolova and G. Lapalme, “A systematic analysis of performance measures for classification tasks”, Information processing & management, vol. 45, no. 4, pp. 427–437, 2009.

20. L. Kozlova, “Sravnitel’naya tipologiya anglijskogo i russkogo yazykov”, Barnaul: AltGPU, no. 20019, p. 180, 2019, In Russian.

21. A. Wierzbicka, The semantics of grammar. John Benjamins Publishing, 1988, vol. 18, p. 617.


Рецензия

Для цитирования:


Лагутина К.В., Лагутина Н.С., Бойчук Е.И. Классификация текстов по жанрам на основе ритмических характеристик. Моделирование и анализ информационных систем. 2021;28(3):280-291. https://doi.org/10.18255/1818-1015-2021-3-280-291

For citation:


Lagutina K.V., Lagutina N.S., Boychuk E.I. Text Classification by Genre Based on Rhythm Features. Modeling and Analysis of Information Systems. 2021;28(3):280-291. (In Russ.) https://doi.org/10.18255/1818-1015-2021-3-280-291

Просмотров: 198


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-1015 (Print)
ISSN 2313-5417 (Online)