Preview

Моделирование и анализ информационных систем

Расширенный поиск

Автоматизированный поиск и анализ стилометрических характеристик, описывающих стиль прозы 19-21 веков

https://doi.org/10.18255/1818-1015-2020-3-330-343

Полный текст:

Аннотация

Статья посвящена сравнению стилометрических характеристик нескольких уровней, являющихся маркерами стиля прозаического текста, и анализу стилистических изменений русской и британской прозы 19-21 веков. Стилометрические характеристики включают в себя низкоуровневые характеристики, основанные на словах и символах, и высокоуровневые — ритмические. Подобные характеристики моделируют стиль текста и являются индикаторами времени его создания.

Вычисление всех характеристик происходит полностью автоматически, что позволяет проводить крупные эксперименты с художественными произведениями большого объёма и ускоряет работу эксперта-лингвиста. Для подсчёта стилометрических характеристик, в том числе основанных на результатах поиска ритмических средств, используется программа ProseRhythmDetector. В результате её работы каждый текст представляется в виде набора одних и тех же характеристик трёх уровней: символов, слов, ритма. Тексты объединяются по десятилетиям, для каждого десятилетия находятся средние значения стилометрических характеристик. Полученные модели десятилетий сравниваются при помощи стандартных метрик близости, результаты сравнения визуализируются в виде тепловых карт и дендрограмм. Эксперименты с двумя корпусами русских и британских текстов показывают, что в течение 19-21 веков появляются как общие тенденции изменения стиля для обоих корпусов, например, уменьшение количества ритмических средств в расчёте на одно предложение, так и собственные для каждого языка, например, динамика изменения длин слов и предложений. Стилометрические характеристики всех уровней выявляют схожесть стиля текстов, опубликованных в одном веке. Также характеристики трёх уровней в комплексе лучше демонстрируют уникальность каждого десятилетия, чем характеристики конкретного уровня. Это исследование показывает значимость стилометрических характеристик как маркеров стиля различных эпох и позволяет выявить тенденции изменения стиля на протяжении нескольких веков.

Об авторах

Ксения Владимировна Лагутина
Ярославский государственный университет им. П.Г. Демидова
Россия

Аспирант.

Ул. Советская, 14, Ярославль, 150003


Алла Михайловна Манахова
Ярославский государственный университет им. П.Г. Демидова
Россия

Студент.

Ул. Советская, 14, Ярославль, 150003


Список литературы

1. E. Boychuk, I. Paramonov, N. Kozhemyakin, and N. Kasatkina, "Automated approach for rhythm analysis of French literary texts”, in Proceedings of 15th Conference of Open Innovations Association FRUCT, IEEE, 2014, pp. 15-23.

2. N. Golubeva-Monatkina, "On the Problem of Prose Rhythm”, The Bulletin of the Russian Academy of Sciences: Studies in Literature and Language, vol. 76, no. 2, pp. 16-27, 2017, In Russian.

3. T. Neal, K. Sundararajan, A. Fatima, Y. Yan, Y. Xiang, and D. Woodard, "Surveying stylometry techniques and applications”, ACM Computing Surveys (CSUR), vol. 50, no. 6, p. 86, 2018.

4. K. Lagutina, N. Lagutina, E. Boychuk, I. Vorontsova, E. Shliakhtina, O. Belyaeva, and I. Paramonov, "A Survey on Stylometric Text Features”, in Proceedings of the 25th Conference of Open Innovations Association FRUCT, IEEE, 2019, pp. 184-195.

5. Martynenko G. Ya., "Metody matematicheskoj lingvistiki v stilisticheskih issledovaniyah”, In Russian, Nestor-Istoriya, 2019.

6. A. Kumar, M. Lease, and J. Baldridge, "Supervised language modeling for temporal resolution of texts”, in Proceedings of the 20th ACM international conference on Information and knowledge management, 2011, pp. 2069-2072.

7. A. Jatowt and R. Campos, "Interactive system for reasoning about document age”, in Proceedings of the 2017 ACM on Conference on Information and Knowledge Management, 2017, pp. 2471-2474.

8. O. Popescu and C. Strapparava, "Semeval 2015, task 7: Diachronic text evaluation”, in Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015), 2015, pp. 870-878.

9. A. Gopidi and A. Alam, "Computational Analysis of the Historical Changes in Poetry and Prose”, in Proceedings of the 1st International Workshop on Computational Approaches to Historical Language Change, 2019, pp. 14-22.

10. H. Lan and J. Huang, "Chinese-English Cross-Lingual Text Clustering Algorithm based on Latent Semantic Analysis”, Proceedings of Science, pp. 1-7, 2017.

11. A. Esuli, A. Moreo, and F. Sebastiani, "Funnelling: A New Ensemble Method for Heterogeneous Transfer Learning and Its Application to Cross-Lingual Text Classification”, ACM Transactions on Information Systems (TOIS), vol. 37, no. 3, pp. 1-30, 2019.

12. K. Lagutina, A. Poletaev, N. Lagutina, E. Boychuk, and I. Paramonov, "Automatic Extraction of Rhythm Figures and Analysis of Their Dynamics in Prose of 19th-21st Centuries”, in 26th Conference of Open Innovations Association (FRUCT), IEEE, 2020, pp. 247-255.


Для цитирования:


Лагутина К.В., Манахова А.М. Автоматизированный поиск и анализ стилометрических характеристик, описывающих стиль прозы 19-21 веков. Моделирование и анализ информационных систем. 2020;27(3):330-343. https://doi.org/10.18255/1818-1015-2020-3-330-343

For citation:


Lagutina K.V., Manakhova A.M. Automated Search and Analysis of the Stylometric Features that Describe the Style of the Prose 19th-21st Centuries. Modeling and Analysis of Information Systems. 2020;27(3):330-343. (In Russ.) https://doi.org/10.18255/1818-1015-2020-3-330-343

Просмотров: 244


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-1015 (Print)
ISSN 2313-5417 (Online)