Применение глубоких нейронных сетей для автоматического определения иронии в русскоязычных текстах
https://doi.org/10.18255/1818-1015-2024-1-90-101
Аннотация
В работе исследуются автоматические методы классификации русскоязычных предложений на два класса: содержащие и не содержащие ироничный посыл. Рассматриваемые методы могут быть разделены на три категории: классификаторы на основе эмбеддингов языковых моделей, классификаторы с использованием информации о тональности и классификаторы с обучением эмбеддингов обнаружению иронии. Составными элементами классификаторов являются нейронные сети, такие как BERT, RoBERTa, BiLSTM, CNN, а также механизм внимания и полносвязные слои. Эксперименты по обнаружению иронии проводились с использованием двух корпусов русскоязычных предложений: первый корпус составлен из публицистических текстов из открытого корпуса OpenCorpora, второй корпус является расширением первого и дополнен ироничными предложениями с ресурса Wiktionary. Лучшие результаты продемонстрировала группа классификаторов на основе чистых эмбеддингов языковых моделей с максимальным значением F-меры 0.84, достигнутым связкой из RoBERTa, BiLSTM, механизма внимания и пары полносвязных слоев в ходе экспериментов на расширенном корпусе. В целом использование расширенного корпуса давало результаты на 2–5% выше результатов на базовом корпусе. Достигнутые результаты являются лучшими для рассматриваемой задачи в случае русского языка и сравнимы с лучшими для английского.
Ключевые слова
MSC2020: 68T50
Об авторах
Максим Алексеевич КостеринРоссия
Илья Вячеславович Парамонов
Россия
Список литературы
1. M. Kosterin, I. Paramonov, and N. Lagutina, “Automatic Irony and Sarcasm Detection in Russian Sentences: Baseline Methods,” in 33rd Conference of Open Innovations Association FRUCT, 2023, pp. 148–154, doi: 10.23919/FRUCT58615.2023.10142992.
2. D. vSandor and M. B. Babac, “Sarcasm detection in online comments using machine learning,” Information Discovery and Delivery, 2023, doi: 10.1108/IDD-01-2023-0002.
3. R. A. Potamias, G. Siolas, and A.-G. Stafylopatis, “A transformer-based approach to irony and sarcasm detection,” Neural Computing and Applications, vol. 32, pp. 17309–17320, 2020, doi: 10.1007/s00521-020-05102-3.
4. C. Van Hee, E. Lefever, and V. Hoste, “Semeval-2018 task 3: Irony detection in English tweets,” in Proceedings of The 12th International Workshop on Semantic Evaluation, 2018, pp. 39–50, doi: 10.18653/v1/S18-1005.
5. M. Khodak, N. Saunshi, and K. Vodrahalli, “A large self-annotated corpus for sarcasm.” 2017.
6. E. Riloff, A. Qadir, P. Surve, L. De Silva, N. Gilbert, and R. Huang, “Sarcasm as contrast between a positive sentiment and negative situation,” in Proceedings of the 2013 conference on empirical methods in natural language processing, 2013, pp. 704–714.
7. S. Zhang, X. Zhang, J. Chan, and P. Rosso, “Irony detection via sentiment-based transfer learning,” Information Processing & Management, vol. 56, no. 5, pp. 1633–1644, 2019, doi: 10.1016/j.ipm.2019.04.006.
8. D. Hazarika, S. Poria, S. Gorantla, E. Cambria, R. Zimmermann, and R. Mihalcea, “Cascade: Contextual sarcasm detection in online discussion forums.” 2018.
9. T. Zefirova and N. Loukachevitch, “Irony and sarcasm expression in Twitter,” EPiC Series in Language and Linguistics, vol. 4, pp. 45–49, 2019, doi: 10.29007/tpzw.
10. A. A. Gurin and T. A. Zhukov, “Avtomaticheskoe opredelenie sarkazma v tekstakh na russkom yazyke,” Tsyfrovaya ekonomika, vol. 1(22), pp. 44–53, 2023.
11. A. D. Yacoub, S. Slim, and A. Aboutabl, “A Survey of Sentiment Analysis and Sarcasm Detection: Challenges, Techniques, and Trends,” International journal of electrical and computer engineering systems, vol. 15, no. 1, pp. 69–78, 2024, doi: 10.32985/ijeces.15.1.7.
12. Y. Kuratov and M. Arkhipov, “Adaptation of deep bidirectional multilingual transformers for Russian language.” 2019.
13. D. Zmitrovich et al., “A family of pretrained transformer language models for Russian.” 2023.
14. C. Zhou, C. Sun, Z. Liu, and F. Lau, “A C-LSTM neural network for text classification.” 2015.
15. A. Rogers, A. Romanov, A. Rumshisky, S. Volkova, M. Gronas, and A. Gribov, “RuSentiment: An enriched sentiment analysis dataset for social media in Russian,” in Proceedings of the 27th international conference on computational linguistics, 2018, pp. 755–763.
Рецензия
Для цитирования:
Костерин М.А., Парамонов И.В. Применение глубоких нейронных сетей для автоматического определения иронии в русскоязычных текстах. Моделирование и анализ информационных систем. 2024;31(1):90-101. https://doi.org/10.18255/1818-1015-2024-1-90-101
For citation:
Kosterin M.A., Paramonov I.V. Application of deep neural networks for automatic irony detection in Russian texts. Modeling and Analysis of Information Systems. 2024;31(1):90-101. (In Russ.) https://doi.org/10.18255/1818-1015-2024-1-90-101