Preview

Моделирование и анализ информационных систем

Расширенный поиск

Разметка корпусов текстов по тональности и наличию иронии в рамках проекта гражданской науки

https://doi.org/10.18255/1818-1015-2023-1-86-100

Аннотация

Статья посвящена построению корпуса предложений, размеченных по общей тональности на 4 класса (положительный, отрицательный, нейтральный, смешанный), корпуса фразеологизмов, размеченных по тональности на 3 класса (положительный, отрицательный, нейтральный), и корпуса предложений, размеченных по наличию или отсутствию иронии. Разметку проводили волонтёры в рамках проекта «Готовим тексты алгоритмам» на портале «Люди науки». На основе имеющихся знаний о предметной области для каждой из задач были составлены инструкции для разметчиков. Также была выработана методика статистической обработки результатов разметки, основанная на анализе распределений и показателей согласия оценок, выставленных разными разметчиками. Для разметки предложений по наличию иронии и фразеологизмов по тональности показатели согласия оказались достаточно высокими (доля полного совпадения 0.60--0.99), при разметке предложений по общей тональности согласие оказалось слабым (доля полного совпадения 0.40), по-видимому, из-за более высокой сложности задачи. Также было показано, что результаты работы автоматических алгоритмов анализа тональности предложений улучшаются на 12--13 % при использовании корпуса, относительно предложений которого сошлись мнения всех разметчиков (3--5 человек), по сравнению с корпусом с разметкой только одним волонтёром.

Об авторах

Илья Вячеславович Парамонов
Ярославский государственный университет им. П. Г. Демидова
Россия


Анатолий Юрьевич Полетаев
Ярославский государственный университет им. П. Г. Демидова
Россия


Список литературы

1. V. Masoumi, M. Salehi, H. Veisi, G. Haddadian, V. Ranjbar, and M. Sahebdel, “TeleCrowd: A Crowdsourcing Approach to Create Informal to Formal Text Corpora.” 2020.

2. E. Mitiagina, M. Borodataya, E. Volchenkova, N. Ershova, M. Luchinina, and E. Kotelnikov, “Russian Text Corpus of Intimate Partner Violence: Annotation Through Crowdsourcing,” in 7th International Conference on Electronic Governance and Open Society: Challenges in Eurasia. EGOSE 2020, Springer, 2020, pp. 306–321.

3. S. Mohammad, “A practical guide to sentiment annotation: Challenges and solutions,” in Proceedings of the 7th workshop on computational approaches to subjectivity, sentiment and social media analysis, 2016, pp. 174–179.

4. S. M. Mohammad, P. Sobhani, and S. Kiritchenko, “Stance and Sentiment in Tweets,” Special Section of the ACM Transactions on Internet Technology on Argumentation in Social Media, vol. 17, no. 3, pp. 1–23, 2017.

5. B. R. Chakravarthi, V. Muralidaran, R. Priyadharshini, and J. P. McCrae, “Corpus Creation for Sentiment Analysis in Code-Mixed Tamil-English Text,” in Proceedings of the 1st Joint SLTU and CCURL Workshop (SLTU-CCURL 2020), 2020, pp. 202–210.

6. K. Krippendorff, Content analysis: an introduction to its methodology. Thousand Oaks, CA: SAGE Publications, Inc., 2013.

7. Y. Zhao, B. Qin, and T. Liu, “Creating a fine-grained corpus for chinese sentiment analysis,” IEEE Intelligent Systems, vol. 30, no. 1, pp. 36–43, 2014.

8. J. Cohen, “A coefficient of agreement for nominal scales,” Educational and psychological measurement, vol. 20, no. 1, pp. 37–46, 1960.

9. J. Bu et al., “ASAP: A Chinese Review Dataset Towards Aspect Category Sentiment Analysis and Rating Prediction,” in Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2021, pp. 2069–2079.

10. M. Navas-Loro, V. Rodr'iguez-Doncel, I. Santana-Perez, and A. S'anchez, “Spanish Corpus for Sentiment Analysis Towards Brands,” in Speech and Computer. SPECOM 2017, 2017, pp. 680–689.

11. J. L. Fleiss, “Measuring nominal scale agreement among many raters,” Psychological bulletin, vol. 76, no. 5, p. 378, 1971.

12. A. Rogers, A. Romanov, A. Rumshisky, S. Volkova, M. Gronas, and A. Gribov, “RuSentiment: An enriched sentiment analysis dataset for social media in Russian,” in Proceedings of the 27th international conference on computational linguistics, 2018, pp. 755–763.

13. T. V. Zherebilo, Slovar lingvisticheskih terminov. Nazran: OOO Piligrim, 2010.

14. K. Krippendorff, “Computing Krippendorff's Alpha-Reliability.” 2008, Accessed: Jan. 17, 2023. [Online]. Available: https://repository.upenn.edu/asc_papers/43/.

15. J. Hughes, “krippendorffsalpha: An R package for measuring agreement using Krippendorff's alpha coefficient,” The R Journal, vol. 13, no. 1, pp. 413–425, 2021.

16. L. A. Jeni, J. F. Cohn, and F. De La Torre, “Facing imbalanced data--recommendations for the use of performance metrics,” in 2013 Humaine association conference on affective computing and intelligent interaction, 2013, pp. 245–251.

17. A. Y. Poletaev and I. V. Paramonov, “Recursive sentiment detection algorithm for Russian sentences,” Modelirovanie i Analiz Informatsionnykh Sistem, vol. 29, no. 2, pp. 134–147, 2022.

18. S. Smetanin and M. Komarov, “Deep transfer learning baselines for sentiment analysis in Russian,” Information Processing & Management, vol. 58, no. 3, p. 102484, 2021.

19. R. Artstein and M. Poesio, “Inter-coder agreement for computational linguistics,” Computational linguistics, vol. 34, no. 4, pp. 555–596, 2008.


Рецензия

Для цитирования:


Парамонов И.В., Полетаев А.Ю. Разметка корпусов текстов по тональности и наличию иронии в рамках проекта гражданской науки. Моделирование и анализ информационных систем. 2023;30(1):86-100. https://doi.org/10.18255/1818-1015-2023-1-86-100

For citation:


Paramonov I.V., Poletaev A.Yu. Annotation of Text Corpora by Sentiment and Presence of Irony within a Project of Citizen Science. Modeling and Analysis of Information Systems. 2023;30(1):86-100. (In Russ.) https://doi.org/10.18255/1818-1015-2023-1-86-100

Просмотров: 345


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-1015 (Print)
ISSN 2313-5417 (Online)