Preview

Моделирование и анализ информационных систем

Расширенный поиск

Рекурсивный алгоритм определения тональности предложений на русском языке

https://doi.org/10.18255/1818-1015-2022-2-134-147

Аннотация

В статье рассматривается задача определения тональности русскоязычных предложений. Тональность понимается как отношение автора к теме предложения. В данном исследовании учитываются три варианта тональности - положительная, отрицательная и нейтральная, т. е. решается задача классификации с тремя классами. В статье предлагается алгоритм определения тональности предложения на русском языке, основанный на семантических правилах. В основе алгоритма лежит предположение о том, что тональность фразы может быть определена на основе тональностей её составляющих с помощью рекурсивного применения семантических правил к составным частям фразы, представленным в виде синтаксического дерева. Набор семантических правил, используемых алгоритмом, был составлен в результате обсуждений с экспертами-филологами. Эксперименты показали, что предложенный рекурсивный алгоритм даёт несколько худший результат на корпусе отзывов на отели по сравнению с подходом, основанным на правилах, ранее адаптированным авторами для русского языка: взвешенная $F_1$-мера составила 0.75 и 0.78 соответственно. Для оценки качества работы алгоритма на сложных предложениях был создан корпус OpenSentimentCorpus, основанный на OpenCorpora - открытом корпусе предложений из новостных статей и публицистики. На корпусе OpenSentimentCorpus рекурсивный алгоритм работает лучше, чем адаптированный подход: $F_1$-мера составила 0.70 и 0.63 соответственно. Таким образом, предложенный в данной работе алгоритм имеет преимущество в случае более сложных предложений с более тонкими способами выражения тональности.

Об авторах

Анатолий Юрьевич Полетаев
Ярославский государственный университет им. П. Г. Демидова
Россия


Илья Вячеславович Парамонов
Ярославский государственный университет им. П. Г. Демидова
Россия


Список литературы

1. I. Paramonov and A. Poletaev, “Adaptation of Semantic Rule-Based Sentiment Analysis Approach for Russian Language”, in Proceedings of 30th Conference of Open Innovations Association FRUCT, 2021, pp. 155-164.

2. T. Wilson, J. Wiebe, and P. Hoffmann, “Recognizing contextual polarity in phrase-level sentiment analysis”, in Proceedings of human language technology conference and conference on empirical methods in natural language processing, 2005, pp. 347-354.

3. L. K.-W. Tan, J.-C. Na, Y.-L. Theng, and K. Chang, “Sentence-level sentiment polarity classification using a linguistic approach”, in International Conference on Asian Digital Libraries, 2011, pp. 77-87.

4. Y. Xie, Z. Chen, K. Zhang, Y. Cheng, D. K. Honbo, A. Agrawal, and A. N. Choudhary, “MuSES: multilingual sentiment elicitation system for social media data”, IEEE Intelligent Systems, vol. 29, no. 4, pp. 34-42, 2014.

5. S. Smetanin and M. Komarov, “Deep transfer learning baselines for sentiment analysis in Russian”, Information Processing & Management, vol. 58, no. 3, p. 102 484, 2021.

6. M. A. M. Shaikh, H. Prendinger, and M. Ishizuka, “Sentiment assessment of text by analyzing linguistic features and contextual valence assignment”, Applied Artificial Intelligence, vol. 22, no. 6, pp. 558-601, 2008.

7. O. Appel, F. Chiclana, J. Carter, and H. Fujita, “A hybrid approach to the sentiment analysis problem at the sentence level”, Knowledge-Based Systems, vol. 108, pp. 110-124, 2016.

8. S. Kahane and N. Mazziotta, “Syntactic Polygraphs. A Formalism Extending Both Constituency and Dependency”, in Proceedings of the 14th Meeting on the Mathematics of Language, 2015, pp. 152-164. Recursive Sentiment Detection Algorithm for Russian Sentences

9. Y. Gao, J.-G. Lou, and D. Zhang, A Hybrid Semantic Parsing Approach for Tabular Data Analysis, 2019. arXiv: 1910.10363v2 [cs.AI].

10. J. Li, H. Tan, and M. Bansal, “Improving Cross-Modal Alignment in Vision Language Navigation via Syntactic Information”, in Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 2021, pp. 1041-1050.

11. Z. Marji, A. Nighojkar, and J. Licato, “Probing the Natural Language Inference Task with Automated Reasoning Tools”, in The Thirty-Third International Flairs Conference, 2020.

12. R. Socher, A. Perelygin, J. Wu, J. Chuang, C. D. Manning, A. Y. Ng, and C. Potts, “Recursive deep models for semantic compositionality over a sentiment treebank”, in Proceedings of the 2013 conference on empirical methods in natural language processing, 2013, pp. 1631-1642.

13. K. S. Tai, R. Socher, and C. D. Manning, “Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks”, in Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), 2015.

14. Y. Zhang and Y. Zhang, “Tree communication models for sentiment analysis”, in Proceedings of the 57th annual meeting of the association for computational linguistics, 2019, pp. 3518-3527.

15. D. Yin, T. Meng, and K.-W. Chang, “SentiBERT: A Transferable Transformer-Based Architecture for Compositional Sentiment Semantics”, in Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 2020, pp. 3695-3706.

16. N. V. Loukachevitch and A. V. Levchick, “Creating a General Russian Sentiment Lexicon”, in Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16), 2016, pp. 1171-1176.


Рецензия

Для цитирования:


Полетаев А.Ю., Парамонов И.В. Рекурсивный алгоритм определения тональности предложений на русском языке. Моделирование и анализ информационных систем. 2022;29(2):134-147. https://doi.org/10.18255/1818-1015-2022-2-134-147

For citation:


Poletaev A.Y., Paramonov I.V. Recursive Sentiment Detection Algorithm for Russian Sentences. Modeling and Analysis of Information Systems. 2022;29(2):134-147. (In Russ.) https://doi.org/10.18255/1818-1015-2022-2-134-147

Просмотров: 426


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-1015 (Print)
ISSN 2313-5417 (Online)