Анализ использования различных типов связей между терминами тезауруса, сгенерированного с помощью гибридных методов, в задачах классификации текстов
https://doi.org/10.18255/1818-1015-2017-6-772-787
Аннотация
Цель данной статьи — проанализировать, насколько эффективно могут применяться различные типы тезаурусных связей в задачах классификации текстов. Основой исследования является автоматически сгенерированный тезаурус предметной области, содержащий три типа связей: синонимические, иерархические и ассоциативные. Для генерации тезауруса используется гибридный метод, основанный на нескольких лингвистических и статистических алгоритмах выделения семантических связей и позволяющий создать тезаурус с достаточно большим числом терминов и связей между ними. Авторы рассматривают две задачи: тематическая классификация текстов и классификация больших новостных статей по тональности. Для решения каждой из них авторами были использованы два подхода, каждый из которых дополняет стандартные алгоритмы процедурой, применяющей связи тезауруса для определения семантических особенностей текстов. Подход к тематической классификации включает в себя стандартный алгоритм BM25 вида «обучение без учителя» и процедуру, использующую синонимические и иерархические связи тезауруса предметной области. Подход к классификации по тональности состоит из двух шагов. На первом шаге создается тезаурус, тональные веса терминов которого считаются в зависимости от частоты встречаемости в обучаемой выборке или от веса соседей по тезаурусу. На втором шаге тезаурус применяется для вычисления признаков слов из текстов и классификации текстов методом опорных векторов или наивным байесовским классификатором. В экспериментах с корпусами BBCSport, Reuters, PubMed и корпусом статей об американских иммигрантах авторы варьировали типы связей, которые участвуют в классификации, и степень их использования. Результаты экспериментов позволяют оценить эффективность применения тезаурусных связей для классификации текстов на естественном языке и определить, при каких условиях те или иные связи имеют большую значимость. В частности, наиболее полезными тезаурусными связями оказались синонимические и иерархические, так как они обеспечивает лучшее качество классификации.
Об авторах
Надежда Станиславовна ЛагутинаРоссия
канд. физ.-мат. наук, доцент
Ксения Владимировна Лагутина
Россия
студент
Иван Андреевич Щитов
Россия
аспирант
Илья Вячеславович Парамонов
Россия
канд. физ.-мат. наук, доцент
Список литературы
1. Masterman M., “Semantic message detection for machine translation, using an interlingua”, Proc. 1961 International Conf. on Machine Translation, 1961, 438–475.
2. Loukachevitch N., Dobrov B., “The Sociopolitical Thesaurus as a resource for automatic document processing in Russian”, Terminology, 21:2 (2015), 237–262.
3. Aitchison J., Clarke S.D., “The thesaurus: a historical viewpoint, with a look to the future”, Cataloging and classification quarterly, 37:3–4 (2004), 5–21.
4. Лукашевич Н. В., Тезаурусы в задачах информационного поиска, Издательство МГУ, М., 2011, 512 с.
5. Willis C., Losee R., “A random walk on an ontology: Using thesaurus structure for automatic subject indexing”, Journal of the American Society for Information Science and Technology, 64:7 (2013), 1330–1344.
6. V´allez M., Pedraza-Jim´enez R., Codina L., Blanco S., Rovira C, “A semi-automatic indexing system based on embedded information in HTML documents”, Library Hi Tech, 33:2 (2015), 195–210.
7. Loukachevitch N., Nokel M., Ivanov K., Combining Thesaurus Knowledge and Probabilistic Topic Models, 2017, https://arxiv.org/abs/1707.09816.
8. Sanchez-Pi N., Mart´ı L. Garcia A. C. B., “Improving ontology-based text classification: An occupational health and security application”, Journal of Applied Logic, 17 (2016), 48–58.
9. Bollegala D., Weir D., Carroll J., “Cross-domain sentiment classification using a sentiment sensitive thesaurus”, IEEE transactions on knowledge and data engineering, 25:8 (2013), 1719–1731.
10. Sparck Jones K., Walker S., Robertson S.E., “A probabilistic model of information retrieval: development and comparative experiments: Part 2”, Information Processing and Management, 36:6 (2000), 809–840.
11. Лагутина Н. С., Лагутина К. В., Мамедов Э. И., Парамонов И. В., “Методические аспекты выделения семантических отношений для автоматической генерации специализированных тезаурусов и их оценки”, Моделирование и анализ информационных систем, 23:6 (2016), 826–840
12. Mihalcea R., Tarau P., “TextRank: Bringing order into texts”, Proceedings of Empirical Methods in Natural Language Processing – EMNLP, ACL, Barcelona, Spain, 2004, 404– 411.
13. Trieschnigg D., Pezik P., Lee V., De Jong F., Kraaij W., Rebholz-Schuhmann D., “MeSH Up: effective MeSH text classification for improved document retrieval”, Bioinformatics, 25:11 (2009), 1412–1418.
14. Aggarwal C., Zhai C., “A survey of text classification algorithms”, Mining text data, Springer-Verlag, New York, 2012, 163–222.
15. Grimmer J., Stewart B., “Text as data: The promise and pitfalls of automatic content analysis methods for political texts”, Political analysis, 21:3 (2013), 267–297.
16. Ravi K., Ravi V., “A survey on opinion mining and sentiment analysis: tasks, approaches and applications”, Knowledge-Based Systems, 89 (2015), 14–46.
17. Junker M., Hoch R., Dengel A., “On the evaluation of document analysis components by recall, precision, and accuracy”, Proceedings of the Fifth International Conference on Document Analysis and Recognition, IEEE, 1999, 713–716.
Рецензия
Для цитирования:
Лагутина Н.С., Лагутина К.В., Щитов И.А., Парамонов И.В. Анализ использования различных типов связей между терминами тезауруса, сгенерированного с помощью гибридных методов, в задачах классификации текстов. Моделирование и анализ информационных систем. 2017;24(6):772-787. https://doi.org/10.18255/1818-1015-2017-6-772-787
For citation:
Lagutina N.S., Lagutina K.V., Shchitov I.A., Paramonov I.V. Analysis of Influence of Different Relations Types on the Quality of Thesaurus Application to Text Classification Problems. Modeling and Analysis of Information Systems. 2017;24(6):772-787. (In Russ.) https://doi.org/10.18255/1818-1015-2017-6-772-787