Анализ использования различных типов связей между терминами тезауруса, сгенерированного с помощью гибридных методов, в задачах классификации текстов

Надежда Станиславовна Лагутина; Ксения Владимировна Лагутина; Иван Андреевич Щитов; Илья Вячеславович Парамонов

doi:10.18255/1818-1015-2017-6-772-787

Анализ использования различных типов связей между терминами тезауруса, сгенерированного с помощью гибридных методов, в задачах классификации текстов

Надежда Станиславовна Лагутина, Ксения Владимировна Лагутина, Иван Андреевич Щитов, Илья Вячеславович Парамонов

https://doi.org/10.18255/1818-1015-2017-6-772-787

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Цель данной статьи — проанализировать, насколько эффективно могут применяться различные типы тезаурусных связей в задачах классификации текстов. Основой исследования является автоматически сгенерированный тезаурус предметной области, содержащий три типа связей: синонимические, иерархические и ассоциативные. Для генерации тезауруса используется гибридный метод, основанный на нескольких лингвистических и статистических алгоритмах выделения семантических связей и позволяющий создать тезаурус с достаточно большим числом терминов и связей между ними. Авторы рассматривают две задачи: тематическая классификация текстов и классификация больших новостных статей по тональности. Для решения каждой из них авторами были использованы два подхода, каждый из которых дополняет стандартные алгоритмы процедурой, применяющей связи тезауруса для определения семантических особенностей текстов. Подход к тематической классификации включает в себя стандартный алгоритм BM25 вида «обучение без учителя» и процедуру, использующую синонимические и иерархические связи тезауруса предметной области. Подход к классификации по тональности состоит из двух шагов. На первом шаге создается тезаурус, тональные веса терминов которого считаются в зависимости от частоты встречаемости в обучаемой выборке или от веса соседей по тезаурусу. На втором шаге тезаурус применяется для вычисления признаков слов из текстов и классификации текстов методом опорных векторов или наивным байесовским классификатором. В экспериментах с корпусами BBCSport, Reuters, PubMed и корпусом статей об американских иммигрантах авторы варьировали типы связей, которые участвуют в классификации, и степень их использования. Результаты экспериментов позволяют оценить эффективность применения тезаурусных связей для классификации текстов на естественном языке и определить, при каких условиях те или иные связи имеют большую значимость. В частности, наиболее полезными тезаурусными связями оказались синонимические и иерархические, так как они обеспечивает лучшее качество классификации.

Ключевые слова

тезаурус, семантические отношения, тезаурусные связи, тематическая классификация, классификация по тональности

Об авторах

Надежда Станиславовна Лагутина

Ярославский государственный университет им. П.Г. Демидова
Россия
канд. физ.-мат. наук, доцент

Ксения Владимировна Лагутина

Ярославский государственный университет им. П.Г. Демидова
Россия
студент

Иван Андреевич Щитов

Ярославский государственный университет им. П.Г. Демидова
Россия
аспирант

Илья Вячеславович Парамонов

Ярославский государственный университет им. П.Г. Демидова
Россия
канд. физ.-мат. наук, доцент

Список литературы

1. Masterman M., “Semantic message detection for machine translation, using an interlingua”, Proc. 1961 International Conf. on Machine Translation, 1961, 438–475.

2. Loukachevitch N., Dobrov B., “The Sociopolitical Thesaurus as a resource for automatic document processing in Russian”, Terminology, 21:2 (2015), 237–262.

3. Aitchison J., Clarke S.D., “The thesaurus: a historical viewpoint, with a look to the future”, Cataloging and classification quarterly, 37:3–4 (2004), 5–21.

4. Лукашевич Н. В., Тезаурусы в задачах информационного поиска, Издательство МГУ, М., 2011, 512 с.

5. Willis C., Losee R., “A random walk on an ontology: Using thesaurus structure for automatic subject indexing”, Journal of the American Society for Information Science and Technology, 64:7 (2013), 1330–1344.

6. V´allez M., Pedraza-Jim´enez R., Codina L., Blanco S., Rovira C, “A semi-automatic indexing system based on embedded information in HTML documents”, Library Hi Tech, 33:2 (2015), 195–210.

7. Loukachevitch N., Nokel M., Ivanov K., Combining Thesaurus Knowledge and Probabilistic Topic Models, 2017, https://arxiv.org/abs/1707.09816.

8. Sanchez-Pi N., Mart´ı L. Garcia A. C. B., “Improving ontology-based text classification: An occupational health and security application”, Journal of Applied Logic, 17 (2016), 48–58.

9. Bollegala D., Weir D., Carroll J., “Cross-domain sentiment classification using a sentiment sensitive thesaurus”, IEEE transactions on knowledge and data engineering, 25:8 (2013), 1719–1731.

10. Sparck Jones K., Walker S., Robertson S.E., “A probabilistic model of information retrieval: development and comparative experiments: Part 2”, Information Processing and Management, 36:6 (2000), 809–840.

11. Лагутина Н. С., Лагутина К. В., Мамедов Э. И., Парамонов И. В., “Методические аспекты выделения семантических отношений для автоматической генерации специализированных тезаурусов и их оценки”, Моделирование и анализ информационных систем, 23:6 (2016), 826–840

12. Mihalcea R., Tarau P., “TextRank: Bringing order into texts”, Proceedings of Empirical Methods in Natural Language Processing – EMNLP, ACL, Barcelona, Spain, 2004, 404– 411.

13. Trieschnigg D., Pezik P., Lee V., De Jong F., Kraaij W., Rebholz-Schuhmann D., “MeSH Up: effective MeSH text classification for improved document retrieval”, Bioinformatics, 25:11 (2009), 1412–1418.

14. Aggarwal C., Zhai C., “A survey of text classification algorithms”, Mining text data, Springer-Verlag, New York, 2012, 163–222.

15. Grimmer J., Stewart B., “Text as data: The promise and pitfalls of automatic content analysis methods for political texts”, Political analysis, 21:3 (2013), 267–297.

16. Ravi K., Ravi V., “A survey on opinion mining and sentiment analysis: tasks, approaches and applications”, Knowledge-Based Systems, 89 (2015), 14–46.

17. Junker M., Hoch R., Dengel A., “On the evaluation of document analysis components by recall, precision, and accuracy”, Proceedings of the Fifth International Conference on Document Analysis and Recognition, IEEE, 1999, 713–716.

Рецензия

Для цитирования:

Лагутина Н.С., Лагутина К.В., Щитов И.А., Парамонов И.В. Анализ использования различных типов связей между терминами тезауруса, сгенерированного с помощью гибридных методов, в задачах классификации текстов. Моделирование и анализ информационных систем. 2017;24(6):772-787. https://doi.org/10.18255/1818-1015-2017-6-772-787

For citation:

Lagutina N.S., Lagutina K.V., Shchitov I.A., Paramonov I.V. Analysis of Influence of Different Relations Types on the Quality of Thesaurus Application to Text Classification Problems. Modeling and Analysis of Information Systems. 2017;24(6):772-787. (In Russ.) https://doi.org/10.18255/1818-1015-2017-6-772-787

JATS XML

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 1818-1015 (Print)
ISSN 2313-5417 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Моделирование и анализ информационных систем

Анализ использования различных типов связей между терминами тезауруса, сгенерированного с помощью гибридных методов, в задачах классификации текстов

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов