Русскоязычные тезаурусы: автоматизированное построение и применение в задачах обработки текстов на естественном языке


https://doi.org/10.18255/1818-1015-2018-4-435-458

Полный текст:


Аннотация

В работе выполнен обзор существующих электронных русскоязычных тезаурусов и методов их автоматического построения и применения. Авторы провели анализ основных характеристик тезаурусов, находящихся в открытом доступе, для научных исследований, оценили динамику их развития и эффективность в решении задач по обработке естественного языка. Были исследованы статистические и лингвистические методы построения тезаурусов, которые позволяют автоматизировать разработку и уменьшить затраты на труд экспертов-лингвистов. В частности, рассматривались алгоритмы выделения ключевых терминов из текстов и семантических тезаурусных связей всех типов, а также качество применения получившихся в результате их работы тезаурусов. Для наглядной иллюстрации особенностей различных методов построения тезаурусных связей был разработан комбинированный метод, генерирующий специализированный тезаурус полностью автоматически на основе корпуса текстов предметной области и нескольких существующих лингвистических ресурсов. С использованием предложенного метода были проведены эксперименты с русскоязычными корпусами текстов из двух предметных областей: статьи о мигрантах и твиты. Для анализа полученных тезаурусов использовалась комплексная оценка, разработанная авторами в предыдущем исследовании, которая позволяет определить различные аспекты тезауруса и качество методов его генерации. Проведённый анализ выявил основные достоинства и недостатки различных подходов к построению тезаурусов и выделению семантических связей различных типов, а также позволил определить потенциальные направления будущих исследований.

 


Об авторах

Надежда Станиславовна Лагутина
Ярославский государственный университет им. П.Г. Демидова
Россия
канд. физ.-мат. наук, доцент


Ксения Владимировна Лагутина
Ярославский государственный университет им. П.Г. Демидова
Россия
студентка


Алексей Сергеевич Адрианов
Ярославский государственный университет им. П.Г. Демидова
Россия
студент


Илья Вячеславович Парамонов
Ярославский государственный университет им. П.Г. Демидова
Россия
канд. физ.-мат. наук, доцент


Список литературы

1. Aitchison J., Gilchrist A. and Bawden D., Thesaurus construction and use: a practical manual, Psychology Press, 2000, 230 pp.

2. Сидорова Е. А., “Подход к моделированию процесса извлечения информации из текста на основе онтологии”, Онтология проектирования, 8:1(27) (2018), 134– 151

3. Еленевская М. Н., Овчинникова И. Г., “Хранение и описание вербальных ассоциаций: словари и тезаурусы”, Вопросы психолингвистики, 2016, № 29, 69–92

4. Paramonov I. et al., “Thesaurus-Based Method of Increasing Text-via-Keyphrase Graph Connectivity During Keyphrase Extraction for e-Tourism Applications”, Communications in Computer and Information Science, 649, Springer, 2016, 129–141.

5. Shchitov I., Lagutina K., Lagutina N., Paramonov I., “Sentiment classification of long newspaper articles based on automatically generated thesaurus with various semantic relationships”, Proceedings of the 21st Conference of Open Innovations Association FRUCT, University of Helsinki, Helsinki, Finland, 2017, 290–295.

6. Бленда Н. А., “Обзор русскоязычных тезаурусов для решения задачи расчета семантической близости между научными публикациями”, Информационные технологии и системы, Труды Четвертой Международной научной конференции, 2015, 70–74;

7. Поршнев С. В., “О качестве открытых электронных тезаурусов русского языка”, Сборник материалов Всероссийской молодежной школы-семинара «Актуальные проблемы информационных технологий, электроники и радиотехники – 2015» (ИТЭР –2015), 2 (2015), 45–48;

8. Loukachevitch N., Dobrov B., “RuThes linguistic ontology vs. Russian wordnets”, Proceedings of the Seventh Global WordNet Conference, 2014, 154–162.

9. Loukachevitch N., Dobrov B., Chetviorkin I., “RuThes-Lite, a publicly available version of Thesaurus of Russian language RuThes”, Computational Linguistics and Intellectual Technologies: papers from the Annual conference ”Dialogue”, 2014, № 13(20), 340–349.

10. Loukachevitch N. V., Lashevich G., Gerasimova A. A., Ivanov V. V., Dobrov B. V., “Creating Russian WordNet by conversion”, Computational Linguistics and Intellectual Technologies: papers from the Annual conference ”Dialogue”, 2016, № 15(22), 405–415.

11. Braslavski P., Ustalov D., Mukhin M., Kiselev Y., “YARN: Spinning-in-Progress”, Proceedings of the Eight Global Wordnet Conference, 2016, 58–65.

12. Сухоногов А. М., Яблонский С. А., “Автоматизация построения англо-русского WordNet”, Компьютерная лингвистика и интеллектуальные технологии, Труды Международного семинара "Диалог", 2005, 25–31;

13. Azarowa I., “RussNet as a computer lexicon for Russian”, Proceedings of the Intelligent Information systems IIS-2008, 2008, 341–350.

14. Азарова И. В., Захаров В. П., Киселев Ю., Усталов Д. А., Хохлова М. В., “Интеграция тезаурусов RussNet и YARN”, Компьютерная лингвистика и вычислительные онтологии, Труды XIX Международной объединённой научной конференции «Интернет и современное общество» (IMS-2016), Санкт-Петербург, 22–24 июня 2016 г., Университет ИТМО, СПб, 2016, 7–13;

15. Сладкова О., Пирумова Л., Пирумов А., “Информационные ресурсы Интернет для специалистов сельского хозяйства”, Международный сельскохозяйственный журнал, 2016, № 2, 44–48;

16. Галиева А. М., Якубова Д. Д., “Принципы представления лексики в общественнополитическом тезаурусе татарского языка”, Филологические науки. Вопросы теории и практики, 2016, № 12-2 (66), 80–84;

17. Галиева А. М., Кириллович А. В., Лукашевич Н. В., Невзорова О. А., Сулейманов Д.Ш., Якубова Д. Д., “Русско-татарский общественно-политический тезаурус: публикация в облаке лингвистических открытых связанных данных”, International Journal of Open Information Technologies, 5:11 (2017), 64–73;

18. Агеев М. С., Добров Б. В., Лукашевич Н. В., “Автоматическая рубрикация текстов: методы и проблемы”, Учён. зап. Казан. гос. ун-та. Сер. Физ.-матем. науки, 150:4 (2008), 25–40;

19. Лукашевич Н. В., Добров Б. В., Павлов А. М., Штернов С. В., “Онтологические ресурсы и информационно-аналитическая система в предметной области «Безопасность»”, Онтология проектирования, 8:1 (27) (2018), 74–95;

20. Мишунин О. Б., Савинов А. П., Фирстов Д. И., “Проблемы, возникающие в интеллектуальных обучающих системах при оценке ответов на естественном языке”, Современные проблемы науки и образования, 2015, № 2–2, 189–199;

21. Алексеев А. А., “Тематический анализ новостного кластера как основа тематического аннотирования”, Программная инженерия, 2014, № 3, 41–48;

22. Усталов Д. А., “Обнаружение понятий в графе синонимов”, Вычислительные технологии, 22:S1 (2017), 99–112;

23. Kolchin M., Chistyakov A., Lapaev M., Khaydarova R., “FOODpedia: Russian food products as a linked data dataset”, International Semantic Web Conference, 2015, 87– 09.

24. Hasan K., Vincent N., “Automatic keyphrase extraction: A survey of the state of the art”, Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 2014, 1262–1273.

25. Добров Б. В., Лукашевич Н. В., “Лингвистическая онтология по естественным наукам и технологиям для приложений в сфере информационного поиска”, Учен. зап. Казан. гос. ун-та. Сер. Физ.-матем. науки, 149:2 (2007), 49–72;

26. Лукашевич Н. В., Добров Б. В., Чуйко Д. С., “Отбор словосочетаний для словаря системы автоматической обработки текстов”, Компьютерная лингвистика и интеллектуальные технологии: Тр. Международной конференции "Диалог", 2008, № 7(14), 339–344;

27. Turney P. D., Pantel P., “From frequency to meaning: Vector space models of semantics”, Journal of artificial intelligence research, 37 (2010), 141–188.

28. Захаров В. П., “Корпусно-ориентированный подход к построению тезаурусов и онтологий”, Структурная и прикладная лингвистика, 2015, № 11, 123–141;

29. Котова Е. Е., Писарев И. А., “Построение тематических онтологий с применением метода автоматизированной разработки тезаурусов”, Известия СПбГЭТУ «ЛЭТИ», 2016, № 3, 37–47;

30. Аюшеева Н. Н., Кушеева Т. Н., “Способ вычисления весовых коэффициентов вершин семантической сети научного текста”, Фундаментальные исследования, 2012, № 6-3, 626–630;

31. Аюшеева Н. Н., Гомбожапова Т. Н., Доржаев Т. В., “Способ автоматического определения тематики научного текста”, Фундаментальные исследования, 2016, № 8-2, 229–233;

32. Chetviorkin I, Loukachevitch N., “Extraction of Russian sentiment lexicon for product meta-domain”, Proceedings of COLING 2012, 2012, 593–610. [33] Loukachevitch N., Levchik A., “Creating a General Russian Sentiment Lexicon”, Proceedings of Language Resources and Evaluation Conference, 2016, 1171–1176.

33. Ванюшкин А. С., Гращенко Л. А., “Оценка алгоритмов извлечения ключевых слов: инструментарий и ресурсы”, Новые информационные технологии в автоматизированных системах, 20 (2017), 95–102

34. Лукашевич Н. В., Логачев Ю. М., “Комбинирование признаков для автоматического извлечения терминов”, Вычислительные методы и программирование, 11:4 (2010), 108–116

35. Лагутина Н. С., Лагутина К. В., Мамедов Э. И., Парамонов И. В., “Методические аспекты выделения семантических отношений для автоматической генерации специализированных тезаурусов и их оценки”, Моделирование и анализ информационных систем, 23:6 (2016), 826–840

36. Лукашевич Н. В., “Квазисинонимы в лингвистических онтологиях”, Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции "Диалог", 2010, № 9(16), 307–312

37. Лукашевич Н. В., “Моделирование отношений ЧАСТЬ–ЦЕЛОЕ в лингвистическом ресурсе для информационно-поисковых приложений”, Информационные технологии, 2007, № 12, 28–34

38. Баранюк В. В., Богорадникова А. В., Смирнова О. С., “Определение семантического содержания предметной области на основе формирования тезауруса”, International Journal of Open Information Technologies, 4:9 (2016), 74–79

39. Нугуманова А. Б., Бессмертный И. А., Пецина П., Байбурин Е. М., “Обогащение модели Bag-of-Words семантическими связями для повышения качества классификации текстов предметной области”, Программные продукты и системы, 2016, № 2(114), 89– 99;

40. Panchenko A., Ustalov D., Arefyev N., Paperno D., Konstantinova N., Loukachevitch N., Biemann C., “Human and machine judgements for russian semantic relatedness”, Analysis of Images, Social Networks and Texts. 5th International Conference, AIST 2016, Springer, 2016, 221–235.

41. Rapp R., “The automatic generation of thesauri of related words for English, French, German, and Russian”, International Journal of Speech Technology, 11:3–4 (2008), 147– 156.

42. Галина И. В., Козеренко Е. Б., Морозова Ю. И., Сомин Н. В., Шарнин М. М., “Ассоциативные портреты предметной области—инструмент автоматизированного построения систем big data для извлечения знаний: теория, методика, визуализация, возможное применение”, Информатика и её применения, 9:2 (2015), 92–110

43. Kuznetsov I. P., Kozerenko E. B., Charnine M. M., “Technological peculiarity of knowledge extraction for logical-analytical systems”, Proceedings of ICAI, 12, 2012, 18–21.

44. Золотарев О. В., Шарнин М. М., “Методы извлечения знаний из текстов естественного языка и построение моделей бизнес-процессов на основе выделения процессов, объектов, их связей и характеристик”, Труды Международной научной конференции CPT2014, 2015, 92–98

45. Золотарев О. В., Шарнин М. М., Клименко С. В., “Семантический подход к анализу террористической активности в сети Интернет на основе методов тематического моделирования”, Вестник Российского нового университета. Серия: Сложные системы: модели, анализ и управление, 2016, № 3, 64–71

46. Лагутина Н. С., Лагутина К. В., Щитов И. А., Парамонов И. В., “Анализ использования различных типов связей между терминами тезауруса, сгенерированного с помощью гибридных методов, в задачах классификации текстов”, Моделирование и анализ информационных систем, 24:6 (2017), 772–787

47. Sabirova K., Lukanin A., “Automatic Extraction of Hypernyms and Hyponyms from Russian Texts”, Supplementary Proceedings of the 3rd International Conference on Analysis of Images, Social Networks and Texts (AIST’2014), 2014, 35–40.

48. Большакова Е. И., Иванов К. М., Сапин А. С., Шариков Г. Ф., “Система для извлечения информации из текстов на базе лексико-синтаксических шаблонов”, Пятнадцатая национальная конференция по искусственному интеллекту с международным участием, 2016, 14–22

49. Рабчевский Е. А., “Автоматическое построение онтологий на основе лексикосинтаксических шаблонов для информационного поиска”, Электронные библиотеки: перспективные методы и технологии, электронные коллекции, сб. науч. тр. 11-й Всероссийской научной конференции RCDL-2009, Петрозаводск, 2009, 69–77

50. Mihalcea R., Tarau P., “TextRank: Bringing order into texts”, Proceedings of Empirical Methods in Natural Language Processing – EMNLP, ACL, Barcelona, Spain, 2004, 404– 411.

51. Wiemer-Hastings P., Wiemer-Hastings K., Graesser A., “Latent semantic analysis”, Proceedings of the 16th international joint conference on Artificial intelligence, 2004, 1–14.

52. Noh S., Kim S., Jung C., “A Lightweight Program Similarity Detection Model using XML and Levenshtein Distance”, FECS, 2006, 3–9.

53. Lefever E., Van de Kauter M., Hoste V., “Evaluation of automatic hypernym extraction from technical corpora in English and Dutch”, 9th International Conference on Language Resources and Evaluation (LREC), 2014, 490–497.


Дополнительные файлы

Для цитирования: Лагутина Н.С., Лагутина К.В., Адрианов А.С., Парамонов И.В. Русскоязычные тезаурусы: автоматизированное построение и применение в задачах обработки текстов на естественном языке. Моделирование и анализ информационных систем. 2018;25(4):435-458. https://doi.org/10.18255/1818-1015-2018-4-435-458

For citation: Lagutina N.S., Lagutina K.V., Adrianov A.S., Paramonov I.V. RussianLanguage Thesauri: Automated Construction and Application For Natural Language Processing Tasks. Modeling and Analysis of Information Systems. 2018;25(4):435-458. (In Russ.) https://doi.org/10.18255/1818-1015-2018-4-435-458

Просмотров: 162

Обратные ссылки

  • Обратные ссылки не определены.


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-1015 (Print)
ISSN 2313-5417 (Online)