Методические аспекты выделения семантических отношений для автоматической генерации специализированных тезаурусов и их оценки


https://doi.org/10.18255/1818-1015-2016-6-826-840

Полный текст:


Аннотация

Работа посвящена анализу методов автоматической генерации специализированного тезауруса. Основной алгоритм генерации состоит из трех шагов: отбор и предварительная обработка корпуса текстов, формирование множества терминов для включения в тезаурус и выделение связей между терминами тезауруса. Данное исследование сфокусировано на изучении методов выделения семантических связей, для чего авторами был разработан программный стенд, который позволяет протестировать распространенные алгоритмы выделения гиперонимов и синонимов, использующие в своей работе лексико-синтаксические шаблоны, морфо-синтаксические правила, количество информации терминов, тезаурус общего назначения WordNet и расстояние Левенштейна. Для анализа результирующего тезауруса, созданного на стенде, авторами была разработана комплексная оценка, содержащая следующие характеристики качества: точность выделения терминов, точность и полнота выделения синонимических и гиперонимических связей, а также метрики графа тезауруса (количество выделенных терминов, количество семантических связей различных типов, число компонент связности и число вершин в наибольшей компоненте). Предлагаемый набор метрик позволяет оценить качество тезауруса в целом, выявить отдельные недостатки стандартных методов выделения связей и построить более эффективные гибридные методы, генерирующие тезаурус с лучшими характеристиками по сравнению с тезаурусами, генерируемыми при использовании отдельных методов. Для иллюстрации данного факта в статье рассмотрен один из таких гибридных методов. Он комбинирует лучшие стандартные алгоритмы построения гиперонимических и синонимических связей и строит специализированный тезаурус в области медицины с тем же уровнем качества, что и другие методы, но с большим количеством связей между терминами.


Об авторах

Н. С. Лагутина
Ярославский государственный университет им. П.Г. Демидова
Россия

канд. физ.-мат. наук, доцент, ул. Советская, 14, г. Ярославль, 150000 Россия 



К. В. Лагутина
Ярославский государственный университет им. П.Г. Демидова
Россия

студент, ул. Советская, 14, г. Ярославль, 150000 Россия



Э. И. Мамедов
Ярославский государственный университет им. П.Г. Демидова
Россия

стажёр-исследователь, ул. Советская, 14, г. Ярославль, 150000 Россия



И. В. Парамонов
Ярославский государственный университет им. П.Г. Демидова
Россия

канд. физ.-мат. наук, доцент, ул. Советская, 14, г. Ярославль, 150000 Россия



Список литературы

1. Aitchison J., Gilchrist A. and Bawden D., Thesaurus construction and use: a practical manual, Psychology Press, 2000, 230 pp.

2. Лукашевич Н.В., Добров Б.В., “Проектирование лингвистических онтологий для информационных систем в широких предметных областях”, Онтология проектирования, 5:1(15) (2015), 47–69.

3. Лукашевич Н.В., Тезаурусы в задачах информационного поиска, Издательство МГУ, M., 2011, 512 с.

4. Astrakhantsev N. A., Turdakov D. Yu., “Automatic construction and enrichment of informal ontologies: A survey”, Programming and computer software, 39:1 (2013), 34–42.

5. Hasan K. S., Ng V., “Automatic Keyphrase Extraction: A Survey of the State of the Art”, Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 2014, 1262–1273.

6. Paramonov I. et al., “Thesaurus-Based Method of Increasing Text-via-Keyphrase Graph Connectivity During Keyphrase Extraction for e-Tourism Applications”, International Conference on Knowledge Engineering and the Semantic Web, 2016, 129–141.

7. Yang D., Powers D.M˙ ., “Automatic thesaurus construction”, Proceedings of the thirty-first Australasian conference on Computer science, 74 (2008), 147–156.

8. Mihalcea R., Tarau P., “TextRank: Bringing order into texts”, Proceedings of EMNLP, 2004, 404–411.

9. Liu Z. et al., “Automatic keyphrase extraction via topic decomposition”, Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing, 2010, 366–376.

10. Wiemer-Hastings P., Wiemer-Hastings K., Graesser A., “Latent semantic analysis”, Proceedings of the 16th international joint conference on Artificial intelligence, 2004, 1–14.

11. Lefever E., Van de Kauter M., Hoste V., “Evaluation of automatic hypernym extraction from technical corpora in English and Dutch”, 9th International Conference on Language Resources and Evaluation (LREC), 2014, 490–497.

12. Oakes M. P., “Using Hearst’s Rules for the Automatic Acquisition of Hyponyms for Mining a Pharmaceutical Corpus”, RANLP Text Mining Workshop, 5 (2005), 63–67.

13. Noh S., Kim S., Jung C., “A Lightweight Program Similarity Detection Model using XML and Levenshtein Distance”, FECS, 2006, 3–9.

14. Мозжерина Е.С., “Автоматическое построение онтологии по коллекции текстовых документов”, Электронные библиотеки: Перспективные Методы и Технологии, Электронные коллекции–RCDL, 2011, 293–298.

15. Mittelu V. B., “Automatic Extraction of Patterns Displaying Hyponym-Hypernym Co-Occurrence from Corpora”, Proceedings of First Central European Student Conference in Linguistics, 2006, 21, 8 pp.


Дополнительные файлы

Для цитирования: Лагутина Н.С., Лагутина К.В., Мамедов Э.И., Парамонов И.В. Методические аспекты выделения семантических отношений для автоматической генерации специализированных тезаурусов и их оценки. Моделирование и анализ информационных систем. 2016;23(6):826-840. https://doi.org/10.18255/1818-1015-2016-6-826-840

For citation: Lagutina N.S., Lagutina K.V., Mamedov E.I., Paramonov I.V. Methodolo- gical Aspects of Semantic Relationship Extraction for Automatic Thesaurus Generation. Modeling and Analysis of Information Systems. 2016;23(6):826-840. (In Russ.) https://doi.org/10.18255/1818-1015-2016-6-826-840

Просмотров: 297

Обратные ссылки

  • Обратные ссылки не определены.


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-1015 (Print)
ISSN 2313-5417 (Online)