Preview

Моделирование и анализ информационных систем

Расширенный поиск

Единая модель для геоклассификации веб-сайтов

https://doi.org/10.18255/1818-1015-2013-2-80-91

Аннотация

Работа представляет новый подход к задаче определения регионального фокуса веб-сайтов (геоклассификации). В отличие от традиционных подходов к многозначной классификации, когда для каждого класса (региона) обучается по отдельной классификационной модели, предлагаемый подход основан на обучении всего одной модели, которая используется для всех регионов одного типа (например, для городов). Такой подход становится возможным благодаря использованию "относительных" факторов, которые показывают, как некоторый выбранный регион соотносится с другими регионами для заданного веб-сайта. Классификатор задействует большой набор разнородных факторов, которые до этого момента не использовались вместе для геоклассификации веб-сайтов с применением машинного обучения. Оценка качества демонстрирует преимущество нашего подхода "по одной модели на тип региона" перед традиционным подходом "по одной модели на регион". Отдельный эксперимент демонстрирует способность описываемого классификатора успешно детектировать регионы, которые отсутствовали в обучающей выборке (что невозможно при использовании традиционных подходов).

Об авторе

Алексей Николаевич Волков
ООО «Яндекс»; Московский Физико-Технический Институт
Россия

разработчик программного обеспечения,

119021, Россия, г. Москва, ул. Льва Толстого, д. 16;

аспирант



Список литературы

1. Amitay E., Har’El N., Sivan R., and A. Soffer. Web-a-where: geotagging web content. SIGIR. ACM, 2004. P. 273–280.

2. Cheng Z., Caverlee J., and Lee K. You are where you tweet: a content-based approach to geo-locating twitter users. CIKM, 2010. P. 759–768.

3. Crandall D. J., Backstrom L., Huttenlocher D., and Kleinberg J. Mapping the world’s photos. WWW. ACM, 2009. P. 761–770.

4. Ding J., Gravano L., and Shivakumar N. Computing geographical scopes of web resources. VLDB, 2000.

5. Gulin A. and Karpovich P. Greedy function optimization in learning to rank., 2009.

6. Liu T.-Y. Learning to rank for information retrieval // Foundations and Trends in Information Retrieval. 2009. 3.

7. Pyalling A., Maslov M., and Braslavski P. Automatic geotagging of russian web sites. WWW, 2006. P. 965–966.

8. Pyalling A., Maslov M., and Trifonov S. Automatic classification of websites. RCDL, 2008.

9. Qi X. and Davison B. D. Web page classification: Features and algorithms // ACM Comput. Surv. 2009. 41.

10. Serdyukov P., Murdock V., and van Zwol R. Placing flickr photos on a map. SIGIR, 2009. P. 484–491.

11. Zong W., Wu D., Sun A., Lim E.-P., and Goh D. H.-L. On assigning place names to geography related web pages. JCDL. ACM, 2005. P. 354–362.


Рецензия

Для цитирования:


Волков А.Н. Единая модель для геоклассификации веб-сайтов. Моделирование и анализ информационных систем. 2013;20(2):80-91. https://doi.org/10.18255/1818-1015-2013-2-80-91

For citation:


Volkov A.N. Unified Classification Model for Geotagging Websites. Modeling and Analysis of Information Systems. 2013;20(2):80-91. (In Russ.) https://doi.org/10.18255/1818-1015-2013-2-80-91

Просмотров: 758


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1818-1015 (Print)
ISSN 2313-5417 (Online)