Классификация статей из средств массовой информации по категориям и релевантности предметной области

Владислав Дмитриевич Ларионов; Илья Вячеславович Парамонов

doi:10.18255/1818-1015-2022-3-266-279

Классификация статей из средств массовой информации по категориям и релевантности предметной области

Владислав Дмитриевич Ларионов, Илья Вячеславович Парамонов

https://doi.org/10.18255/1818-1015-2022-3-266-279

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Исследование посвященно классификации новостных статей о Ярославском государственном университете им. П. Г. Демидова (ЯрГУ) на 4 категории: общество, образование, наука и технологии, нерелевантная.Предложенные подходы основаны на нейронной сети BERT и методах машинного обучения SVM, Logistic Regression, K-Neighbors, Random Forest в сочетании с эмбеддингами различных видов: Word2Vec, FastText, TF-IDF, GPT-3. Также предложены способы предобработки текстов для достижения более высокого качества классификации. В ходе экспериментов установлено, что лучше всего с задачей справляется SVM-классификатор с эмбеддингом TF-IDF, обученный на полных текстах статей с заголовками. Его значения микро- и макро-F-меры достигают 0.8214 и 0.8308 соответственно. Сопоставимые результаты показывает нейронная сеть BERT, обученная на фрагментах абзацев с упоминанием ЯрГУ, из которых брались 128 слов из начала и 384 слова из конца. Её показатели микро- и макро-F-меры достигают 0.8304 и 0.8181 соответственно. Таким образом, установлено, что абзацев с упоминанием конкретной организации оказывается достаточно, чтобы классификация по категориям была эффективной.

Ключевые слова

классификация по категориям, автоматическая обработка текстов, предметная область, русский язык, новостные статьи

Об авторах

Владислав Дмитриевич Ларионов

Ярославский государственный университет им. П. Г. Демидова
Россия

Илья Вячеславович Парамонов

Ярославский государственный университет им. П. Г. Демидова
Россия

Список литературы

1. A. Hussain, G. Ali, F. Akhtar, Z. H. Khand, and A. Ali, “Design and analysis of news category predictor”, Engineering, Technology & Applied Science Research, vol. 10, no. 5, pp. 6380-6385, 2020.

2. G. Kaur and K. Bajaj, “News classification using neural networks”, Communications on applied electronics, vol. 5, no. 1, pp. 42-45, 2016.

3. P. Semberecki and H. Maciejewski, “Deep learning methods for subject text classification of articles”, in 2017 Federated Conference on Computer Science and Information Systems (FedCSIS), IEEE, 2017, pp. 357-360.

4. X. Luo, “Efficient English text classification using selected machine learning techniques”, Alexandria Engineering Journal, vol. 60, no. 3, pp. 3401-3409, 2021.

5. S. Vychegzhanin, E. Kotelnikov, and V. Milov, “Comparative analysis of machine learning methods for news categorization in Russian”, in CEUR Workshop Proceedings, vol. 2922, 2021, pp. 100-108.

6. N. A. Gordienko, “Klassifikaciya novostej s primeneniem metodov mashinnogo obucheniya i obrabotki estestvennogo yazyka”, in Innovacionnye resheniya social’nyh, ekonomicheskih i tekhnologicheskih problem sovremennogo obshchestva, in Russian, 2021, pp. 63-65.

7. E. N. Karuna and P. V. Sokolov, “Comparison of methods for automatic classification of Russian-language texts”, in Journal of Physics: Conference Series, vol. 1864, 2021, p. 012 117.

8. J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, BERT: Pre-training of deep bidirectional transformers for language understanding, 2018. arXiv: 1810.04805 [cs.CL].

9. F. Pedregosa, G. Varoquaux, A. Gramfort, et al., “Scikit-learn: Machine learning in Python”, the Journal of machine Learning research, vol. 12, pp. 2825-2830, 2011.

10. T. Mikolov, K. Chen, G. Corrado, and J. Dean, Efficient estimation of word representations in vector space, 2013. arXiv: 1301.3781v3 [cs.CL].

11. R. Rˇ ehu˚rˇek and P. Sojka, “Software framework for topic modelling with large corpora”, in Proceedings of the LREC 2010 Workshop on New Challenges for NLP Frameworks, 2010, pp. 45-50.

12. A. Joulin, E. Grave, P. Bojanowski, M. Douze, H. Je´gou, and T. Mikolov, Fasttext.zip: Compressing text classification models, 2016. arXiv: 1612.03651 [cs.CL].

13. K. S. Jones, “A statistical interpretation of term specificity and its application in retrieval”, Journal of documentation, vol. 28, no. 1, pp. 11-22, 1972.

14. T. Brown, B. Mann, N. Ryder, et al., “Language models are few-shot learners”, Advances in neural information processing systems, vol. 33, pp. 1877-1901, 2020.

15. T. Wolf, L. Debut, V. Sanh, et al., “Transformers: State-of-the-art natural language processing”, in Proceedings of the 2020 conference on empirical methods in natural language processing: system demonstrations, 2020, pp. 38-45.

16. M. Sokolova and G. Lapalme, “A systematic analysis of performance measures for classification tasks”, Information Processing & Management, vol. 45, pp. 427-437, 2009.

Рецензия

Для цитирования:

Ларионов В.Д., Парамонов И.В. Классификация статей из средств массовой информации по категориям и релевантности предметной области. Моделирование и анализ информационных систем. 2022;29(3):266-279. https://doi.org/10.18255/1818-1015-2022-3-266-279

For citation:

Larionov V.D., Paramonov I.V. Classification of Articles from Mass Media by Categories and Relevance of the Subject Area. Modeling and Analysis of Information Systems. 2022;29(3):266-279. (In Russ.) https://doi.org/10.18255/1818-1015-2022-3-266-279

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 1818-1015 (Print)
ISSN 2313-5417 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Моделирование и анализ информационных систем

Классификация статей из средств массовой информации по категориям и релевантности предметной области

Полный текст:

Аннотация

Ключевые слова

Об авторах

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов