Современные методы детектирования и классификации токсичных комментариев с использованием нейронных сетей

Сeргей Владимирович Моржов

doi:10.18255/1818-1015-2020-1-48-61

Современные методы детектирования и классификации токсичных комментариев с использованием нейронных сетей

Сeргей Владимирович Моржов

https://doi.org/10.18255/1818-1015-2020-1-48-61

Полный текст:

PDF (Rus)

сгенерировать QR код

Аннотация

Рост популярности онлайн-платформ, позволяющих пользователям общаться друг с другом, делиться мнениями о различных событиях, оставлять комментарии, подтолкнул к развитию алгоритмов обработки естественного языка. Десятки миллионов сообщений в день, которые публикуют пользователи отдельно взятой социальной сети, необходимо анализировать в режиме реального времени или близко к тому с целью модерации, чтобы не допустить распространение различной противозаконной или оскорбительной информации, угроз и других видов токсичных комментариев. Разумеется такой большой объем информации может быть обработан достаточно быстро только автоматически. Возникает необходимость научить компьютер «понимать» текст, написанный человеком, что является нетривиальной задачей, пусть даже под «пониманием» текста подразумевается лишь его классификация. Бурное развитие технологий машинного обучения обусловило повсеместное внедрение новых алгоритмов. Многие задачи, в том числе и задачи обработки естественного языка, которые долгие годы считалось практически невозможно решить, сейчас вполне успешно решаются с использованием технологий глубокого обучения. В данной статье будут рассмотрены алгоритмы, построенные с использованием технологий глубокого обучения и нейронных сетей, позволяющие успешно решать задачу распознавания и классификации токсичных комментариев. Помимо этого, в статье будут приведены результаты тестирования как разработанных алгоритмов, так и ансамбля данных алгоритмов на большой обучающей выборке, собранной и размеченной специалистами компаний Google и Jigsaw.

Ключевые слова

токчисность, обработка естественного языка, NLP, глубокое обучение, векторное представление слов, GloVe, FastText, реккурентные нейронные сети, сверточные нейронные сети, CNN, LSTM, GRU

MSC2020: 68T50

Об авторе

Сeргей Владимирович Моржов

Ярославский государственный университет им. П. Г. Демидова
Россия

аспирант

Список литературы

1. Toxic Comment Classification Challenge. [Online]. Available: https://www.kaggle.com/c/jigsaw-toxiccomment-classification-challenge/overview.

2. S. V. Georgakopoulos, S. K. Tasoulis, A. G. Vrahatis, and V. P. Plagianakos, “Convolutional neural networks for toxic comment classification”, in Proceedings of the 10th Hellenic Conference on Artificial Intelligence, 2018, pp. 1–6. arXiv: https://arxiv.org/pdf/1802.09957.pdf.

3. M. Kohli, E. Kuehler, and J. Palowitch, Paying attention to toxic comments online. [Online]. Available: https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1184/reports/6856482.pdf.

4. T. Chu, J. K., and M. Wang, Comment Abuse Classification with Deep Learning. [Online]. Available: https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1174/reports/2762092.pdf.

5. K. Khieu and N. N., Detecting and Classifying Toxic Comments. [Online]. Available: https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1184/reports/6837517.pdf.

6. S. Hochreiter and J. Schmidhuber, “Long short-term memory”, Neural computation, vol. 9, no. 8, pp. 1735–1780, 1997.

7. K. Cho, B. Van Merrienboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk, and Y. Bengio, ¨“Learning phrase representations using RNN encoder-decoder for statistical machine translation”, arXiv preprint arXiv:1406.1078, 2014.

8. J. Pennington, R. Socher, and C. Manning, “Glove: Global vectors for word representation”, in Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), 2014, pp. 1532–1543.

9. A. Joulin, E. Grave, P. Bojanowski, and T. Mikolov, “Bag of tricks for efficient text classification”, Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics, vol. 2, pp. 427–431, 2017.

10. J. Chung, C. Gulcehre, K. Cho, and Y. Bengio, “Empirical evaluation of gated recurrent neural networks on sequence modeling”, arXiv preprint arXiv:1412.3555, 2014.

11. D. Bahdanau, K. Cho, and Y. Bengio, “Neural machine translation by jointly learning to align and translate”, arXiv preprint arXiv:1409.0473, 2014.

12. Z. Yang, D. Yang, C. Dyer, X. He, A. Smola, and E. Hovy, “Hierarchical attention networks for document classification”, in Proceedings of NAACL-HLT, 2016, pp. 1480–1489. [Online]. Available: hps://www.cs.cmu.edu/%5C%20./hovy/papers/16HLT-hierarchical-attention-networks.pdf.

13. M. Hughes, I. Li, S. Kotoulas, and T. Suzumura, “Medical text classification using convolutional neural networks”, Stud Health Technol Inform, vol. 235, pp. 246–50, 2017.

14. K. Kowsari, K. Jafari Meimandi, M. Heidarysafa, S. Mendu, L. Barnes, and D. Brown, “Text classification algorithms: A survey”, Information, vol. 10, no. 4, p. 150, 2019.

Рецензия

Для цитирования:

Моржов С.В. Современные методы детектирования и классификации токсичных комментариев с использованием нейронных сетей. Моделирование и анализ информационных систем. 2020;27(1):48-61. https://doi.org/10.18255/1818-1015-2020-1-48-61

For citation:

Morzhov S.V. Modern Approaches to Detect and Classify Comment Toxicity Using Neural Networks. Modeling and Analysis of Information Systems. 2020;27(1):48-61. (In Russ.) https://doi.org/10.18255/1818-1015-2020-1-48-61

Контент доступен под лицензией Creative Commons Attribution 4.0 License.

ISSN 1818-1015 (Print)
ISSN 2313-5417 (Online)

Логин
Пароль
	Запомнить меня
Регистрация нового пользователя Забыли Ваш пароль?

Войти

Моделирование и анализ информационных систем

Современные методы детектирования и классификации токсичных комментариев с использованием нейронных сетей

Полный текст:

Аннотация

Ключевые слова

Об авторе

Список литературы

Рецензия

Для цитирования:

For citation:

Использование куки-файлов