Применение алгоритмов машинного обучения и нейронных сетей для анализа влияния типа данных при выявлении ненавистнических высказываний

Интеллектуальные системы и технологии, искусственный интеллект
Авторы:
Аннотация:

В настоящее время общение достигло беспрецедентного уровня активности благодаря онлайн-социальным платформам, которые преодолели географические и языковые барьеры. Однако этот переход сопровождается распространением ненавистнических высказываний, которые негативно влияют на социальную среду этих платформ. В области обработки естественного языка ведутся исследования по разработке моделей для выявления и классификации ненавистнических высказываний, направленные на улучшение безопасности и качества онлайн-среды. Однако многие из этих исследований основаны на наборах данных, которые часто используются и оказываются несбалансированными и недостаточно адаптированными к новым грамматическим особенностям ненавистнических высказываний. В этой статье представлено сравнительное исследование эффективности алгоритмов машинного и глубокого обучения в выявлении ненавистнических высказываний на основе синтетического набора данных. Три отдельных эксперимента были проведены с использованием оригинальных и искусственно искаженных данных. Результаты показывают, что использование синтетического набора данных позволяет лучше представить крайне негативные или нечасто встречающиеся сценарии коммуникации, что способствует их более эффективному выявлению. Алгоритмы глубокого обучения продемонстрировали превосходную производительность во всех экспериментах. Лучшие модели в первом и втором экспериментах, основанные на «обучении без примеров», показали точность 52,04% и 62,13% соответственно. Последний эксперимент показал, что архитектура BiGRU + fastText превзошла другие модели, достигнув точности 72,68%.