Метод аугментации текстов с помощью парафразных векторных представлений на примере азербайджанского языка
Представлен новый метод аугментации данных — парафразные концептуальные векторные представления, — предназначенный для решения проблемы нехватки размеченных данных в азербайджанской обработке естественного языка. Метод генерирует качественные парафразные предложения, кодируя семантические концепты в непрерывное векторное пространство и декодируя их в разнообразные текстовые формы. Это первый подход, использующий концептуальное парафразирование для азербайджанского языка, обеспечивая заметные улучшения в прикладных задачах. Предложены теоретические основы метода, его математическая модель и интеграция в конвейеры обработки данных. В экспериментах по классификации текста метод превосходит стандартные техники аугментации по точности и устойчивости. Метод не требует внешних лексических ресурсов, что делает его особенно полезным для малоресурсных языков. Метод масштабируется для различных типов задач, включая анализ тональности, извлечение сущностей и генерацию текста. Делается вывод, что предложенный подход существенно продвигает уровень обработки естественного азербайджанского языка и имеет потенциал расширения на другие малоресурсные языки.