Динамическое отслеживание модулем информационно-поисковой системы изменений в структуре или тексте интернет-ресурса
Авторы:
Аннотация:
Предложен алгоритм отслеживания семантических изменений интернет-ресурсов на основе комбинированного подхода, путем последовательного анализа изменений иерархической структуры и текста документа. Оценка изменений в иерархической структуре вычисляется как редактирующее расстояние между ориентированными деревьями. Изменения в тексте оцениваются с привлечением векторной модели документа. Показано, что одна только иерархия семантик, построенная по HTML-коду документа, не позволяет решить поставленную задачу в тех случаях, когда существенно изменяется структура документа.