Модель определения первичного контента среди множества web-документов
Авторы:
Аннотация:
Рассмотрена проблема выявления авторской копии среди кластера web-документов. Предложен метод определения оригинального web-документа на основе расчета авторства, полноты тематики всего web-ресурса, учета принципа цитируемости и других дополнительных оценок ценности web-ресурса. Получена общая формула с рассчитанными коэффициентами, позволяющая определить оригинал в кластере дублей.