Модель определения первичного контента среди множества web-документов

Проблемы передачи и обработки информации
Авторы:
Аннотация:

Рассмотрена проблема выявления авторской копии среди кластера web-документов. Предложен метод определения оригинального web-документа на основе расчета авторства, полноты тематики всего web-ресурса, учета принципа цитируемости и других дополнительных оценок ценности web-ресурса. Получена общая формула с рассчитанными коэффициентами, позволяющая определить оригинал в кластере дублей.