Оценка эффективности методов поиска тематических сообществ в веб-пространстве

Проблемы передачи и обработки информации
Авторы:
Аннотация:

Описано и проведено сравнение трех методов поиска тематических сообществ в Веб-пространстве: метода, использующего информацию только о тексте документа при помощи TF-IDF взвешивания; метода, использующегоинформацию о гиперссылочной структуре документов при помощи алгоритма HITS; метода, основанного на совместном использовании алгоритма HITS и взвешивания TF-IDF. Рассмотрены принципы функционирования сфокусированных Веб-краулеров, алгоритмы обхода Веб-пространства которых основаны на данных методах. Поставлен эксперимент, в котором оценивается качество поиска информации каждого Веб-краулера в английских и русских коллекциях и выявляется наиболее эффективный.