陈 军1,陈竹敏2
CHEN Jun1,CHEN Zhu-min2
摘要: Shark-Search算法是一个经典的主题爬取算法. 针对该算法在爬取噪音链接较多的Web页面时性能并不理想的问题, 提出了基于网页分块的Shark-Search算法, 该算法从页面、块、链接的多种粒度来更加有效的进行链接的选择与过滤. 实验证明, 改进的Shark-Search算法比传统的Shark-Search算法在查准率和信息量总和上有了质的提高.
中图分类号:
[1] | 苏 祺,项 锟,孙 斌 . 基于链接聚类的Shark-Search算法[J]. J4, 2006, 41(3): 1-04 . |
|