摘要: 由于网页中存在着许多“噪声”信息,所以相对于传统的纯文本分类来说,中文主题网页分类是一项更为困难的工作. 但网页可以划分成不同的块,对分类 而言每个块的重要度是不同的,可以利用分块的重要度提高网页分类的质量.介绍了几种流行的网页分块技术,并通过实验验证了基于分块重要度的主题网页分类法的分类质量优于传统的主题网页分类法.
[1] | 管毅舟,徐博,林原,林鸿飞. 基于社会化标注和网页分类的个性化检索方法[J]. 山东大学学报(理学版), 2016, 51(7): 35-42. |
[2] | 王 静,姚 勇,刘志镜 . 基于广义隐马尔可夫模型的网页信息抽取方法[J]. J4, 2007, 42(11): 49-52 . |
[3] | 谷 峰,刘晨曦,吴扬扬 . 基于序列数据挖掘的中文网页特征选择方法[J]. J4, 2006, 41(3): 95-99 . |
|