您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(理学版)》

J4

• 论文 • 上一篇    下一篇

利用分块重要度进行中文网页分类的研究

段 昕1,马 军1,宋 玲2   

  1. 山东大学计算机科学与技术学院, 山东 济南 250061
  • 收稿日期:2006-03-29 修回日期:1900-01-01 出版日期:2006-10-24 发布日期:2006-10-24
  • 通讯作者: 段昕

The study of Chinese Webpage classification based on block importance

DUAN Xin,MA Jun,SONG Ling   

  1. School of computer science and technology, Shandong Univ., Jinan 250061, Shandong, China;
  • Received:2006-03-29 Revised:1900-01-01 Online:2006-10-24 Published:2006-10-24
  • Contact: DUAN Xin

摘要: 由于网页中存在着许多“噪声”信息,所以相对于传统的纯文本分类来说,中文主题网页分类是一项更为困难的工作. 但网页可以划分成不同的块,对分类 而言每个块的重要度是不同的,可以利用分块的重要度提高网页分类的质量.介绍了几种流行的网页分块技术,并通过实验验证了基于分块重要度的主题网页分类法的分类质量优于传统的主题网页分类法.

关键词: 网页分割, 块重要度, 网页分类

Abstract: Webpage classification is more difficult than that for puretext documents because of noisy information in Web pages. A Web page can be segmented into multiple blocks and the importance of blocks in a Web page for classification is not equivalent, which can be utilized to improve the quality of Webpage classification. Several revalent methods for blocksegmentation in a Web page are introduced, and then it is validated that the method for Chinese Webpage classification based on block importance is better than the one for traditional methods.

Key words: Webpage classification , importance of block, Webpage segmentation

[1] 管毅舟,徐博,林原,林鸿飞. 基于社会化标注和网页分类的个性化检索方法[J]. 山东大学学报(理学版), 2016, 51(7): 35-42.
[2] 王 静,姚 勇,刘志镜 . 基于广义隐马尔可夫模型的网页信息抽取方法[J]. J4, 2007, 42(11): 49-52 .
[3] 谷 峰,刘晨曦,吴扬扬 . 基于序列数据挖掘的中文网页特征选择方法[J]. J4, 2006, 41(3): 95-99 .
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!