您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(理学版)》

J4

• 论文 • 上一篇    下一篇

基于结构与内容的网页主题信息提取研究

吴鹏飞,孟祥增,刘俊晓,马凤娟   

  1. 山东师范大学传播学院, 山东 济南 250014
  • 收稿日期:2006-03-29 修回日期:1900-01-01 出版日期:2006-10-24 发布日期:2006-10-24
  • 通讯作者: 吴鹏飞

Structure and content-based extraction of topical information from Web pages

WU Peng-fei,MENG Xiang-zeng,LIU Jun-xiao,MA Feng-juan   

  1. School of Communication, Shandong Normal Univ., Jinan 250014, Shandong, China
  • Received:2006-03-29 Revised:1900-01-01 Online:2006-10-24 Published:2006-10-24
  • Contact: WU Pengfei

摘要: 结合HTML网页内部特征与外部的结构布局,提出采用映射表这种网页映射模式对网页视图进行变换,基于结构与启发式规则对网页进行区域分割与识别,并利用向量空间模型对网页内容分析,从而准确得到具有高语义内聚性的网页主题内容.实验结果表明,此方法对各种复杂结构的网页主题信息提取较为理想.

关键词: 映射表, 启发式规则, 向量空间模型 , 区域分割, HTML

Abstract: Combining the Web page's internal features and external structural layout, mapping table is suggested to tansform the view of Web page. The approach gets highly semantic cohesiveness of the topical contents of the Web page exactly, based on the structure and revelatory rules for Web page's segmentation and identification and the use of the vector space model for Web content analysis. Experimental results show that this method is more ideal for the topical information extraction of complexstructure Web pages.

Key words: VSM0 , page segmentation, HTML, revelatory rules, mapping table

中图分类号: 

  • TP311.52
[1] 张鹏,王素格,李德玉,王杰. 一种基于启发式规则的半监督垃圾评论分类方法[J]. 山东大学学报(理学版), 2017, 52(7): 44-51.
[2] 曾剑平,吴承荣,龚凌晖. 面向分布式搜索引擎的索引库动态维护算法[J]. J4, 2011, 46(5): 24-27.
[3] 索红光,王玉伟 . 一种用于文本聚类的改进k-means算法[J]. J4, 2008, 43(1): 60-64 .
[4] 王卫东,宋 丹,宋人杰 . 基于分解的向量空间模型的Web新闻信息检索[J]. J4, 2006, 41(3): 135-138 .
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!