您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(理学版)》

J4

• 论文 • 上一篇    下一篇

基于分解的向量空间模型的Web新闻信息检索

王卫东1,宋 丹2,宋人杰1   

  1. 1.东北电力大学计算机系, 吉林 吉林 132012;2.大连理工大学 计算机科学与工程系,辽宁 大连 116024
  • 收稿日期:2006-03-29 修回日期:1900-01-01 出版日期:2006-10-24 发布日期:2006-10-24
  • 通讯作者: 王卫东

Web news retrieval based on splited vector space model

WANG Wei-dong,SONG Dan,SONG Ren-jie   

  1. Department of Computer Science, Northeast Dianli Univ., Jilin 132012, Jilin, China;
  • Received:2006-03-29 Revised:1900-01-01 Online:2006-10-24 Published:2006-10-24
  • Contact: WANG Wei-dong

摘要: 在分析了传统向量空间检索模型的不足的基础上,给出了一种利用分解的向量空间模型进行Web新闻信息检索的方法.该方法没有使用传统向量空间模型中的单个向量,而是按照语义将特征词划分为4个组(人物,时间,地点,内容)并形成4个向量空间,每个空间进行独立的权重计算和相似度计算.而且将报道中的时间信息标准化,利用地理知识将报道中的地点特征词扩充,并利用这些信息进行检索.实验证明这些方法是有效的.

关键词: 信息检索, 向量空间模型, 内容 , 人物, 地点, 时间

Abstract: Based on the analysis of the deficiency of the traditional vector space retrieval model, a Web News Retrieval approach is presented based on splited vector space model. Instead of using a single term vector as event representation, the terms into four semantic classes are split(names, temporal expressions, spatial terms and contents) according to the semantic diffirence of them, form four vector spaces, and process and weigh the classes separately. Temporal expressions and augment spatial terms with geography information are formalized and this data in the retrieval is used. The approach is motivated by experiment.

Key words: contents , names, spatial terms, temporal expressions, vector space model, information retrieval

中图分类号: 

  • TP311
[1] 廖祥文,张凌鹰,魏晶晶,桂林,程学旗,陈国龙. 融合时间特征的社交媒介用户影响力分析[J]. 山东大学学报(理学版), 2018, 53(3): 1-12.
[2] 王凯,洪宇,邱盈盈,王剑,姚建民,周国栋. 一种查询意图边界检测方法研究[J]. 山东大学学报(理学版), 2017, 52(9): 13-18.
[3] 赵红红,谭红叶,寻丽娜,王蓉. 基于时间片段和主题片段的时间关系识别[J]. 山东大学学报(理学版), 2017, 52(6): 32-39.
[4] 庄政茂,陈兴蜀,邵国林,叶晓鸣. 一种时间相关性的异常流量检测模型[J]. 山东大学学报(理学版), 2017, 52(3): 68-73.
[5] 黄雷雷,宋晓秋,卢威. Banach空间上离散时间系统的多项式稳定[J]. 山东大学学报(理学版), 2017, 52(10): 36-41.
[6] 曹蓉,黄金柱,易绵竹. 信息检索—DARPA人类语言技术研究的最终指向[J]. 山东大学学报(理学版), 2016, 51(9): 11-17.
[7] 张文雅,宋大为,张鹏. 面向垂直搜索基于本体的可读性计算模型[J]. 山东大学学报(理学版), 2016, 51(7): 23-29.
[8] 孟烨,张鹏,宋大为. 探索数据集特征与伪相关反馈的平衡参数之间的关系[J]. 山东大学学报(理学版), 2016, 51(7): 18-22.
[9] 吴平杰,周斌,吴泉源. COT:一种连续时间序列建模的社区发现算法[J]. 山东大学学报(理学版), 2016, 51(11): 41-49.
[10] 刘洋,达朝究,李富明. Nehari流形在一类半线性抛物方程爆破中的应用[J]. 山东大学学报(理学版), 2016, 51(1): 123-127.
[11] 李风环, 郑德权, 赵铁军. 基于浅层语义分析的主题事件的时间识别[J]. 山东大学学报(理学版), 2015, 50(11): 74-80.
[12] 王立人, 余正涛, 王炎冰, 高盛祥, 李贤慧. 基于有指导LDA用户兴趣模型的微博主题挖掘[J]. 山东大学学报(理学版), 2015, 50(09): 36-41.
[13] 李胜东, 吕学强, 孙军, 施水才. Lucene全文索引效率的改进[J]. 山东大学学报(理学版), 2015, 50(07): 76-79.
[14] 王影, 孔维姝, 胡林, 史彤阳, 赵闯. 竖直振动激励下颗粒块的能量耗散[J]. 山东大学学报(理学版), 2015, 50(05): 30-34.
[15] 唐风琴1,白建明2. 时间相依复合更新风险模型中#br# 索赔过程的精细大偏差[J]. 山东大学学报(理学版), 2014, 49(2): 84-88.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!