您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(理学版)》

J4

• 论文 • 上一篇    下一篇

基于互信息的粗糙集信息检索模型

付雪峰1,刘邱云2,王明文3   

  1. 南昌工程学院计算机科学与技术系, 江西 南昌 330099
  • 收稿日期:2006-03-29 修回日期:1900-01-01 出版日期:2006-10-24 发布日期:2006-10-24
  • 通讯作者: 付雪峰

Rough sets information retrieval model based on multual information

FU Xue-feng,LIU Qiu-yun,WANG Ming-wen   

  1. Department of Computer Science and technology, Nanchang Institute of Technology, Nanchang
  • Received:2006-03-29 Revised:1900-01-01 Online:2006-10-24 Published:2006-10-24
  • Contact: FU Xue-feng

摘要: 在信息检索过程中,由于文档中存在大量的多义和近义现象,导致不确定性出现,这将影响检索的性能.为此采用基于互信息的粗糙集理论来处理这类不确定性问题.首先计算训练文档集中的词之间的互信息,对互信息做模糊聚类来构造词之间的等价关系,然后借助于该等价关系提出并实现了一个以粗糙集上下近似为基础的信息检索模型,通过实验的测试,该模型能够提高信息检索的效率.

关键词: 互信息, 模糊聚类, 信息检索 , 粗糙集

Abstract: In the processing of information retrieval, the existence of polysemy and synonymy would lead to uncertainty, which reduces the effectiveness of information retrieval. A model based on mutual information is proposed, in which the uncertainty is captured by rough sets. At first, the mutual information between the words of the training corpus is counted, and then the mutual information is employed to build an equivalent relation through fuzzy clustering. An information retrieval model based on upper and lower proximations of rough sets is proposed and implemented in the light of quivalent relation.Experiments show that the model can get improvement of information retrieval.

Key words: information retrieval , Rough sets, fuzzy clustering, mutual information

[1] 龚双双,陈钰枫,徐金安,张玉洁. 基于网络文本的汉语多词表达抽取方法[J]. 山东大学学报(理学版), 2018, 53(9): 40-48.
[2] 李同军,黄家文,吴伟志. 基于相似关系的不完备形式背景属性约简[J]. 山东大学学报(理学版), 2018, 53(8): 9-16.
[3] 左芝翠,张贤勇,莫智文,冯林. 基于决策分类的分块差别矩阵及其求核算法[J]. 山东大学学报(理学版), 2018, 53(8): 25-33.
[4] 王凯,洪宇,邱盈盈,王剑,姚建民,周国栋. 一种查询意图边界检测方法研究[J]. 山东大学学报(理学版), 2017, 52(9): 13-18.
[5] 李丽,管涛,林和. 基于泛系算子的泛系混合并联粗糙集模型[J]. 山东大学学报(理学版), 2017, 52(7): 22-29.
[6] 胡谦,米据生,李磊军. 多粒度模糊粗糙近似算子的信任结构与属性约简[J]. 山东大学学报(理学版), 2017, 52(7): 30-36.
[7] 汪小燕,沈家兰,申元霞. 基于加权粒度和优势关系的程度多粒度粗糙集[J]. 山东大学学报(理学版), 2017, 52(3): 97-104.
[8] 曹蓉,黄金柱,易绵竹. 信息检索—DARPA人类语言技术研究的最终指向[J]. 山东大学学报(理学版), 2016, 51(9): 11-17.
[9] 黄伟婷,赵红,祝峰. 代价敏感属性约简的自适应分治算法[J]. 山东大学学报(理学版), 2016, 51(8): 98-104.
[10] 张文雅,宋大为,张鹏. 面向垂直搜索基于本体的可读性计算模型[J]. 山东大学学报(理学版), 2016, 51(7): 23-29.
[11] 孟烨,张鹏,宋大为. 探索数据集特征与伪相关反馈的平衡参数之间的关系[J]. 山东大学学报(理学版), 2016, 51(7): 18-22.
[12] 李钊,孙占全,李晓,李诚. 基于信息损失量的特征选择方法研究及应用[J]. 山东大学学报(理学版), 2016, 51(11): 7-12.
[13] 李胜东, 吕学强, 孙军, 施水才. Lucene全文索引效率的改进[J]. 山东大学学报(理学版), 2015, 50(07): 76-79.
[14] 桑乐园, 徐新峰, 张婧, 黄德根. 基于广义Jaccard系数的微博情感新词判定[J]. 山东大学学报(理学版), 2015, 50(07): 71-75.
[15] 翟俊海, 张垚, 王熙照. 相容粗糙模糊集模型[J]. 山东大学学报(理学版), 2014, 49(08): 73-79.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!