您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(理学版)》

山东大学学报(理学版) ›› 2015, Vol. 50 ›› Issue (07): 76-79.doi: 10.6040/j.issn.1671-9352.3.2014.217

• 论文 • 上一篇    下一篇

Lucene全文索引效率的改进

李胜东1, 吕学强2, 孙军3, 施水才2,4   

  1. 1. 廊坊燕京职业技术学院计算机工程系, 河北 廊坊 065200;
    2. 北京信息科技大学网络文化与数字传播北京市重点实验室, 北京 100101;
    3. 北华航天工业学院, 河北 廊坊 065000;
    4. 北京拓尔思信息技术股份有限公司, 北京 100101
  • 收稿日期:2014-10-20 出版日期:2015-07-20 发布日期:2015-07-31
  • 通讯作者: 吕学强(1970-),男,博士,教授,主要研究领域为中文信息处理、多媒体信息处理.E-mail:lv.xueqiang@trs.com.cn E-mail:lv.xueqiang@trs.com.cn
  • 作者简介:李胜东(1984-),男,硕士,讲师,主要研究领域为文本数据挖掘、信息检索,智能优化.E-mail:lsd_6@126.com
  • 基金资助:
    网络文化与数字传播北京市重点实验室开放课题项目(ICDD201404);国家自然科学基金资助项目(61271304);北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目(KZ201311232037);2013年河北省高等学校科学技术研究自筹资金项目(Z2013162)

Improvement of Lucene full-text indexing efficiency

LI Sheng-dong1, LÜ Xue-qiang2, SUN Jun3, SHI Shui-cai2,4   

  1. 1. Department of Computer Engineering, Langfang Yanjing Polytechnic College, Langfang 065200, Hebei, China;
    2. Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science and Technology University, Beijing 100101, China;
    3. North China Institute of Aerospace Engineering, Langfang 065000, Hebei, China;
    4. Beijing TRS Information Technology Co., Ltd., Beijing 100101, China
  • Received:2014-10-20 Online:2015-07-20 Published:2015-07-31

摘要: Lucene是一个优秀的开源的全文搜索技术框架,按照框架规范,扩展它的功能,可以将它很好地嵌入到搜索引擎中。研究了Lucene的索引结构和原理,通过改进增量索引、增大索引缓冲区的大小和减少往磁盘上写索引文件的频率,达到提高创建索引效率的目的。设计了全文检索实验,实验结果表明,该方法使10000篇文档创建索引的平均效率比前人方法提高了19.5%,具有良好的应用前景。

关键词: 全文索引, 信息检索, 效率, 全文检索

Abstract: Lucene is an excellent open-source full-text search technology framework that can be well embedded in its own search engine by expanding its functions in accordance with the framework specification. Lucene index structure and principles were studied, and the efficiency of indexing was enhanced by improving incremental indexing, increasing the size of index buffer in memory and decreasing the frequency of writing index to disk. A full-text retrieval experiments were designed. As a result, the average efficiency of creating index for 10 000 documents has been improved by 19.5%, and the method has good prospects.

Key words: full-text index, full-text retrieval, information retrieval, efficiency

中图分类号: 

  • TP393
[1] 王婧,王新房.基于内容的中文文本检索方法[J].计算机系统应用,2012,21(9): 214-216. WANG Jing, WANG Xinfang. Chinese text retrieval method based on content [J]. Computer Systems & Applications, 2012, 21(9):214-216.
[2] GOSPODNETIC O. Parsing, indexing, and searching XML with digester and Lucene[J]. Interchange, 200, 9(2):26-33.
[3] HATCHER E, GOSPODNETIC O. Lucene in action[M]. Shelter Island, NY: Manning Publications Co., 2005.
[4] 刘小珠,彭智勇. 全文索引技术时空效率分析[J]. 软件学报,2009,20(7):1768-1784. LIU Xiaozhu, PENG Zhiyong.Time and space efficiencies analysis of full-text index techniques[J]. Journal of Software, 2009, 20(7):1768-1784.
[5] 蒋维,郝文宁,杨晓恝,等. 分布式数据库搜索引擎的索引建立和优化[J]. 计算机工程,2008,34(18): 36-38. JIANG Wei, HAO Wenning, YANG Xiaojia, et al. Index creation and optimization of distributed database search engine[J].Computer Engineering, 2008, 34(18):36-38.
[6] 冯汝伟,谢强,丁秋林. 基于文本聚类与分布式Lucene的知识检索[J]. 计算机应用,2013,33(1):186-188. FENG Ruwei, XIE Qiang, DING Qiulin. Knowledge retrieval based on text clustering and distributed Lucene[J]. Journal of Computer Applications, 2013, 33(1):186-188.
[7] 彭哲,陈敬文. Lucene全文检索的应用及检索效率测试研究[J]. 图书馆学研究,2009(2): 37-40. PENG Zhe, CHEN Jingwen. Study on application of full text retrieval based on Lucene and retrieval efficiency test[J]. Researches in Library Science, 2009(2):37-40.
[8] 孙志军,郑烇,袁婧,等. 基于浅层语义分析技术的语义检索[J]. 计算机科学,2012,39(6):107-110. SUN Zhijun, ZHENG Quan, YUAN Jing, et al. Semantic retrieval based on shallow semantic analysis technology[J]. Computer Science, 2012, 39(6):107-110.
[9] 王欢,孙瑞志. 基于领域本体和Lucene的语义检索系统研究[J]. 计算机应用,2010,30(6):1655-1657. WANG Huan, SUN Ruizhi. Research of semantic retrieval system based on domain-ontology and Lucene[J].Journal of Computer Applications, 2010, 30(6):1655-1657.
[10] 吴众欣, 沈家立.Lucene分析与应用[M]. 北京:机械工业出版社,2008. WU Zhongxin, SHEN Jiali.Lucene analysis and application [M]. Beijing: China Machine Press, 2008.
[11] 车庆男.基于Lucene的索引系统分析和研究[J]. 内蒙古石油化工,2010,36(18):7-8. CHE Qinnan.Analysis and research of index system based on Lucene[J]. Inner Mongulia Petrochemical Industry, 2010, 36(18):7-8.
[12] 潘胜一. 基于倒排索引的压缩算法性能研究[D]. 杭州:杭州电子科技大学,2009. PAN Shengyi. A study on compression algorithm performance based inverted index [D]. Hangzhou: Hangzhou Dianzi University, 2009.
[1] 王凯,洪宇,邱盈盈,王剑,姚建民,周国栋. 一种查询意图边界检测方法研究[J]. 山东大学学报(理学版), 2017, 52(9): 13-18.
[2] 苏彬庭,许力,方禾,王峰. 基于Diffie-Hellman的无线Mesh网络快速认证机制[J]. 山东大学学报(理学版), 2016, 51(9): 101-105.
[3] 曹蓉,黄金柱,易绵竹. 信息检索—DARPA人类语言技术研究的最终指向[J]. 山东大学学报(理学版), 2016, 51(9): 11-17.
[4] 张文雅,宋大为,张鹏. 面向垂直搜索基于本体的可读性计算模型[J]. 山东大学学报(理学版), 2016, 51(7): 23-29.
[5] 孟烨,张鹏,宋大为. 探索数据集特征与伪相关反馈的平衡参数之间的关系[J]. 山东大学学报(理学版), 2016, 51(7): 18-22.
[6] 许洁萍1,殷宏宇1,范子文2. 基于近似子乐句的翻唱歌曲识别研究[J]. J4, 2013, 48(7): 68-71.
[7] 李伟,许文锋,李宏余. 基于独立子系统的模糊DEA模型研究[J]. J4, 2012, 47(9): 78-83.
[8] 孙静宇,陈俊杰,余雪丽,李鲜花. 协同Web搜索综述[J]. J4, 2011, 46(5): 9-15.
[9] 周小双1,2. 错误先验指定下Bayes估计与广义最小二乘估计的相对效率[J]. J4, 2010, 45(9): 70-73.
[10] 庞观松,张黎莎,蒋盛益*,邝丽敏,吴美玲. 一种基于名词短语的检索结果多层聚类方法[J]. J4, 2010, 45(7): 39-44.
[11] 王太峰,袁平波,荚济民,俞能海 . 基于新闻环境的人物肖像检索[J]. J4, 2006, 41(3): 5-10 .
[12] 曹 瑛,王明文,陶红亮 . 基于Markov网络的检索模型[J]. J4, 2006, 41(3): 126-130 .
[13] 王卫东,宋 丹,宋人杰 . 基于分解的向量空间模型的Web新闻信息检索[J]. J4, 2006, 41(3): 135-138 .
[14] 何 靖 . 一种问答式检索系统布尔查询生成方法[J]. J4, 2006, 41(3): 13-17 .
[15] 宋春芳,石冰 . 一种基于关联规则的搜索引擎结果聚类算法[J]. J4, 2006, 41(3): 61-65 .
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!