山东大学学报(理学版) ›› 2015, Vol. 50 ›› Issue (07): 76-79.doi: 10.6040/j.issn.1671-9352.3.2014.217
李胜东1, 吕学强2, 孙军3, 施水才2,4
LI Sheng-dong1, LÜ Xue-qiang2, SUN Jun3, SHI Shui-cai2,4
摘要: Lucene是一个优秀的开源的全文搜索技术框架,按照框架规范,扩展它的功能,可以将它很好地嵌入到搜索引擎中。研究了Lucene的索引结构和原理,通过改进增量索引、增大索引缓冲区的大小和减少往磁盘上写索引文件的频率,达到提高创建索引效率的目的。设计了全文检索实验,实验结果表明,该方法使10000篇文档创建索引的平均效率比前人方法提高了19.5%,具有良好的应用前景。
中图分类号:
[1] 王婧,王新房.基于内容的中文文本检索方法[J].计算机系统应用,2012,21(9): 214-216. WANG Jing, WANG Xinfang. Chinese text retrieval method based on content [J]. Computer Systems & Applications, 2012, 21(9):214-216. [2] GOSPODNETIC O. Parsing, indexing, and searching XML with digester and Lucene[J]. Interchange, 200, 9(2):26-33. [3] HATCHER E, GOSPODNETIC O. Lucene in action[M]. Shelter Island, NY: Manning Publications Co., 2005. [4] 刘小珠,彭智勇. 全文索引技术时空效率分析[J]. 软件学报,2009,20(7):1768-1784. LIU Xiaozhu, PENG Zhiyong.Time and space efficiencies analysis of full-text index techniques[J]. Journal of Software, 2009, 20(7):1768-1784. [5] 蒋维,郝文宁,杨晓恝,等. 分布式数据库搜索引擎的索引建立和优化[J]. 计算机工程,2008,34(18): 36-38. JIANG Wei, HAO Wenning, YANG Xiaojia, et al. Index creation and optimization of distributed database search engine[J].Computer Engineering, 2008, 34(18):36-38. [6] 冯汝伟,谢强,丁秋林. 基于文本聚类与分布式Lucene的知识检索[J]. 计算机应用,2013,33(1):186-188. FENG Ruwei, XIE Qiang, DING Qiulin. Knowledge retrieval based on text clustering and distributed Lucene[J]. Journal of Computer Applications, 2013, 33(1):186-188. [7] 彭哲,陈敬文. Lucene全文检索的应用及检索效率测试研究[J]. 图书馆学研究,2009(2): 37-40. PENG Zhe, CHEN Jingwen. Study on application of full text retrieval based on Lucene and retrieval efficiency test[J]. Researches in Library Science, 2009(2):37-40. [8] 孙志军,郑烇,袁婧,等. 基于浅层语义分析技术的语义检索[J]. 计算机科学,2012,39(6):107-110. SUN Zhijun, ZHENG Quan, YUAN Jing, et al. Semantic retrieval based on shallow semantic analysis technology[J]. Computer Science, 2012, 39(6):107-110. [9] 王欢,孙瑞志. 基于领域本体和Lucene的语义检索系统研究[J]. 计算机应用,2010,30(6):1655-1657. WANG Huan, SUN Ruizhi. Research of semantic retrieval system based on domain-ontology and Lucene[J].Journal of Computer Applications, 2010, 30(6):1655-1657. [10] 吴众欣, 沈家立.Lucene分析与应用[M]. 北京:机械工业出版社,2008. WU Zhongxin, SHEN Jiali.Lucene analysis and application [M]. Beijing: China Machine Press, 2008. [11] 车庆男.基于Lucene的索引系统分析和研究[J]. 内蒙古石油化工,2010,36(18):7-8. CHE Qinnan.Analysis and research of index system based on Lucene[J]. Inner Mongulia Petrochemical Industry, 2010, 36(18):7-8. [12] 潘胜一. 基于倒排索引的压缩算法性能研究[D]. 杭州:杭州电子科技大学,2009. PAN Shengyi. A study on compression algorithm performance based inverted index [D]. Hangzhou: Hangzhou Dianzi University, 2009. |
[1] | 王凯,洪宇,邱盈盈,王剑,姚建民,周国栋. 一种查询意图边界检测方法研究[J]. 山东大学学报(理学版), 2017, 52(9): 13-18. |
[2] | 苏彬庭,许力,方禾,王峰. 基于Diffie-Hellman的无线Mesh网络快速认证机制[J]. 山东大学学报(理学版), 2016, 51(9): 101-105. |
[3] | 曹蓉,黄金柱,易绵竹. 信息检索—DARPA人类语言技术研究的最终指向[J]. 山东大学学报(理学版), 2016, 51(9): 11-17. |
[4] | 张文雅,宋大为,张鹏. 面向垂直搜索基于本体的可读性计算模型[J]. 山东大学学报(理学版), 2016, 51(7): 23-29. |
[5] | 孟烨,张鹏,宋大为. 探索数据集特征与伪相关反馈的平衡参数之间的关系[J]. 山东大学学报(理学版), 2016, 51(7): 18-22. |
[6] | 许洁萍1,殷宏宇1,范子文2. 基于近似子乐句的翻唱歌曲识别研究[J]. J4, 2013, 48(7): 68-71. |
[7] | 李伟,许文锋,李宏余. 基于独立子系统的模糊DEA模型研究[J]. J4, 2012, 47(9): 78-83. |
[8] | 孙静宇,陈俊杰,余雪丽,李鲜花. 协同Web搜索综述[J]. J4, 2011, 46(5): 9-15. |
[9] | 周小双1,2. 错误先验指定下Bayes估计与广义最小二乘估计的相对效率[J]. J4, 2010, 45(9): 70-73. |
[10] | 庞观松,张黎莎,蒋盛益*,邝丽敏,吴美玲. 一种基于名词短语的检索结果多层聚类方法[J]. J4, 2010, 45(7): 39-44. |
[11] | 王太峰,袁平波,荚济民,俞能海 . 基于新闻环境的人物肖像检索[J]. J4, 2006, 41(3): 5-10 . |
[12] | 曹 瑛,王明文,陶红亮 . 基于Markov网络的检索模型[J]. J4, 2006, 41(3): 126-130 . |
[13] | 王卫东,宋 丹,宋人杰 . 基于分解的向量空间模型的Web新闻信息检索[J]. J4, 2006, 41(3): 135-138 . |
[14] | 何 靖 . 一种问答式检索系统布尔查询生成方法[J]. J4, 2006, 41(3): 13-17 . |
[15] | 宋春芳,石冰 . 一种基于关联规则的搜索引擎结果聚类算法[J]. J4, 2006, 41(3): 61-65 . |
|