山东大学学报(理学版) ›› 2014, Vol. 49 ›› Issue (09): 129-134.doi: 10.6040/j.issn.1671-9352.2.2014.327
王少鹏1, 彭岩2, 王洁2
WANG Shao-peng1, PENG Yan2, WANG Jie2
摘要: 针对传统的基于词语的文本聚类算法忽略了文本中可能具有的隐含信息的问题,提出了一种基于LDA(latent dirichlet allocation)主题模型的文本聚类算法。该方法利用TF-IDF算法和LDA主题模型分别计算文本的相似度,通过耗费函数确定文本相似度的融合系数并进行线性结合来获取文本之间的相似度,同时使用F-measure值来对聚类结果进行评估。在构建LDA主题模型时,采用Gibbs抽样来进行参数估计,通过贝叶斯统计的标准方法进行最优主题数的确定。从仿真实验的聚类结果的准确性和稳定性来看,该方法相比传统的文本聚类算法具有更良好的效果。
中图分类号:
[1] 周宏仁,唐铁汉. 网络舆情电子政务知识读本[M]. 北京:国家行政学院出版社,2002. ZHOU Hongren, TANG Tiehan. The network public opinion E-government knowledge [M]. Beijing: National School of Administration Press, 2002. [2] 周德懋,李舟军.高性能网络爬虫:研究综述[J].计算机科学,2009, 36(8):26-29, 53. ZHOU Demao, LI Zhoujun. Survey of high-performance web crawler [J]. Computer Science, 2009, 36(8): 26-29, 53. [3] 邵秀丽,乜聚科,田振雷,等.用户个性化推荐系统的设计与实现[J].计算机工程与设计,2009(20):4681-4685. SHAO Xiuli, NIE Juke, TIAN Zhenlei, et al. Design and implementation of personalized recommendation system for user [J]. Computer Engineering and Design, 2009(20): 4681-4685. [4] 杨俊峰,黎建辉,杨风雷.深层网站Ajax页面数据采集研究综述[J].计算机应用研究,2013, 30(6):1606-1610, 1616. YANG Junfeng, LI Jianhui, YANG Fenglei. Survey on research of data collection from supporting Ajax technology deep web sites [J]. Application Research of Computers, 2013, 30(6): 1606-1610, 1616. [5] 赵岩,周斌,陈儒华.文本分类算法研究[J].软件导刊,2013, 12(10):54-56. ZHAO Yan, ZHOU Bin, CHEN Ruhua. Research on text categorization algorithm [J]. SoftWare Guide, 2013, 12(10): 54-56. [6] BLEI T D, NG A, JORDAN M.Latent dirichlet allocation [J]. Journal of Machine Learning Research, 2003(3): 993-1022. [7] 张明慧,王红玲,周国栋.基于LDA主题特征的自动文摘方法[J].计算机应用与软件,2011, 28(10):20-22, 46. ZHANG Minghui, WANG Hongling, ZHOU Guodong. An automatic summarization approach based on lda topic feature [J]. Computer Applications and Software, 2011, 28(10): 20-22, 46. [8] 贺喜,蒋建春,丁丽萍,等.基于LDA模型的主机异常检测方法[J].计算机应用与软件,2012, 29(8):1-4, 24. HE Xi, JIANG Jianchun, DING Liping, et al. A host anomaly detection method based on lda model[J]. Computer Applications and Software, 2012, 29(8): 1-4, 24. [9] 付玲,张晖.结合LDA和谱聚类的多文档摘要[J].计算机工程与应用,2013(16):142-145, 154. FU Ling, ZHANG Hui. Multi-document summary using LDA and spectral clustering [J]. Computer Engineering and Applications, 2013(16): 142-145, 154. [10] 杨燕,靳蕃,MOHAMED K.聚类有效性评价综述[J].计算机应用研究,2008, 25(6):1630-1632, 1638. YANG Yan, JIN Bo, MOHAMED K. Survey of clustering validity evaluation [J]. Application Research of Computers, 2008, 25(6): 1630-1632, 1638. |
[1] | 张聪,裴家欢,黄锴宇,黄德根,殷章志. 基于语义图优化算法的中文微博观点摘要研究[J]. 山东大学学报(理学版), 2017, 52(7): 59-65. |
[2] | 张新猛, 蒋盛益, 张倩生, 谢柏林, 李霞. 基于用户偏好加权的混合网络推荐算法[J]. 山东大学学报(理学版), 2015, 50(09): 29-35. |
[3] | 王立人, 余正涛, 王炎冰, 高盛祥, 李贤慧. 基于有指导LDA用户兴趣模型的微博主题挖掘[J]. 山东大学学报(理学版), 2015, 50(09): 36-41. |
[4] | 马宇峰, 阮彤. 基于LDA及标签传播的实体集合扩展[J]. 山东大学学报(理学版), 2015, 50(03): 20-27. |
[5] | 郑妍, 庞琳, 毕慧, 刘玮, 程工. 基于情感主题模型的特征选择方法[J]. 山东大学学报(理学版), 2014, 49(11): 74-81. |
[6] | 焦潞林, 彭岩, 林云. 面向网络舆情的文本知识发现算法对比研究[J]. 山东大学学报(理学版), 2014, 49(09): 62-68. |
[7] | 夏天1,2. Web数据的深度定向采集[J]. J4, 2011, 46(5): 34-38. |
[8] | 张国英,沙 芸,江慧娜 . 基于粒子群优化的快速KNN分类算法[J]. J4, 2006, 41(3): 34-36 . |
|