山东大学学报(理学版) ›› 2016, Vol. 51 ›› Issue (9): 106-112.doi: 10.6040/j.issn.1671-9352.1.2015.057
陈强1,2,杜攀1,陈海强3,包秀国4,刘悦1,程学旗1*
CHEN Qiang1,2, DU Pan1, CHEN Hai-qiang3, BAO Xiu-guo4, LIU Yue1, CHENG Xue-qi1*
摘要: 针对海量数据上的话题发现任务,提出了一种均匀快速的数据预切分算法。在保证一定精度情况下,通过该算法可以按照数据的语义关联强度快速有效地将数据集切分成大小均匀的子数据集,以支持后续的话题发现算法的并行执行。实验表明,所提出的方法能够快速切分海量数据,保持块内数据的语义关联,大大提升话题发现的效率与质量。
中图分类号:
[1] 黄波.基于向量空间模型和LDA模型相结合的微博客话题发现算法研究[M].成都:西南交通大学出版社,2012. HUANG Bo. Microblog topic detection algorithm based on combination of vector space model and LDA [D]. Chengdu: Southwest Jiaotong University Press, 2012. [2] 魏明川,朱俊杰,张瑾,等.基于吸收马尔可夫链的子话题发现方法[J]. 中文信息学报,2014,28(1):41-46. WEI Mingchuan, ZHU Junjie, ZHANG Jin, et al. Sub-topic detection method based on absorbing markov chain [J].Journal of Chinese Information Processing, 2014, 28(1):41-46. [3] 袁继鹏.网络舆情话题演化及话题重要度分析[D].北京:中国科学院计算技术研究所,2012. YUAN Jipeng. Public opinion evolvement and topical importance analysis on web[D]. Beijing: Institute of Computing Technology, CAS, 2012. [4] MACQUEEN J. Some methods for classification and analysis of multivariate observations[C] //Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability.[S.l.] :[s.n.] , 1967:281-297. [5] 黄康平.个性化话题推荐[D].北京:中国科学院计算技术研究所,2013. HUANG Kangping. Personalized topic recommendation[D]. Beijing: Institute of Computing Technology, CAS, 2013. [6] CHAN P K, SCHLAG D F, ZIEN J Y. Spectral K-way ratio-cut partitioning and clustering [J]. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems, 1994, 13(9):1088-1096. [7] SHI J, MALIK J. Normalized cuts and image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(8):888-905. [8] DING C H Q, HE X, ZHA H, et al. A min-max cut algorithm for graph partitioning and data clustering[C] // Proceedings of the IEEE International Conference on Data Mining. New York: IEEE, 2001. [9] PAPKA R, ALLAN J. On-line new event detection using single pass clustering TITLE2[R]. Amherst, MA: University of Massachusetts, 1998. [10] MCCALLUM A, NIGAM K, UNGAR L H. Efficient clustering of high-dimensional data sets with application to reference matching[C] //Proceedings of the 6th ACM SIGKDD International Conference on Knowledge Discovery and Data mining. New York: ACM, 2000:169-178. [11] MANKU G S, JAIN A, SARMA A D. Detecting near-duplicates for web crawling[C] //Proceedings of the 16th International Conference on World Wide Web. New York: ACM, 2007:141-150. |
[1] | 龚双双,陈钰枫,徐金安,张玉洁. 基于网络文本的汉语多词表达抽取方法[J]. 山东大学学报(理学版), 2018, 53(9): 40-48. |
[2] | 余传明,左宇恒,郭亚静,安璐. 基于复合主题演化模型的作者研究兴趣动态发现[J]. 山东大学学报(理学版), 2018, 53(9): 23-34. |
[3] | 严倩,王礼敏,李寿山,周国栋. 结合新闻和评论文本的读者情绪分类方法[J]. 山东大学学报(理学版), 2018, 53(9): 35-39. |
[4] | 原伟,唐亮,易绵竹. 基于本体的俄文新闻话题检测设计与实现[J]. 山东大学学报(理学版), 2018, 53(9): 49-54. |
[5] | 廖祥文,张凌鹰,魏晶晶,桂林,程学旗,陈国龙. 融合时间特征的社交媒介用户影响力分析[J]. 山东大学学报(理学版), 2018, 53(3): 1-12. |
[6] | 余传明,冯博琳,田鑫,安璐. 基于深度表示学习的多语言文本情感分析[J]. 山东大学学报(理学版), 2018, 53(3): 13-23. |
[7] | 张军,李竞飞,张瑞,阮兴茂,张烁. 基于网络有效阻抗的社区发现算法[J]. 山东大学学报(理学版), 2018, 53(3): 24-29. |
[8] | 庞博,刘远超. 融合pointwise及深度学习方法的篇章排序[J]. 山东大学学报(理学版), 2018, 53(3): 30-35. |
[9] | 陈鑫,薛云,卢昕,李万理,赵洪雅,胡晓晖. 基于保序子矩阵和频繁序列模式挖掘的文本情感特征提取方法[J]. 山东大学学报(理学版), 2018, 53(3): 36-45. |
[10] | 王彤,马延周,易绵竹. 基于DTW的俄语短指令语音识别[J]. 山东大学学报(理学版), 2017, 52(11): 29-36. |
[11] | 张晓东,董唯光,汤旻安,郭俊锋,梁金平. 压缩感知中基于广义Jaccard系数的gOMP重构算法[J]. 山东大学学报(理学版), 2017, 52(11): 23-28. |
[12] | 孙建东,顾秀森,李彦,徐蔚然. 基于COAE2016数据集的中文实体关系抽取算法研究[J]. 山东大学学报(理学版), 2017, 52(9): 7-12. |
[13] | 王凯,洪宇,邱盈盈,王剑,姚建民,周国栋. 一种查询意图边界检测方法研究[J]. 山东大学学报(理学版), 2017, 52(9): 13-18. |
[14] | 张帆,罗成,刘奕群,张敏,马少平. 异质搜索环境下的用户偏好性预测方法研究[J]. 山东大学学报(理学版), 2017, 52(9): 26-34. |
[15] | 杨艳,徐冰,杨沐昀,赵晶晶. 一种基于联合深度学习模型的情感分类方法[J]. 山东大学学报(理学版), 2017, 52(9): 19-25. |
|