您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(理学版)》

山东大学学报(理学版) ›› 2016, Vol. 51 ›› Issue (3): 91-97.doi: 10.6040/j.issn.1671-9352.1.2015.083

• • 上一篇    下一篇

基于事件的新闻客户端热门评论预测框架

李希鹏1,2,郭岩1,赵岭1,张儒清1,2,刘悦1,俞晓明1,程学旗1*   

  1. 1.中国科学院计算技术研究所, 北京 100190;2.中国科学院大学, 北京 100190
  • 收稿日期:2015-09-25 出版日期:2016-03-20 发布日期:2016-04-07
  • 通讯作者: 程学旗(1971— ),男,研究员,博士,主要研究领域为网络科学、网络与信息安全、互联网搜索与服务. E-mail:cxq@ict.ac.cn E-mail:lixipeng.ict@hotmail.com
  • 作者简介:李希鹏(1992— ),男,硕士研究生,研究方向为网络数据采集与抽取. E-mail:lixipeng.ict@hotmail.com
  • 基金资助:
    国家重点基础研究发展计划(973计划)项目(2012CB316303,2013CB329602);国家高技术研究发展计划(863计划)项目(2015AA015803,2014AA015204);山东省自主创新及成果转化专项目(2014CGZH1103);中科院医学影像项目(KGZD-EW-T03-2);国家自然科学基金重点项目(61232010);国家自然科学基金面上项目(61173064,61173008);国家科技支撑计划项目(2012BAH46B04);欧盟第七科技框架计划(FP7)项目(PIRSES-GA-2012-318939)

A news App popular comment prediction framework based on event detection

LI Xi-peng1, 2, GUO Yan1,ZHAO Ling1, ZHANG Ru-qing1,2, LIU Yue1, YU Xiao-ming1, CHENG Xue-qi1*   

  1. 1. Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China;
    2.University of Chinese Academy of Sciences, Beijing 100190, China
  • Received:2015-09-25 Online:2016-03-20 Published:2016-04-07

摘要: 将评论作为主要研究对象,提出了一种基于事件的新闻客户端热门评论预测框架。为了解决单个新闻客户端数据稀疏的问题,利用新闻客户端的聚集性来挖掘事件;通过建立事件背景解决了使用单条新闻进行预测带来的冷启动问题;框架内部各模块关系完全松耦合,能够依据不同的事件粒度进行在线的热门评论的预测。最后通过实例实验证明,使用框架中提出的联合客户端数据的事件挖掘策略,能够很好地避免单个客户端中数据稀疏的问题,同时证明基于事件进行热门评论框架的效果要优于单纯使用评论本身。

关键词: 事件, 预测, 新闻客户端, 热门评论

Abstract: A framework based on event detection is proposed to do popular comments prediction in news Apps. Taking advantage of the aggregation of news Apps, the problem of sparse data for a single news App is avoided. Also, in this framework, events are detected as the context of comments to solve the cold-start problem; components are loosely coupled, which means it can adapt all kinds of granularity of events. We provide an instance of this framework and it turns out that using the event detection strategy mentioned above, the sparse data problem no longer exists. Whats more, the framework brings a better prediction result than using the comment itself.

Key words: hot comment, prediction, event, news App

中图分类号: 

  • TP393
[1] ALLAN J, CARBONELL J G, DODDINGTON G, et al. Topic detection and tracking pilot study final report[J]. Proceedings of DARPA Broadcast News Transcription and Understanding Workshop. San Franciscu: Morgan Kaufmann Publishers, 1998: 194-218.
[2] LANDAUER T K, FOLTZ P W, LAHAM D. An introduction to latent semantic analysis[J]. Discourse Processes, 1998, 25(2-3):259-284.
[3] LEE D D, SEUNG H S. Learning the parts of objects by non-negative matrix factorization[J]. Nature, 1999, 401(6755):788-791.
[4] BLEI D M, NG A Y, JORDAN M I. Latent dirichletallocation[J]. The Journal of Machine Learning Research, 2003, 3:993-1022.
[5] BLEI D M, LAFFERTY J D. Dynamic topic models[C] // Proceedings of the 23rd International Conference on Machine Learning. New York: ACM Press, 2006: 113-120.
[6] WANG Y, AGICHTEIN E, BENZI M. Tm-lda: efficient online modeling of latent topic transitions in social media[C] // Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM Press, 2012: 123-131.
[7] HE Q, CHANG K, LIM E P, et al. Keep it simple with time: a reexamination of probabilistic topic detection models[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(10):1795-1808.
[8] VACA C K, MANTRACH A, JAIMES A, et al. A time-based collective factorization for topic discovery and monitoring in news[C] // Proceedings of the 23rd International Conference on World Wide Web. New York: ACM Press, 2014: 527-538.
[9] 徐涛.基于神经网络的BBS热点话题预测方法研究[D].杭州:杭州电子科技大学,2010.
[10] 戴臻.布谷鸟算法优化支持向量机的网络热点话题预测[J].计算机应用与软件,2014,(4):330-333. DAI Zhen. Internet hot topic prediction based on support vector machine optimised by cuckoo search algorithm[J]. Computer Applications and Software, 2014,(4):330-333.
[11] TONG H, LIU Y, PENG H, et al. Internet users' psychosocial attention prediction: Web hot topic prediction based on adaptive AR model[C] // Proceedings of the International Conference on Computer Science and Information Technology. Washington: IEEE Computer Society, 2008: 458-462.
[12] 李玉梅.基于互联网评论的股票市场趋势预测[D].哈尔滨:哈尔滨工业大学,2012.
[13] 李雪妮.基于评论情感和自回归模型的销量预测研究[D].大连:大连理工大学,2013.
[14] 聂卉.基于内容分析的用户评论质量的评价与预测[J].图书情报工作,2014(13):83-89. NIE Hui. Content-oriented evaluation and detection for product reviews[J]. Library and Information Service, 2014(13):83-89.
[15] 张跃伟.基于微博客话题的热点预测及传播溯源[D]. 北京:北京邮电大学, 2014.
[16] FISCUS J G, DODDINGTON G R. Topic detection and tracking evaluation overview[M]. New York: Springer, 2002: 17-31.
[1] 叶晓鸣,陈兴蜀,杨力,王文贤,朱毅,邵国林,梁刚. 基于图演化事件的主机群异常检测模型[J]. 山东大学学报(理学版), 2018, 53(9): 1-11.
[2] 张帆,罗成,刘奕群,张敏,马少平. 异质搜索环境下的用户偏好性预测方法研究[J]. 山东大学学报(理学版), 2017, 52(9): 26-34.
[3] 唐明伟,苏新宁,蒋勋. RESTful Web服务和知识库协同驱动的突发事件网络舆情实时追踪[J]. 山东大学学报(理学版), 2017, 52(6): 49-55.
[4] 林丽. 基于核心依存图的新闻事件抽取[J]. 山东大学学报(理学版), 2016, 51(9): 121-126.
[5] 朱梦珺,蒋洪迅,许伟. 基于金融微博情感与传播效果的股票价格预测[J]. 山东大学学报(理学版), 2016, 51(11): 13-25.
[6] 刘连新,何伟平,刘郁,金勇. 白藜芦醇类似物热力学性质的构效关系[J]. 山东大学学报(理学版), 2016, 51(11): 79-87.
[7] 李风环, 郑德权, 赵铁军. 基于浅层语义分析的主题事件的时间识别[J]. 山东大学学报(理学版), 2015, 50(11): 74-80.
[8] 何新华, 胡文发, 肖敏. 突发事件下应急服务供应链的期权协同决策[J]. 山东大学学报(理学版), 2015, 50(11): 81-90.
[9] 徐霞, 李培峰, 郑新, 朱巧明. 面向半监督中文事件抽取的事件推理方法[J]. 山东大学学报(理学版), 2014, 49(12): 12-17.
[10] 崔玉泉,李培培,李琳琳. 基于时序模型的股指序列分析[J]. J4, 2013, 48(8): 68-77.
[11] 丁超1,2, 元昌安1,3*, 覃晓1,3. 基于GEP的多数据流预测算法[J]. J4, 2010, 45(7): 50-54.
[12] 丁然 李歧强 梁涛. 具有分解结构的多目的批处理过程短期调度模型[J]. J4, 2010, 45(1): 73-79.
[13] 王莎莎1,陈安2,苏静1,李硕1. 组合预测模型在中国GDP预测中的应用[J]. J4, 2009, 44(2): 56-59.
[14] 吴瑞海 董吉文 段琪庆. 变尺度混沌粒子群与小波的地基沉降预测应用[J]. J4, 2009, 44(11): 75-78.
[15] 邱育锋,张 凌, . 系统S-粗状态规律的推理-预测[J]. J4, 2008, 43(10): 21-26 .
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!