J4 ›› 2013, Vol. 48 ›› Issue (11): 53-58.
于然1,2,刘春阳3*,靳小龙1,王元卓1,程学旗1
YU Ran 1,2, LIU Chun-yang3*, JIN Xiao-long 1, WANG Yuan-zhuo 1, CHENG Xue-qi 1
摘要:
微博中隐含着舆论热点等与特定话题相关的有价值的信息。因此,针对微博数据分析(如话题发现等)的工作成了当前的研究热点。由于微博内容和形式的高度自由,使得相关的研究工作面临着垃圾数据噪声大、有用数据提取难的问题。然而,目前针对非公共话题的中文垃圾微博过滤尚无有效方法。提出一种基于多视角特征融合的垃圾微博过滤方法。该方法首先从微博的结构和内容两个视角建立规则,再与微博文本分词结果进行融合构造复合特征,并以此对垃圾微博进行过滤。通过在真实数据集上的实验表明多视角融合的特征使得过滤效果有明显提升。
中图分类号:
[1] | 刘雅辉1,2,刘春阳3*,张铁赢1,程学旗1. 图索引技术研究综述[J]. J4, 2013, 48(11): 44-52. |
[2] | 郑建兴,张博锋*,岳晓冬,成泽宇. 基于友邻-用户模型的微博主题推荐研究[J]. J4, 2013, 48(11): 59-65. |
[3] | 彭庆喜,钱铁云. 基于量化情感的网店垃圾评论检测[J]. J4, 2013, 48(11): 66-72. |
[4] | 黄亮,杜永萍. 基于信任关系的潜在好友推荐方法[J]. J4, 2013, 48(11): 73-79. |
[5] | 张乃洲1, 曹薇2, 陈珂锐1, 李石君3. 一种基于时间感知的搜索引擎模型[J]. J4, 2013, 48(11): 80-86. |
[6] | 陈珂锐,潘君. 基于扩展特征向量空间模型的 多源数据融合[J]. J4, 2013, 48(11): 87-92. |
[7] | 方志军,刘心韵,伍世虔,郑文娟. 基于子带加权融合的多尺度 Retinex图像增强算法[J]. J4, 2013, 48(11): 93-98. |
[8] | 刘伍颖,易绵竹,张兴. 一种时空高效的多类别文本分类算法[J]. J4, 2013, 48(11): 99-104. |
[9] | 李玉倩 刘林 李金屏. 视频分析中灰度直方图的叠加原理研究[J]. J4, 2009, 44(11): 63-67. |
[10] | 谢桦 林尚垣 任雪芳. 单向粗关系及数据通讯安全[J]. J4, 2009, 44(9): 93-96. |
[11] | 许洁萍1,殷宏宇1,范子文2. 基于近似子乐句的翻唱歌曲识别研究[J]. J4, 2013, 48(7): 68-71. |
|