您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(理学版)》

《山东大学学报(理学版)》 ›› 2019, Vol. 54 ›› Issue (3): 56-66.doi: 10.6040/j.issn.1671-9352.1.2018.100

•   • 上一篇    下一篇

融合多源异构网络信息的标签推荐方法

包恒泽(),周栋*(),吴谈   

  1. 湖南科技大学计算机科学与工程学院,湖南 湘潭 411201
  • 收稿日期:2018-10-17 出版日期:2019-03-01 发布日期:2019-03-19
  • 通讯作者: 周栋 E-mail:2275050078@qq.com;dongzhou1979@hotmail.com
  • 作者简介:包恒泽(1993—),男,硕士研究生,研究方向为信息检索、自然语言处理. E-mail:2275050078@qq.com
  • 基金资助:
    国家自然科学基金资助项目(61876062);湖南省自然科学基金资助项目(2017JJ2101);湖南省教育厅科研项目(16K030)

Tag recommendation with multi-source heterogeneous networked information

Heng-ze BAO(),Dong ZHOU*(),Tan WU   

  1. School of Computer Science and Engineering, Hunan University of Science and Technology, Xiangtan 411201, Hunan, China
  • Received:2018-10-17 Online:2019-03-01 Published:2019-03-19
  • Contact: Dong ZHOU E-mail:2275050078@qq.com;dongzhou1979@hotmail.com
  • Supported by:
    国家自然科学基金资助项目(61876062);湖南省自然科学基金资助项目(2017JJ2101);湖南省教育厅科研项目(16K030)

摘要:

标签通常被广泛地应用于标注各种在线资源,例如文章、图像、电影等,其主要目的是便于用户理解以及高效地管理和检索海量网络资源。因为人工对这些海量资源进行标注十分繁琐且耗时,所以自动化标签推荐技术被广泛关注。目前大部分标签推荐方法主要通过挖掘资源的内容信息进行推荐。然而,现实世界中很多数据信息并非独立存在,如文献数据通过相互引用关系而形成复杂的网络结构。研究表明,资源的拓扑结构信息和文本内容信息可分别从2个不同角度对同一资源的语义特征进行概括,并且从2个方面观察到的信息可以互为补充和解释。基于此,提出一种同时对资源内容信息和资源网络拓扑结构信息进行统一建模的概率主题模型和标签推荐方法。该方法通过结合标签和资源内容之间的标注关系以及资源之间的链接关系等多源异构信息,去挖掘资源潜在的语义信息为新的资源推荐若干功能语义相近的标签。

关键词: 标签, 标签推荐, 主题模型, 异构网络

Abstract:

Tags have been utilized extensively to associate various online resources, such as articles, images and movies, aiming at helping users understand and facilitate the process of managing and indexing huge web resources. Since it is time-consuming and prone for errors to create manual tags for these resources, automatic tag recommendation techniques have attracted widespread attention. At present, most tag recommendation methods mainly recommend tags by mining content information of resources. However, Most data information in the real world do not exist independently. For example, science articles have a complex network structure by referencing each other. The research show that the topology information and text content information of resources describe the similar semantic features of re-sources from two different perspectives, and the information from two aspects can complement and explain for each other. Based on this, we propose a probabilistic topic model and a tag recommendation method for simultaneously modeling content information and topology structure information of resource. This method uses multi-source heterogeneous information, such as tagging relationship between tag and resource content and link relationship between resources to mine potential semantic information of the resources to recommend several tags with similar functional semantics for the new resources. The experimental results on two real data sets prove the effectiveness of our proposed method.

Key words: tag, tag recommendation, topic model, heterogeneous network

中图分类号: 

  • TP391

图1

CiteULike网站中的一篇文章实例"

图2

使用标签“mesophase”和“petroleum”进行搜索的结果"

表1

常用符号及其含义说明"

符号 含义说明
C 表示文章C
C 表示文章C
W(c) 表示文章C的文本内容
W(c′) 表示文章C′的文本内容
θ(c) 表示W(c)的主题分布向量
θ(c′) 表示W(c′)的主题分布向量
T 表示模型中主题的数量
W 语料库中词汇数量
Wt 语料库中标签数量
ϕ 维度为W的向量表示主题下词的分布
ϕt 维度为Wt的向量表示主题下标签的分布
N 根据文章间相似性选择与候选文章相似度最高的N篇文章
M 通过标签过滤算法选出得分最高的M个标签
S 未排序的待推荐标签集
S 排序后的待推荐标签集

图3

TRTM模型"

图4

标签推荐执行框架"

表2

详细数据信息"

数据集 数据 数量
citeulike-a 文章 16980
标签 19107
移除使用次数少于5次后剩余标签 7450
引用关系 294072
citeulike-t 文章 25975
标签 52946
移除使用次数少于5次后剩余标签 8311
引用关系 180103

图5

主题数T和迭代次数Iter改变时前50个标签的召回率"

图6

Citeulike-a上的实验结果 (a)设置P=5时所有方法的Recall@M,(b) P=5时M和N的最佳对应关系,(c)不同密度的训练数据集中各基线方法的Recall@10,(d)不同密度的训练数据集中各基线方法的Recall@50。"

图7

Citeulike-t上的实验结果 (a)设置P=5时所有方法的Recall@M,(b) P=5时M和N的最佳对应关系,(c)不同密度的训练数据集中各基线方法的Recall@10,(d)不同密度的训练数据集中各基线方法的Recall@50。"

图8

Citeulike-a上的实验结果 (a)使用增强余弦相似度公式(λ =2)后Recall@M的提升,(b)比较使用和不使用标签过滤算法Recall@M的变化,(c)参数λ对Recall@50的影响,(d)参数μ对Recall@50的影响。"

图9

Citeulike-t上的实验结果 (a)使用增强余弦相似度公式(λ =2)后Recall@M的提升,(b)比较使用和不使用标签过滤算法Recall@M的变化,(c)参数λ对Recall@50的影响,(d)参数μ对Recall@50的影响。"

表3

对文章推荐标签的实例"

模型 主题最相近文章 推荐标签 正确标签
RTM “an efficient algorithm to rank web resources”
“rank algorithm web graph link”
“searching social networks”
“thermal barrier coatings for gas-turbine engine applications”
pager,resource,scale,web,rank,search,citation,engine,hyperlink,application web, rank, engine
TRTM “the anatomy of a large scale hyper textual web search engine”
“an overview of audio information retrieval”
“pager citation ranking bringing order to web”
“searching social networks”
engine,retrieval,link,hyperlink,search,citation,rank,web,relevance,citation engine,link,search,rank,web
1 王梦恬, 魏晶晶, 廖祥文, 等. 融合评论标签的个性化推荐算法[J]. 计算机科学与探索, 2016, 10 (10): 1429- 1438.
WANG Mengtian , WEI Jingjing , LIAO Xiangwen , et al. Personalized recommendation algorithm fusing comment tag[J]. Journal of Frontiers of Computer Science & Technology, 2016, 10 (10): 1429- 1438.
2 BELÉM F M , ALMEIDA J M , GONALVES M A . A survey on tag recommendation methods[J]. Journal of the Association for Information Science and Technology, 2017, 68 (4): 830- 844.
doi: 10.1002/asi.23736
3 ZHAO W , GUAN Z Y , LIU Z . Ranking on heterogeneous manifolds for tag recommendation in social taggingservices[J]. Neurocomputing, 2015, 148: 521- 534.
doi: 10.1016/j.neucom.2014.07.011
4 BENZARTI M A, CHIDLOVSKⅡ B, VIJAYAKUMAR N. Local metric learning for tag recommendation in social networks using indexing.: US, 9600826[P], 2017.
5 GUO Z , ZHANG Z M , ZHU S H , et al. A two-level topic model towards knowledge discovery from citation networks[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26 (4): 780- 794.
doi: 10.1109/TKDE.2013.56
6 WEST J D , WESLEY-SMITH I , BERGSTROM C T . A recommendation system based on hierarchical clustering of an article-level citation network[J]. IEEE Transactions on Big Data, 2016, 2 (2): 113- 123.
doi: 10.1109/TBDATA.2016.2541167
7 WANG M , NI B B , HUA X S , et al. Assistive tagging: a survey of multimedia tagging with human-computer joint exploration[J]. ACM Computing Surveys, 2012, 44 (4): 1- 24.
8 褚晓敏, 王中卿, 朱巧明, 等. 基于简介和评论的标签推荐方法研究[J]. 中文信息学报, 2015, 29 (6): 179- 184.
doi: 10.3969/j.issn.1003-0077.2015.06.024
CHU Xiaomin , WANG Zhongqing , ZHU Qiaoming , et al. Tag recommendation with summary and comment information[J]. Journal of Chinese Information Processing, 2015, 29 (6): 179- 184.
doi: 10.3969/j.issn.1003-0077.2015.06.024
9 LIU Z, CHEN X, SUN M. A simple word trigger method for social tag suggestion[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing. Edinburgh: Association for Computational Linguistics, 2011: 1577-1588.
10 BELÉM F M , MARTINS E F , ALMEIDA J M , et al. Personalized and object-centered tag recommendation methods for Web 2.0 applications[J]. Information Processing & Management, 2014, 50 (4): 524- 553.
11 LI W, YEUNG D Y. Social relations model for collaborative filtering[C]// Proceedings of the Twenty-fifth AAAI Conference on Artificial Intelligence. San Francisco: AAAI Press, 2011: 803-808.
12 LOPS P , DE GEMMIS M , SEMERARO G , et al. Content-based and collaborative techniques for tag recommendation: an empirical evaluation[J]. Journal of Intelligent Information Systems, 2013, 40 (1): 41- 61.
doi: 10.1007/s10844-012-0215-6
13 BAO Y, FANG H, ZHANG J. TopicMF: simultaneously exploiting ratings and reviews for recommendation[C]// Proceedings of the Twenty-eighth AAAI Conference on Artificial Intelligence. Québeca: AAAI Press, 2014: 2-8.
14 BURKE R, VAHEDIAN F, MOBASHER B. Hybrid recommendation in heterogeneous networks[C]// Proceedings of the International Conference on User Modeling, Adaptation, and Personalization. Aalborg: Springer, 2014: 49-60.
15 AN S, ZHAO Z, ZHOU H. Research on an agent-based intelligent social tagging recommendation system[C]// Proceedings of International Conference on Intelligent Human-Machine Systems and Cybernetics. Hangzhou: IEEE, 2017: 43-46.
16 闫俊, 刘文飞, 林鸿飞. 基于标签混合语义空间的音乐推荐方法研究[J]. 中文信息学报, 2014, 28 (4): 117- 122.
doi: 10.3969/j.issn.1003-0077.2014.04.016
YAN Jun , LIU Wenfei , LIN Hongfei . Music recommendation study based on tags multi-space[J]. Journal of Chinese Information Processing, 2014, 28 (4): 117- 122.
doi: 10.3969/j.issn.1003-0077.2014.04.016
17 于洪, 邓明瑶, 胡峰. 考虑用户标注状态的标签推荐方法[J]. 模式识别与人工智能, 2014, 27 (8): 673- 682.
doi: 10.3969/j.issn.1003-6059.2014.08.001
YU Hong , DENG Mingyao , HU Feng . Tag recommendation method considering users tagging status[J]. Pattern Recognition and Artificial Intelligence, 2014, 27 (8): 673- 682.
doi: 10.3969/j.issn.1003-6059.2014.08.001
18 WANG H, SHI X, YEUNG D Y. Relational stacked denoising autoencoder for tag recommendation[C]// Proceedings of the Twenty-ninth AAAI Conference on Artificial Intelligence. Austin: AAAI Press, 2015: 3052-3058.
19 KRESTEL R, FANKHAUSER P, NEJDL W. Latent dirichlet allocation for tag recommendation[C]// Proceedings of the third ACM conference on Recommender systems. New York: ACM, 2009: 61-68.
20 SI X , SUN M . Tag-LDA for scalable real-time tag recommendation[J]. Journal of Computational Information Systems, 2008, 6 (1): 1- 8.
21 CHANG J, BLEI D M. Relational topic models for document networks[C]// Proceedings of the 12th International Conference on Artificial Intelligence and Statistics. Florida: JMLR, 2009: 81-88.
22 WANG H, CHEN B, LI W J. Collaborative topic regression with social regularization for tag recommendation[C]// Proceedings of the Twenty-third International Joint Conference on Artificial Intelligence. Beijing: AAAI Press, 2013: 2719-2725.
[1] 王雪梅,陈兴蜀,王海舟,王文贤. 基于标签和分块特征的新闻网页关键信息自动抽取[J]. 《山东大学学报(理学版)》, 2019, 54(3): 67-74.
[2] 杜漫,徐学可,杜慧,伍大勇,刘悦,程学旗. 面向情绪分类的情绪词向量学习[J]. 山东大学学报(理学版), 2017, 52(7): 52-58.
[3] 张新猛, 蒋盛益, 张倩生, 谢柏林, 李霞. 基于用户偏好加权的混合网络推荐算法[J]. 山东大学学报(理学版), 2015, 50(09): 29-35.
[4] 马宇峰, 阮彤. 基于LDA及标签传播的实体集合扩展[J]. 山东大学学报(理学版), 2015, 50(03): 20-27.
[5] 郑妍, 庞琳, 毕慧, 刘玮, 程工. 基于情感主题模型的特征选择方法[J]. 山东大学学报(理学版), 2014, 49(11): 74-81.
[6] 王少鹏, 彭岩, 王洁. 基于LDA的文本聚类在网络舆情分析中的应用研究[J]. 山东大学学报(理学版), 2014, 49(09): 129-134.
[7] 焦潞林, 彭岩, 林云. 面向网络舆情的文本知识发现算法对比研究[J]. 山东大学学报(理学版), 2014, 49(09): 62-68.
[8] 刘璇1,许洁萍1*,陈捷2. 以Web标签为基础的相似歌曲研究[J]. J4, 2012, 47(5): 53-58.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 杨永伟1,2,贺鹏飞2,李毅君2,3. BL-代数的严格滤子[J]. 山东大学学报(理学版), 2014, 49(03): 63 -67 .
[2] 王开荣,高佩婷. 建立在DY法上的两类混合共轭梯度法[J]. 山东大学学报(理学版), 2016, 51(6): 16 -23 .
[3] 裴胜玉,周永权*. 一种基于混沌变异的多目标粒子群优化算法[J]. J4, 2010, 45(7): 18 -23 .
[4] 杜吉祥1,2,余庆1,翟传敏1. 基于稀疏性约束非负矩阵分解的人脸年龄估计方法[J]. J4, 2010, 45(7): 65 -69 .
[5] 薛秋芳1,2,高兴宝1*,刘晓光1. H-矩阵基于外推GaussSeidel迭代法的几个等价条件[J]. J4, 2013, 48(4): 65 -71 .
[6] 王 兵 . 拟无爪图的性质[J]. J4, 2007, 42(10): 111 -113 .
[7] 于少伟. 基于云理论的新的不确定性推理模型研究[J]. J4, 2009, 44(3): 84 -87 .
[8] 王琦,赵红銮 . Split完全图的最小直径定向[J]. J4, 2006, 41(6): 84 -86 .
[9] 曲守宁,付爱芳,李静,刘静. 基于柔性神经树模型的股票市场风险预测[J]. J4, 2009, 44(11): 44 -47 .
[10] 张方国. 椭圆曲线在密码中的应用:过去,现在,将来…[J]. J4, 2013, 48(05): 1 -13 .