您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(理学版)》

《山东大学学报(理学版)》 ›› 2019, Vol. 54 ›› Issue (3): 38-45.doi: 10.6040/j.issn.1671-9352.1.2018.149

•   • 上一篇    下一篇

一种用户成长性画像的建模方法

董哲瑾(),王健*(),钱凌飞,林鸿飞   

  1. 大连理工大学计算机科学与技术学院,辽宁 大连 116024
  • 收稿日期:2018-10-17 出版日期:2019-03-01 发布日期:2019-03-19
  • 通讯作者: 王健 E-mail:zd2221@columbia.edu.cn;wangjian@dlut.edu.cn
  • 作者简介:董哲瑾(1995—),女,硕士研究生,研究方向为数据挖掘. E-mail:zd2221@columbia.edu.cn
  • 基金资助:
    国家重点研发计划项目资助(2016YFB1001103)

A modeling method of user growth profile

Zhe-jin DONG(),Jian WANG*(),Ling-fei QIAN,Hong-fei LIN   

  1. Institute of Computer Science and Technology, Dalian University of Technology, Dalian 116024, Liaoning, China
  • Received:2018-10-17 Online:2019-03-01 Published:2019-03-19
  • Contact: Jian WANG E-mail:zd2221@columbia.edu.cn;wangjian@dlut.edu.cn
  • Supported by:
    国家重点研发计划项目资助(2016YFB1001103)

摘要:

用户成长值反映用户粘性,预测用户成长值有助于实现精准营销。聚焦用户成长性画像研究,针对用户原始数据记录复杂多样、难以提取有效特征的问题,通过散点图分析挖掘影响用户成长值的因素,提取行为特征和相对稳定的时间特征,并对比基于树的特征筛选算法和L1范数进行特征筛选。针对已标注成长值的用户数据不足问题,改进COREG算法,通过半监督学习模型丰富训练数据,提高模型的预测准确度,同时降低原算法的时间复杂度,最后采用模型融合整合不同模型的优势。在CSDN博客平台提供的SMP CUP 2017数据集上进行实验,结果表明,建立的模型有效地提高了泛化能力和预测准确度。

关键词: 用户成长值, 用户画像, 特征提取, 半监督回归, 模型融合

Abstract:

User growth value reflects users stickiness, and growth value prediction is important to accurate marketing. This paper focuses on the study of users growth portraits. For problems, disorganized raw data and unpredictable user features, this paper applies scatter diagram analysis to extract behavior features and stable time features influencing the users growth value, and compares two feature selection theories, Tree-based and L1 norm to recognize key features. For the issue of insufficient labeled training dataset, this paper improved the COREG algorithm, enriching labeled dataset through semi-supervised regression, promoting the prediction accuracy, and reducing the algorithms time complexity. Finally, this paper utilizes Stacking method to integrate different models advantages. Experiments based on the data from SMP CUP 2017, provided by the CSDN blog platform, show that the methods proposed in this paper effectively enhances models generalization ability and prediction accuracy.

Key words: user growth value, user profile, feature extraction, semi-supervised regression, ensemble method

中图分类号: 

  • TP391

图1

成长值预测模型框图"

图2

半监督模型的算法"

图3

模型融合框架图"

表1

用户数据内容"

数据类别 数据内容 数据量
用户内容数据 用户发表的博客 1, 000, 000篇文档
用户行为数据 用户发表博客行为 1, 000, 000条记录
用户浏览博客行为 3, 536, 444条记录
用户评论博客行为 182, 273条记录
用户对博客点赞行为 95, 668条记录
用户对博客点踩行为 9, 326条记录
用户收藏博客行为 10, 4723条记录
社交关系数据 用户之间关注关系 667, 037条记录
用户之间私信关系 46, 572条记录
成长值 2016年用户的成长值 1015条记录

图4

用户行为数据记录"

表2

各种模型预测的准确率"

特征 RF SVM kNN ETR GBT
WB 0.743 0.721 0.745 0.751 0.793
L1B 0.570 0.530 0.580 0.567 0.638
TreeB 0.753 0.730 0.754 0.753 0.793
WB+WT 0.770 0.755 0.747 0.761 0.779
TreeB+WT 0.758 0.550 0.533 0.754 0.770
TreeB+TreeT 0.770 0.779 0.756 0.756 0.787
TreeB+TreeT+FkNN 0.767 0.755 0.762 0.761 0.781
TreeB+TreeT+FSVM 0.777 0.779 0.777 0.777 0.786
Stacking+FSVM 0.800

图5

登录时间与成长值的散点分布图"

图6

活跃月数与成长值的散点图"

图7

浏览次数与成长值散点图"

图8

采用SVM模型增加样本的浏览次数与成长值散点图"

表3

半监督学习对应的预测评分(n=1000)"

K RF SVM kNN ETR GBT
0 0.771 0.776 0.766 0.772 0.782
1 0.771 0.776 0.766 0.773 0.782
2 0.765 0.777 0.766 0.766 0.780
3 0.765 0.777 0.766 0.766 0.780
4 0.775 0.774 0.768 0.775 0.786
5 0.774 0.776 0.772 0.772 0.784
6 0.775 0.776 0.771 0.778 0.78
7 0.777 0.779 0.774 0.779 0.786
8 0.775 0.779 0.772 0.777 0.786
9 0.775 0.779 0.771 0.779 0.782
10 0.776 0.779 0.773 0.777 0.782

图9

k值和准确度分布趋势图"

1 CHA M, HADDADI H, BENEVENUTO F, et al. Measuring user influence in twitter: the million follower fallacy[C]// International Conference on Weblogs and Social Media. Washington: ICWSM, 2010.
2 RÄBIGER S , SPILIOPOULOU M . A framework for validating the merit of properties that predict the influence of a twitter user[J]. Expert Systems with Applications, 2015, 42 (5): 2824- 2834.
doi: 10.1016/j.eswa.2014.11.006
3 陈姝, 窦永香, 张青杰. 基于理性行为理论的微博用户转发行为影响因素研究[J]. 情报杂志, 2017, 36 (11): 147- 152, 160.
doi: 10.3969/j.issn.1002-1965.2017.11.023
CHEN Shu , DOU Yongxiang , ZHANG Qingjie . Research on the influential factors of the reposting behavior of microblog users based on the theory of reasoned action[J]. Journal of Information, 2017, 36 (11): 147- 152, 160.
doi: 10.3969/j.issn.1002-1965.2017.11.023
4 SUN Q D , WANG N , ZHOU Y D , et al. Identification of influential online social network users based on multi-features[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2016, 30 (6): 1659015.
doi: 10.1142/S0218001416590151
5 ZHOU Zhihua, LI Ming. Semi-supervised regression with co-training[C]// International Joint Conference on Artificial Intelligence. San Francisco: Morgan Kaufmann Publishers Inc, 2005: 908-913.
6 陈梦秋, 周安民. 基于SVM的新浪热门微博预测[J]. 现代计算机, 2017, (9): 23- 27.
doi: 10.3969/j.issn.1007-1423.2017.09.006
CHEN Mengqiu , ZHOU Anmin . Sina popular microblog prediction based on SVM[J]. Modern Computer, 2017, (9): 23- 27.
doi: 10.3969/j.issn.1007-1423.2017.09.006
7 TZANIS G , BERBERIDIS C , VLAHAVAS I . StackTIS: a stacked generalization approach for effective prediction of translation initiation sites[J]. Computers in Biology and Medicine, 2012, 42 (1): 61- 69.
doi: 10.1016/j.compbiomed.2011.10.009
8 赵青, 薛君. 网络用户粘性行为测评研究[J]. 统计与信息论坛, 2014, 29 (10): 72- 78.
doi: 10.3969/j.issn.1007-3116.2014.10.013
ZHAO Qing , XUE Jun . The evaluation study on the online stickiness behavior of internet user[J]. Statistics & Information Tribune, 2014, 29 (10): 72- 78.
doi: 10.3969/j.issn.1007-3116.2014.10.013
9 MALDONADO S , PÉREZ J , BRAVO C . Cost-based feature selection for support vector machines: an application in credit scoring[J]. European Journal of Operational Research, 2017, 261 (2): 656- 665.
doi: 10.1016/j.ejor.2017.02.037
10 刘建伟, 刘媛, 罗雄麟. 半监督学习方法[J]. 计算机学报, 2015, 38 (8): 1592- 1617.
LIU Jianwei , LIU Yuan , LUO Xionglin . Semi-supervised learning methods[J]. Chinese Journal of Computers, 2015, 38 (8): 1592- 1617.
11 REZWANUL M , ALI A , RAHMAN A . Sentiment analysis on twitter data using KNN and SVM[J]. International Journal of Advanced Computer Science and Applications, 2017, 8 (6): 19- 25.
[1] 陈鑫,薛云,卢昕,李万理,赵洪雅,胡晓晖. 基于保序子矩阵和频繁序列模式挖掘的文本情感特征提取方法[J]. 山东大学学报(理学版), 2018, 53(3): 36-45.
[2] 徐也,徐蔚然. 基于语义特征扩展的知识库增量引文推荐算法[J]. 山东大学学报(理学版), 2016, 51(11): 26-32.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 赵同欣1,刘林德1*,张莉1,潘成臣2,贾兴军1. 紫藤传粉昆虫与花粉多型性研究[J]. 山东大学学报(理学版), 2014, 49(03): 1 -5 .
[2] 郭兰兰1,2,耿介1,石硕1,3,苑飞1,雷丽1,杜广生1*. 基于UDF方法的阀门变速关闭过程中的#br# 水击压强计算研究[J]. 山东大学学报(理学版), 2014, 49(03): 27 -30 .
[3] 李敏1,2,李歧强1. 不确定奇异时滞系统的观测器型滑模控制器[J]. 山东大学学报(理学版), 2014, 49(03): 37 -42 .
[4] 周伟娜,左连翠*. 几类图的笛卡尔积图的(d,1)-全标号[J]. 山东大学学报(理学版), 2014, 49(04): 24 -28 .
[5] 韩亚飞,伊文慧,王文波,王延平,王华田*. 基于高通量测序技术的连作杨树人工林土壤细菌多样性研究[J]. 山东大学学报(理学版), 2014, 49(05): 1 -6 .
[6] 马媛媛, 孟慧丽, 徐久成, 朱玛. 基于粒计算的正态粒集下的格贴近度[J]. 山东大学学报(理学版), 2014, 49(08): 107 -110 .
[7] 徐俊峰. 关于复代数微分方程亚纯解的增长级[J]. J4, 2010, 45(6): 91 -93 .
[8] 丁超1,2, 元昌安1,3*, 覃晓1,3. 基于GEP的多数据流预测算法[J]. J4, 2010, 45(7): 50 -54 .
[9] 吴志军,沈丹丹. 基于信息综合集成共享的下一代网络化全球航班追踪体系结构及关键技术[J]. 山东大学学报(理学版), 2016, 51(11): 1 -6 .
[10] 曲晓英,赵 静 . 含时线性Klein-Gordon方程的解[J]. J4, 2007, 42(7): 22 -26 .