您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(理学版)》

《山东大学学报(理学版)》 ›› 2021, Vol. 56 ›› Issue (1): 83-90.doi: 10.6040/j.issn.1671-9352.4.2020.131

•   • 上一篇    下一篇

基于Arc-LSTM的人职匹配研究

徐菲菲1(),许赟杰2   

  1. 1. 上海电力学院计算机科学与技术学院, 上海 200090
    2. 上海航空工业(集团)有限公司流程与IT平台软件开发BU, 上海 200232
  • 收稿日期:2020-06-15 出版日期:2021-01-01 发布日期:2021-01-05
  • 作者简介:徐菲菲(1983—), 女, 博士, 副教授, 研究方向为粗糙集、三支决策.E-mail: xufeifei1983@hotmail.com
  • 基金资助:
    上海市自然科学基金资助项目(19ZR1420800)

Research on matching resumes and positions based on Arc-LSTM

Fei-fei XU1(),Yun-jie XU2   

  1. 1. College of Computer Science and Technology, Shanghai University of Electric Power, Shanghai 200090, China
    2. Process and IT Platform Software Development BU, COMAC Shanghai Aviation Industrial(Group), Shanghai 200232, China
  • Received:2020-06-15 Online:2021-01-01 Published:2021-01-05

摘要:

提出了一种基于改进的长短时记忆神经网络(Arc-LSTM)和词嵌入(Word2Vec)模型相结合的自动匹配方法。首先采用连续词袋(continuous bag of words, CBOW)模型提取中文简历文本特征, 从而构建词向量, 提出一种基于ArcReLU激活函数和LSTM深度神经网络优化的Arc-LSTM网络, 利用该网络构建分类模型, 实现文本分类。实验证明, 提出的模型能有效地提高分类精度和收敛速度, 实现中文简历和职位的精准匹配。

关键词: 深度学习, 激活函数, 人职匹配, ArcReLU, Arc-LSTM

Abstract:

An automatic scheme is proposed, which combines the deep neural network Arc-LSTM with Word2Vec model. In this paper, the CBOW model is used to extract resume text features. A new deep neural network, Arc-LSTM is put forward, which is optimized by ArcReLU. The experimental results show that Arc-LSTM can effectively improve the classification accuracy and convergence speed, and achieve the exact match between Chinese resumes and positions.

Key words: deep learning, activation function, job matching, ArcReLU, Arc-LSTM

中图分类号: 

  • TP18

图1

ArcReLU激活函数"

图2

Arc-LSTM结构图"

表1

简历类别"

职位类别 职位名称
管理及产品岗 数据总监, 分析挖掘, 算法、平台研发
算法工程 推荐系统, 搜索排序, 语音语义, 计算机视觉, 自动驾驶, 深度学习, 卫星导航, 机器人, 通信算法, 其他
数据分析 商业、经营分析, 用户、产品分析, 统计分析, 数据挖掘, 广告, 风控, 量化
数据开发 数仓架构, 大数据ETL, 传统ETL, 大数据开发
平台架构 大数据架构, 平台工具开发, 大数据运维

表2

数据集"

数据集 条目数 属性 决策属性
Car Evaluation 1 728 buying, maint, doors, persons, lug-boot, safety class values
Adult 9 502 age, workclass, fnlwgt, education, marital-status, relationship, race sex
Avila 12 647 intercolumnar distance, upper margin, lower margin, exploitation, row number, modular ratio, interlinear spacing, weight, peak number class

表3

字典映射"

实际标题 映射类别
名字 姓名
姓名 姓名
性别 性别
工作地点 城市
工作经验 经验
工作经历 经验
出生日期 年龄
教育背景 教育背景
教育情况 教育背景

图3

中文简历样本"

图4

CBOW模型"

图5

词向量训练结果"

表4

各模型计算消耗"

No LSTM Re-LSTM Arc-LSTM
1 0:04:14.76 0:03:58.32 0:04:18.14
2 0:05:37.39 0:05:15.26 0:05:31.86
3 0:05:02.01 0:05:16.63 0:05:25.29
4 0:05:10.52 0:05:01.50 0:05:18.12
5 0:05:01.46 0:04:57.82 0:05:02.50
6 0:05:16.82 0:05:05.30 0:05:20.50
7 0:05:13.66 0:05:03.84 0:05:16.57
8 0:05:13.38 0:05:00.40 0:05:17.63
9 0:05:19.55 0:05:13.35 0:05:21.16
10 0:05:17.39 0:04:59.50 0:05:16.65
AVG 0:05:08.69 0:04:59.19 0:05:12.84

图6

ROC比较图"

表5

各模型AUC"

评判指标 LSTM Re-LSTM Arc-LSTM
AUC 0.789 1 0.799 8 0.834 4

表6

各模型分类精度均值"

评判指标 LSTM Re-LSTM Arc-LSTM
训练精度均值 77.39 77.98 79.42
测试精度均值 76.50 77.54 79.22

表7

各模型计算消耗"

No LSTM Re-LSTM Arc-LSTM
1 0:13:30.83 0:12:04.69 0:13:36.12
2 0:13:57.20 0:13:06.58 0:12:37.52
3 0:13:00.34 0:12:14.62 0:13:15.56
4 0:15:09.22 0:14:07.00 0:16:32.00
5 0:13:49.67 0:13:15.03 0:14:16.82
6 0:14:51.88 0:13:50.40 0:12:45.10
7 0:14:37.62 0:14:01.51 0:13:17.88
8 0:14:48.64 0:14:01.78 0:14:40.52
9 0:16:17.18 0:16:25.57 0:16:55.70
10 0:15:20.20 0:15:31.25 0:16:14.50
AVG 0:15:22.79 0:13:51.84 0:14:24.20

图7

ROC比较图"

表8

各模型AUC"

评判指标 LSTM Re-LSTM Arc-LSTM
AUC 0.793 1 0.804 8 0.815 1

表9

各模型分类精度均值"

评判指标 LSTM Re-LSTM Arc-LSTM
训练精度均值 77.19 78.41 80.18
测试精度均值 77.12 78.23 79.74

表10

各模型计算消耗"

No LSTM Re-LSTM Arc-LSTM
1 0:59:15.31 0:57:52.23 0:58:19.54
2 0:56:59.87 0:54:82.63 0:55:09.32
3 1:12:32.65 1:11:43.98 1:12:13.55
4 0:06:21.82 1:02:51.02 1:04:02.02
5 1:06:14.37 1:02:00.46 1:05:08.46
6 0:54:07.49 0:52:07.87 0:52:29.16
7 0:53:44.59 0:51:32.24 0:56:51.12
8 0:52:35.66 0:49:16.91 0:52:32.26
9 0:56:21.39 0:54:33.67 0:55:39.54
10 1:13:36.99 1:10:53.54 1:11:43.56
AVG 1:01:17.54 0:58:49.08 0:59:69.85

图8

ROC比较图"

表11

各模型AUC"

评判指标 LSTM Re-LSTM Arc-LSTM
AUC 0.742 3 0.755 2 0.773 7

表12

各模型分类精度均值"

评判指标 LSTM Re-LSTM Arc-LSTM
训练精度均值 75.66 76.69 78.94
测试精度均值 75.05 76.59 78.37

表13

各模型实验结果"

算法 准确率 召回率 F1值
LSTM 76.68 67.26 71.21
Re-LSTM 81.41 71.43 73.51
Arc-LSTM 87.83 76.15 77.18
1 KATZ B, LIN J. Selectively using relations to improve precision in question answering[C]//Proceedings of the EACL-2003 Workshop on Natural Language Processing for Question Answering. Budapest: EACL, 2003: 43-50.
2 朱倩, 程显毅, 韩飞. 汉语句子语义三维表示模型[J]. 智能系统学报, 2009, 4 (2): 122- 130.
ZHU Qian , CHENG Xianyi , HAN Fei . A three-dimensional representative model of Chinese sentence semantics[J]. CAAI Transactions on Intelligent Systems, 2009, 4 (2): 122- 130.
3 张宜浩, 朱小飞, 徐传运, 等. 基于用户评论的深度情感分析和多视图协同融合的混合推荐方法[J]. 计算机学报, 2019, 42 (6): 1316- 1333.
ZHANG Yihao , ZHU Xiaofei , XU Chuanyun , et al. Hybrid recommendation approach based on deep sentiment analysis of user reviews and multi-view collaborative fusion[J]. Chinese Journal of Computers, 2019, 42 (6): 1316- 1333.
4 GULCEHRE C, MOCZULSKI M, DENIL M, et al. Noisy activation functions[C]//Proceedings of the 33rd International Conference on Machine Learning. New York: ICML, 2016.
5 GOMAR S, MIRHASSANI M, AHMADI M. Precise digital implementations of hyperbolic tanh and sigmoid function[C]//Conference on Signals, Systems & Computers. Alberta: IEEE, 2016: 1586-1589.
6 廖祥文, 陈泽泽, 桂林, 等. 基于多任务迭代学习的论辩挖掘方法[J]. 计算机学报, 2019, 42 (7): 1524- 1538.
LIAO Xiangwen , CHEN Zeze , GUI Lin , et al. An argumentation mining method based on multi-task iterative learning[J]. Chinese Journal of Computers, 2019, 42 (7): 1524- 1538.
7 许赟杰, 徐菲菲. 基于ArcReLU函数的神经网络激活函数优化研究[J]. 数据采集与处理, 2019, 34 (3): 517- 529.
XU Yunjie , XU Feifei . Optimization of activation function in neural network based on ArcReLU function[J]. Journal of Data Acquisition & Processing, 2019, 34 (3): 517- 529.
8 WU H . Global stability analysis of a general class of discontinuous neural networks with linear growth activation functions[J]. Information Sciences, 2009, 179 (19): 3432- 3441.
doi: 10.1016/j.ins.2009.06.006
9 李亚超, 熊德意, 张民. 神经机器翻译综述[J]. 计算机学报, 2018, 41 (12): 2734- 2755.
doi: 10.11897/SP.J.1016.2018.02734
LI Yachao , XIONG Deyi , ZHANG Min . A survey of neural machine translation[J]. Chinese Journal of Computers, 2018, 41 (12): 2734- 2755.
doi: 10.11897/SP.J.1016.2018.02734
10 陈建廷, 向阳. 深度神经网络训练中梯度不稳定现象研究综述[J]. 软件学报, 2018, 29 (7): 2071- 2091.
CHEN Jianting , XIANG Yang . Survey of unstable gradients in deep neural network training[J]. Journal of Software, 2018, 29 (7): 2071- 2091.
[1] 郝长盈,兰艳艳,张海楠,郭嘉丰,徐君,庞亮,程学旗. 基于拓展关键词信息的对话生成模型[J]. 《山东大学学报(理学版)》, 2019, 54(7): 68-76.
[2] 刘飚,路哲,黄雨薇,焦萌,李泉其,薛瑞. 神经网络结构在功耗分析中的性能对比[J]. 《山东大学学报(理学版)》, 2019, 54(1): 60-66.
[3] 刘明明,张敏情,刘佳,高培贤. 一种基于浅层卷积神经网络的隐写分析方法[J]. 山东大学学报(理学版), 2018, 53(3): 63-70.
[4] 庞博,刘远超. 融合pointwise及深度学习方法的篇章排序[J]. 山东大学学报(理学版), 2018, 53(3): 30-35.
[5] 刘铭, 昝红英, 原慧斌. 基于SVM与RNN的文本情感关键句判定与抽取[J]. 山东大学学报(理学版), 2014, 49(11): 68-73.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
[1] 秦兆宇,刘师莲*,杨银荣,刘芙君,李建远,宋春华 . 白斑综合征中国对虾肝胰腺蛋白质组学研究的技术探索[J]. J4, 2007, 42(7): 5 -08 .
[2] 张方国. 椭圆曲线在密码中的应用:过去,现在,将来…[J]. J4, 2013, 48(05): 1 -13 .
[3] 薛岩波 杨波 陈贞翔. 小波分析在土木工程结构健康监测系统中的应用研究[J]. J4, 2009, 44(9): 28 -31 .
[4] 丁 梅,冯俊娥,王志宏 . 带限制条件的最短时间渡江问题[J]. J4, 2007, 42(3): 23 -28 .
[5] 贺晓丽,伏文清,李生刚 . L-预拓扑空间的局部连通性[J]. J4, 2007, 42(8): 58 -61 .
[6] 邢建民 . 正则半群上的LR-正规orthogroup同余[J]. J4, 2006, 41(1): 41 -44 .
[7] 于文广1,黄玉娟2. 干扰条件下变破产下限多元风险模型的破产概率[J]. J4, 2011, 46(3): 58 -62 .
[8] 丁卫平1,2,3,王建东2,段卫华2,施佺1. 一种求解属性约简优化的协同粒子群算法[J]. J4, 2011, 46(5): 97 -102 .
[9] 宋霞1,2,刘保东1*,张全信2. 一类二阶非线性摄动微分方程解的渐近性质[J]. J4, 2009, 44(2): 19 -23 .
[10] 朱丽萍, 李洪奇, 杨中国, 刘蔷. 一种面向科技文献引言的信息抽取方法[J]. 山东大学学报(理学版), 2015, 50(07): 23 -30 .