基于BERT-IDCNN-CRF的中文命名实体识别方法

图1 BERT-IDCNN-CRF模型图

Fig.1 The proposed BERT-IDCNN-CRF model

为了提高模型的训练效率，BERT-IDCNN-CRF模型在训练过程中保持BERT层参数不变，只更新上层参数。BERT-IDCNN-CRF模型与传统模型的区别在于用BERT预训练语言模型表征多义性的同时采用IDCNN增强并行性，与此前最优的Lattice-LSTM模型相比，训练效果更好且更省时间，与BERT微调相比训练参数更少，训练效率更高。

1.1 BERT预训练语言模型

语言模型中，句子(w₁, w₂, w₃, …, w_m)的概率计算为

(1) $p\left( S \right) = p\left( {{w_1},{w_2}, \cdots ,{w_m}} \right) = \prod\limits_{i = 1}^m p \left( {{w_i}|{w_1},{w_2}, \cdots ,{w_{i - 1}}} \right)。$

通过训练神经网络语言模型可以获得词的向量表示，但是得到的词向量为固定向量，无法表征字的多义性。BERT预训练语言模型可以得到一个字上下文相关表示，能够表征字的多义性及句子的句法特征等。

BERT模型的结构如图2所示，BERT采用双向Transformer作为编码器，这样每个字的表示能够融合字左、右两边的信息。

图2

图2 BERT预训练语言模型

Fig.2 BERT pre-trained language model

模型输入层是词嵌入、位置嵌入和分割编码的和，在自然语言处理中时序特征是一个很重要的特征，Transformer采用位置嵌入的方式来添加时序信息:

(2) ${\rm{PE}}\left( {{\rm{pos}},2i} \right) = \sin \left( {{\rm{pos}}/{{10000}^{2i/{d_{{\rm{model}}}}}}} \right),$

(3) ${\rm{PE}}\left( {{\rm{pos}},2i + 1} \right) = \cos \left( {{\rm{pos}}/{{10000}^{2i/{d_{{\rm{model}}}}}}} \right),$

式中，序列填充为512个字符，2i表示其中的偶数位，2i+1表示其中的奇数位，d为64。

Transformer编码单元见图3，这是BERT最重要的部分，Transformer完全基于注意力机制来对一段文本进行建模。

图3

图3 Transformer编码单元

Fig.3 Transformer coding unit

编码单元最重要的模块是自注意力部分，见计算公式(4)。输入字向量矩阵为Q、K和V，d_k为输入向量维度，QK^T表示计算输入字向量之间的关系。经过d_k进行缩小之后再通过softmax归一化得到权重表示，最后当前输出为句子中所有词向量的带权和，这样每个词的表示都蕴含了句子中其它词的信息，是上下文相关的，相对于传统词向量表示更加具有全局性。

(4) ${\rm{Attention}}\left( {\mathit{\boldsymbol{Q}},\mathit{\boldsymbol{K}},\mathit{\boldsymbol{V}}} \right) = softmax\left( {\frac{{\mathit{\boldsymbol{Q}}{\mathit{\boldsymbol{K}}^{\rm{T}}}}}{{\sqrt {{d_k}} }}} \right)\mathit{\boldsymbol{V}}。$

此外，Transformer采用了“MultiHead”模式，以增大注意力单元的“表示子空间”，扩展模型专注于不同位置的能力，见公式(5)和(6)，W^O为附加权重矩阵:

(5) ${\rm{MultiHead}}\left( {\mathit{\boldsymbol{Q}},\mathit{\boldsymbol{K}},\mathit{\boldsymbol{V}}} \right) = {\rm{Concat}}\left( {{\rm{hea}}{{\rm{d}}_1}, \cdots ,{\rm{hea}}{{\rm{d}}_k}} \right){\mathit{\boldsymbol{W}}^O},$

(6) ${\rm{hea}}{{\rm{d}}_i} = {\rm{Attention}}\left( {\mathit{\boldsymbol{QW}}_i^\mathit{\boldsymbol{Q}},\mathit{\boldsymbol{KW}}_i^\mathit{\boldsymbol{W}},\mathit{\boldsymbol{VW}}_i^\mathit{\boldsymbol{V}}} \right),$

另外，Transformer中加入了残差网络和层归一化，以改善退化问题：

(7) $LN\left( {{x_i}} \right) = \alpha \times \frac{{{x_i} - {\mu _L}}}{{\sqrt {\sigma _L^2 + \varepsilon } }} + \beta ,$

(8) ${\rm{FFN}} = \max \left( {0,x{W_1} + {b_1}} \right){W_2} + {b_2},$

式中，α和β是需要学习的参数; μ和σ是输入层的均值和方差。

该模型在训练过程中首先构造句子对，构造方法是在规模文本中，选择具有上下文关系的句子对，对其中50%的句子对进行随机替换，使其不具有上下文关系。然后在“Masked语言模型”和“Next句子预测”任务上进行训练，捕捉词级别和句子级别的表示，如图4所示。

图4

图4 模型训练过程

Fig.4 Model training process

与其他语言模型相比，BERT预训练语言模型能够充分利用词左、右两边的信息来获得更好的词分布式表示。

1.2 IDCNN层

膨胀卷积(dilated convolution)是Yu等^[20]在2015年提出的，主要目的是为了增大感受视野。

在经典的卷积神经网络中，卷积核在连续的区域上滑动，而膨胀卷积在经典的卷积之上增加了一个膨胀宽度，在进行卷积操作时会跳过膨胀宽度中间的数据，卷积核的大小保持不变，这样一个同样大小的卷积核就能够获得更广的输入矩阵数据，增大了卷积核的感受视野。膨胀卷积示意图见图5。这3张图分别表示3层叠加的卷积操作，其中图(a)是正常卷积操作，卷积核大小为3×3；图(b)卷积的膨胀宽度为2，在(a)卷积之上，那么感受视野增大为7×7；图(c)中膨胀宽度为4，在(b)卷积操作之上，此时卷积感受视野相当于扩大为15×15。

图5

图5 膨胀卷积示意图

Fig.5 Dilated convolution diagram

膨胀卷积最初是应用在图像处理方面，Strubell等^[17]将膨胀卷积引入自然语言处理领域，提出了IDCNN模型，效果显著。在IDCNN中，感受视野随着层数增加呈现指数增加，但是参数只是线性增加，这样感受域就能够很快地覆盖到全部输入序列。该模型是将4个大小相同的膨胀卷积块叠在一起，每个膨胀卷积块内膨胀宽度为1，1，2这3层。将句子输入IDCNN中，经过卷积层提取特征，再经过映射层连接到CRF层。

IDCNN - CRF整体模型与经典的序列标注模型BiLSTM - CRF相似，但是相对于循环神经网络，IDCNN可以加速GPU并行，减少训练时间。

1.3 CRF层

膨胀卷积层只能抽取语句特征，并对当前标签进行预测，不能考虑标签之间的依赖关系，而条件随机场CRF能够通过考虑标签之间的相邻关系获得全局最优标签序列。

对于给定序列x=(x₁, x₂, x₃, …, x_n)和对应的标签序列y=(y₁, y₂, y₃, …, y_n)，通过IDCNN层之后，经过线性映射可以得到每个标签的得分，

(9) ${P_i} = {W_s}{h^{\left( t \right)}} + {b_s},$

式中：h^(t)是上一层t时刻输入数据x^(t)的输出; W_s和b是线性映射参数。

在此基础上，CRF定义了一个标签转移分数，那么从输入序列到标签序列的得分可以表示为

(10) $s\left( {x,y} \right) = \sum\limits_{i = 1}^n {\left( {{W_{{y_{i - 1}},{y_i}}} + {P_{i,{y_i}}}} \right)} ,$

式中: W是转换矩阵; W _{i, j}表示标签转移分数; P_{i, y_i}表示该字符的第y_i个标签的分数。

W =(W_{u, j})训练集合{x_i, y_i}的最大似然函数为

(11) $L = \sum\limits_{i = 1}^n {\log } \left( {P\left( {{y_i}|{x_i}} \right)} \right) + \frac{\lambda }{2}{\left\| \theta \right\|^2},$

式中：λ和θ是正则化参数; P表示序列原序列到预测序列对应的概率,

(12) $P\left( {y|x} \right) = \frac{{{{\rm{e}}^{s\left( {x,y} \right)}}}}{{\sum\limits_{y \in {Y_x}} {{{\rm{e}}^{s\left( {x,y} \right)}}} }}。$

2 实验及结果分析

2.1 实验数据

本文使用微软公开的命名实体识别MSRA数据集，其中训练集和测试集包含地名、机构名和人名等实体。各类实体统计如表1所示。

表1 实体个数统计

Table 1 Number of entities statistics

数据集	地名	机构名	人名	共计
训练集	36 517	20 571	17 615	74 703
测试集	2 877	1 331	1 973	6 181

2.2 标注策略与评价指标

命名实体识别的标注模式有BIO、BIOE和BIOES等。本实验使用BIO标注模式，待预测的标签一共有7种，分别是“O”“B - PER”“I - PER”“B - ORG”“I - ORG”“B - LOC”和“I - LOC”等。

命名实体识别的衡量指标有精确率P、召回率R和F1值。具体定义如公式(13)所示，其中，T_p为模型识别正确的实体个数，F_p为模型识别到的不相关实体个数，F_n为相关实体但是模型没有检测到的个数。

(13) $\begin{array}{*{20}{c}}{P = \frac{{{T_{\rm{p}}}}}{{{T_{\rm{p}}} + {F_{\rm{P}}}}} \times 100\% ,}\\{R = \frac{{{T_{\rm{p}}}}}{{{T_{\rm{p}}} + {F_{\rm{n}}}}} \times 100\% ,}\\{F1 = \frac{{2PR}}{{P + R}} \times 100\% 。}\end{array}$

2.3 实验过程

实验过程中，对BERT - IDCNN - CRF模型进行调参，主要实验了卷积核个数和卷积层的层数对实验的影响，并记录训练时间。

为了证明模型的有效性，分别与以下模型进行对比：

(1) BiLSTM - CRF模型，该模型是序列标注经典模型。采用预训练好的字向量，基于字的标注，在输入BiLSTM - CRF模型中进行训练。

(2) IDCNN - CRF模型，该模型类似于BiLSTM - CRF模型，将双向LSTM层替换为IDCNN层

(3) Radical - BiLSTM - CRF模型，由Dong等^[5]提出。该模型在BiLSTM - CRF的基础之上融入字根信息。

(4) Lattice - LSTM - CRF模型，由Zhang等^[15]提出，在中文语料上有最佳的抽取效果。

(5) BERT - fine - tuning模型，该模型在英文预料上获得了最好的F1值，实验中将该模型应用到中文语料上测试其效果，并且记录运行时间。

2.4 实验环境

实验过程中涉及到时间统计，给出实验采用的环境如表2所示。

表2 实验环境

Table 2 Experimental setting

操作系统	Ubuntu
CPU	i7-6700HQ@2.60GHz
GPU	GTX 1070 (8 GB)
Python	3.6
Tensorflow	1.12.0
内存	32G

2.5 参数设置

预训练语言模型有BERT - Base和BERT - Large 2种，区别仅在于部分参数不同。本实验使用了BERT - Base预训练语言模型。BERT - Base共12层，隐层768维，采用12头模式，共110M个参数。最大序列长度采用128，train_batch_size为16，learning_rate为5e-5，droup_out_rate为0.5，clip为5；IDCNN中采用的卷积核为3×3，膨胀宽度为1，1，2。

实验中还对IDCNN层的参数的影响进行了探讨，测试了卷积核个数和卷积层数对实验结果的影响。卷积核分别取10，20，50，100进行实验，层数分别取4，6，8进行实验。

2.6 实验结果及分析

BERT -IDCNN-CRF模型随着训练轮数F1值变化如图6所示，测试了不同卷积核个数对模型的影响。BERT -IDCNN-CRF-10中的数字10表示卷积核的个数为10，其他模型以此类推。实验中除卷积核个数外，其它参数保持不变。实验表明随着卷积核的个数的增加，F1值呈现缓慢增加的趋势，其中效果最好的模型为BERT-IDCNN-F100模型，卷积核的个数为100，在第33个epoch的时候达到最大F1值，最大F1值为94.41%。实验中发现，随着卷积核个数的增加，训练时间不会出现明显的变化，这得益于卷积操作在GPU中能够并行计算，缩短了计算时间，其中BERT-IDCNN-F100在第7 128 s时得到最优模型。

图6

图6 BERT-IDCNN-CRF模型F1值变化图

Fig.6 Variation of F1 value in BERT-IDCNN-CRF model

实验中还对膨胀卷积块堆叠层数进行了实验，分别取4，6，8个膨胀卷积块进行实验，卷积核个数保持为100，实验结果随着训练轮数变化如图7。依图所示，随着膨胀卷积块堆叠层数的增加，测试结果反而出现略微下降，主要原因在于最大序列长度为128时，4个膨胀卷积块已经可以感受到句子全局。

图7

图7 不同膨胀卷积块堆叠层数实验结果

Fig.7 Experimental results of stacking layers of different dilated convolution blocks

依据图6和7可知，BERT-IDCNN-CRF模型在卷积核个数取100、膨胀卷积块为4层堆叠时能够取得最佳F1值，最佳F1值为94.41%，训练时间为7 128 s。数据集中3类实体的准确率、召回率和F1值如表3所示。

表3 不同类型命名实体识别结果

Table 3 Recognition results for different types of named entities

Models	Type	P	R	F1
BERT-IDCNN-CRF	LOC	96.32	93.81	95.05
	ORG	88.86	91.06	89.94
	PER	96.95	96.16	96.55
	ALL	94.86	93.97	94.41

其中机构类实体预测准确率偏低，主要原因在于机构名中很多存在地名嵌套、缩略词和歧义等干扰信息。在没有其它充足的上下文时容易预测错误。部分错例见表4，在例句1中，机构名中嵌套了地名，类似的例子还有“洛杉矶市民议政论坛”和“中国东盟”等；在例句2中出现了“委员会”这一缩写，类似的还有“妇联”和“南航”等。

表4 预测错误实例

Table 4 Examples of prediction errors

	句子	中国政府陪同团
例句1	实体	中国政府陪同团-ORG
	预测实体	中国-LOC
	句子	委员会的安全任务更加繁重了
例句2	实体	委员会-ORG
	预测实体	无

为了证明模型的有效性，还在该语料上实验了BERT-fine-tuning模型，实验结果如图8所示。BERT-fine-tuning模型在第18个epoch时得到最优F1值，最优F1值为95.37%，训练时间为24 528 s，远超BERT-IDCNN-CRF的训练时间。

图8

图8 BERT-fine-tuning实验结果

Fig.8 BERT-fine-tuning experimental results

BERT-IDCNN-CRF模型与其它相关工作对比如表5所示。

表5 不同模型命名实体识别结果

Table 5 Named entity recognition results for different models

Models	P	R	F1	Time(ep) /s
BiLSTM-CRF	88.80	87.16	87.97	416
IDCNN-CRF	89.39	84.64	86.95	209
Radical-BiLSTM-CRF	91.28	90.62	90.95	>410
Lattice-LSTM-CRF	93.57	92.79	93.18	7 506
BERT-fine-tuning	94.09	94.54	95.37	1 363
BERT-IDCNN-CRF	94.86	93.97	94.41	216

BERT-IDCNN-CRF模型与IDCNN-CRF模型相比，BERT模型相对于传统的词向量表示F1值能提高6.44%，说明BERT模型有更好的语义信息表达能力。

BERT-IDCNN-CRF模型与Lattice-LSTM模型及Radical-BiLSTM-CRF相比，BERT-IDCNN-CRF模型效果更好，可见BERT的特征抽取能力强，抽取的特征更好，每一轮用时最少，说明该模型训练效率高。

BERT-IDCNN-CRF模型与BERT-fine-tuning模型相比，BERT-IDCNN-CRF的F1值比BERT-fine-tuning的略低，但是所需要的训练时间大幅度减少，从24 528 s减少到7 128 s。时间减少的原因在于训练参数的减少，BERT预训练语言模型的参数个数超过1亿，BERT-fine-tuning更新BERT层的所有参数，但是BERT-IDCNN-CRF模型固定BERT层参数，只更新上层参数，IDCNN的参数个数为3×768×100+3×100×100×3×4=590 400，训练参数量的大幅度减少使得训练时间减少。

3结束语

针对BERT微调模型训练参数量大、训练时间长的问题，提出了BERT-IDCNN-CRF模型，该模型表征语句特征的能力更强。实验表明BERT-IDCNN-CRF模型优于目前最优的Lattice-LSTM模型，提升了中文命名实体识别的效果。该模型应用了膨胀卷积，与基于BERT微调的模型相比减少了训练参数，可以大幅度缩短训练时间。将该模型应用于信息安全、电网电磁环境领域的敏感实体识别，速度更快，响应更及时。

BERT-IDCNN-CRF模型的缺点是，在上下文信息不足，有歧义实体和实体嵌套时，较难正确抽取，因此还有待进一步研究。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

HAMMERTON J. Named entity recognition with long short-term memory[C]// Conference on Natural Language Learning at HLT-NAACL. NJ: Association for Computational Linguistics, 2003.

[2]

LAMPLE G, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition[J/OL]. arXiv: 1603.01360[cs]. 2016.

[3]

MA X, HOVY E. End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[J/OL]. arXiv: 1603.01354[cs]. 2016.

[4]

CHIU

J P C

, NICHOLS

Named entity recognition with bidirectional LSTM-CNNs

[J]. Transactions of the Association for Computational Linguistics, 2016, (4): 357- 370.

URL [本文引用: 1]

[5]

DONG

C H

, ZHANG

J J

, ZONG

C Q

, et al.

Character-based LSTM-CRF with radical-level features for Chinese named entity recognition[M]. Cham: Springer, 2016: 239- 250.

[本文引用: 2]

[6]

HE J, WANG H. Chinese named entity recognition and word segmentation based on character[C]// Proceedings of the Sixth SIGHAN Workshop on Chinese Language Processing.[S.l.]: [s.n.], 2008.

[7]

LIU Z X, ZHU C H, ZHAO T J. Chinese named entity recognition with a sequence labeling approach: based on characters, or based on words?[M]//Advanced Intelligent Computing Theories and Applications. With Aspects of Artificial Intelligence. Berlin: Springer, 2010: 634-640.

[8]

LI H, HAGIWARA M, LI Q, et al. Comparison of the impact of word segmentation on name tagging for Chinese and Japanese[C]// LREC.[S.l.]: [s.n.], 2014: 2532-2536.

[9]

CHEN W, ZHANG Y, ISAHARA H. Chinese named entity recognition with conditional random fields[C] // Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing.[S.l.]: [s.n.], 2006: 118-121.

[10]

LU Y, ZHANG Y, and JI D. Multi-prototype Chinese character embedding[C]// LREC, Berlin: Springer, 2016.

[11]

ZHOU

J S

, QU

W G

, ZHANG

Chinese named entity recognition via joint identification and categorization

[J]. Eleetron, 2013, (22): 225- 230.

URL [本文引用: 1]

[12]

ZHAO H, KIT C. Unsupervised segmentation helps supervised learning of character tagging for word segmentation and named entity recognition[C]// Proceedings of the Sixth SIGHAN Workshop on Chinese Language Processing. Berlin: Springer, 2008.

[13]

PENG N, DREDZE M. Named entity recognition for Chinese social media with jointly trained embeddings[C] // Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. PA: Association for Computational Linguistics, 2015: 548-554.

[14]

HE H, SUN X. F-Score driven max margin neural network for named entity recognition in Chinese social media[J/OL]. arXiv: 1611.04234[cs], 2016.

[15]

ZHANG Y, YANG J. Chinese NER using lattice LSTM[J/OL]. arXiv: 1805.02023[cs], 2018.

[本文引用: 2]

[16]

COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J/OL]. arXiv: 1103.0398[cs]. 2011.

[17]

STRUBELL E, VERGA P, Belanger D, et al. Fast and accurate entity recognition with iterated dilated convolutions[J/OL]. arXiv: 1702.02098[cs], 2017.

[本文引用: 2]

[18]

REI M. Semi-supervised multitask learning for sequence labeling[J/OL]. arXiv: 1704.07156[cs], 2017.

[19]

DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J/OL]. arXiv: 1810.04805[cs], 2018.

[20]

YU F, KOLTUN V. Multi-scale context aggregation by dilated convolutions[J/OL]. arXiv: 1511.07122[cs], 2015.