您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(理学版)》

山东大学学报(理学版) ›› 2014, Vol. 49 ›› Issue (1): 76-79.doi: 10.6040/j.issn.1671-9352.1.2013.213

• 论文 • 上一篇    下一篇

基于条件随机场的越南语命名实体识别方法

潘清清,周枫,余正涛,郭剑毅,线岩团   

  1. 昆明理工大学信息工程与自动化学院,云南 昆明 650500
  • 收稿日期:2013-09-02 出版日期:2014-01-20 发布日期:2014-01-15
  • 作者简介:潘清清(1989- ),男,硕士研究生,研究方向为自然语言处理.Email: pqqkmust@163.com
  • 基金资助:

    国家自然科学基金资助项目(61262041)

Recognition method of Vietnamese named entity based on#br# conditional random fields

PAN Qing-qing, ZHOU Feng, YU Zheng-tao, GUO Jian-yi, XIAN Yan-tuan   

  1. School of Information Engineering and Automation, Kunming University of Science and Technology,
  • Received:2013-09-02 Online:2014-01-20 Published:2014-01-15

摘要:

针对越南语特点,提出一种基于条件随机场模型的越语命名实体识别方法。该方法针对越语词和词性的特点,采用条件随机场算法,选取词和词性作为特征,定义特征模版,选取越南语新闻文本,标记地名、人名、组织机构等6类实体语料,训练获得越南语实体识别模型,实现实体识别。实验结果表明该方法提取实体的准确率达到8373%。

关键词: 命名实体识别, 条件随机场, 机器学习, 越南语

Abstract:

A method of named entity recognition is proposed based on conditional random fields model aimed at the language feature of Vietnamese. This method aims at the feature of word and part of speech, adopts the arithmetic of conditional random fields, selects the word and part of speech as the feature, defines the feature template, chooses the news text of Vietnamese, tags the six entity linguistic data such as place name, person name and organization, trains the Vietnamese entity recognition model which acquired. Vietnamese entity recognition experiment results prove that the entity recognition accuracy rate of this method reach 83.73%.

Key words: machine learning, feature selection, conditional random fields, Vietnamese named entity recognition

中图分类号: 

  • TP391
[1] 张勇,纪伟,钟毅. 命名实体识别方法及在电力领域的应用[J]. 《山东大学学报(理学版)》, 2026, 61(5): 1-17.
[2] 陈云帆,王也晨,王龙,安琪,冯泽国. SERS协同机器学习在生物医药检测中的应用[J]. 《山东大学学报(理学版)》, 2025, 60(10): 23-41.
[3] 汪廷华,胡振威,占宏祥. 一种新颖的无监督特征选择方法[J]. 《山东大学学报(理学版)》, 2024, 59(12): 130-140.
[4] 李绎冉,赵宁,张志坚. 多服务器串联排队系统中平均排队时间的预测[J]. 《山东大学学报(理学版)》, 2024, 59(1): 17-26.
[5] 李颖,张国林. 互信息和核熵成分分析的油中溶解气体浓度建模[J]. 《山东大学学报(理学版)》, 2022, 57(7): 43-52.
[6] 张杰,彭国军,杨秀璋. 基于动态API调用序列和机器学习的恶意逃避样本检测方法[J]. 《山东大学学报(理学版)》, 2022, 57(7): 85-93.
[7] 银温社,贺建峰. 基于深度学习的眼底图像出血点检测方法[J]. 《山东大学学报(理学版)》, 2020, 55(9): 62-71.
[8] 李妮,关焕梅,杨飘,董文永. 基于BERT-IDCNN-CRF的中文命名实体识别方法[J]. 《山东大学学报(理学版)》, 2020, 55(1): 102-109.
[9] 周安民,户磊,刘露平,贾鹏,刘亮. 基于熵时间序列的恶意Office文档检测技术[J]. 《山东大学学报(理学版)》, 2019, 54(5): 1-7.
[10] 林丽. 基于核心依存图的新闻事件抽取[J]. 山东大学学报(理学版), 2016, 51(9): 121-126.
[11] 莫媛媛, 郭剑毅,余正涛,毛存礼,牛翊童. 基于深层神经网络(DNN)的汉-越双语词语对齐方法[J]. 山东大学学报(理学版), 2016, 51(1): 77-83.
[12] 何炎祥, 刘健博, 孙松涛, 文卫东. 基于层叠条件随机场的微博商品评论情感分类[J]. 山东大学学报(理学版), 2015, 50(11): 67-73.
[13] 刘铭, 昝红英, 原慧斌. 基于SVM与RNN的文本情感关键句判定与抽取[J]. 山东大学学报(理学版), 2014, 49(11): 68-73.
[14] 杜瑞颖, 杨勇, 陈晶, 王持恒. 一种基于相似度的高效网络流量识别方案[J]. 山东大学学报(理学版), 2014, 49(09): 109-114.
[15] 董源1,徐雅斌1,2*,李卓1,2,李艳平1. 基于社会计算和机器学习的垃圾邮件识别方法的研究[J]. J4, 2013, 48(7): 72-78.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!