王 雷1,2,陈治平1,2,李志成3
WANG Lei,CHEN Zhi-ping,LI Zhi-cheng
摘要: 针对文本信息抽取中训练数据来源的多样化,不利于学习到最优的模型参数的问题,提出了一种基于多模板隐马尔可夫模型的文本信息抽取算法. 新算法利用文本排版格式、分隔符等信息,对文本进行分块,在此基础上,通过对训练数据分成多个形式模板训练隐马尔可夫初始概率及转移概率参数,最后,结合统一训练的释放概率参数,对文本信息进行抽取. 实验结果表明,新算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能.
| [1] | 王 静,姚 勇,刘志镜 . 基于广义隐马尔可夫模型的网页信息抽取方法[J]. J4, 2007, 42(11): 49-52 . |
|
||