山东大学学报(理学版) ›› 2016, Vol. 51 ›› Issue (3): 111-115.doi: 10.6040/j.issn.1671-9352.1.2015.C07
苏丰龙1,谢庆华2*,黄清泉1,邱继远1,岳振军1
SU Feng-long1, XIE Qing-hua2*, HUANG Qing-quan1, QIU Ji-yuan1, YUE Zhen-jun1
摘要: 针对在文本信息抽取研究中传统的监督学习方法存在标注工作量大和时间代价高等缺点,提出一种改进的半监督学习模型。该模型利用支持向量机的分类优势以及直推式学习在未标注样本上的泛化特点,先用少量标注语料进行学习,同时测试新语料,然后再加入到模型当中一起训练,调整预测规律。在领域实体属性抽取试验中,与传统的支持向量机学习方法相比,该模型能够在小语料条件下取得较好的抽取效果,泛化学习能力较强,可以节省大量的人力成本。
中图分类号:
[1] 贾真,杨燕,何大可. 基于弱监督学习的中文百科数据属性抽取[J].电子科技大学学报,2014,43(5):758-763. JIA Zhen, YANG Yan, HE Dake. Attribute extraction of Chinese online encyclopedia based on weakly supervised learning[J].Journal of University of Electronic Science and Technology of China, 2014, 43(5):758-763. [2] LI Jiwei, ALAN Ritter, EDUARD Hovy. Weakly supervised user profile extraction from Twitter[C] //Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore, USA: Daniel Marcu, 2014:165-174. [3] 张巧,熊锦华,程学旗. 基于弱监督学习的主页人物属性抽取[J].山西大学学报(自然科学版),2015,38(1):8-15. ZHANG Qiao, XIONG Jinhua, CHENG Xueqi. Person attributes extraction based on a weakly supervised learning method[J].Journal of Shanxi University(Natural Science Edition), 2015, 38(1):8-15. [4] 余丽,陆锋,张恒才. 网络文本蕴含地理信息抽取:研究进展与展望[J].地球信息科,2015,17(2):127-134. YU Li, LU Feng, ZHANG Hengcai. Extracting geographic gnformation from geb texts: status and development[J].Journal of Geo-Information Science, 2015, 17(2):127-134. [5] 程显毅,朱倩. 未定义类型的关系抽取的半监督学习框架研究[J].南京大学学报(自然科学版),2012,48(4):466-474. CHENG Xianyi, ZHU Qian. A study of relation extraction of undefined relation type based on semi-supervised learning framework[J].Journal of Nanjing University(Natural Science Edition), 2012, 48(4):466-474. [6] 杨宇飞,戴齐,贾真,等. 基于弱监督的属性关系抽取方法[J].计算机应用,2014,34(1):64-68. YANG Yufei, DAI Qi, JIA Zhen, et al. Weakly supervised method for attribute relation extraction[J].Journal of Computer Applications, 2014, 34(1):64-68. [7] 郭剑毅,李真,余正涛,等. 领域本体概念实例、属性和属性值的抽取及关系预测[J].南京大学学报(自然科学版),2012,48(4):383-389. GUO Jianyi, LI Zhen, YU Zhengtao, et al. Extraction and relation prediction of domain ontology concept instance, attribute and attribute value[J].Journal of Nanjing University(Natural Science Edition), 2012, 48(4):383-389. [8] VAPNIK V. The nature of statistical learning theory[M].New York:Springer-Verlag, 1999. [9] JOACHIMS T. Transductive inference for text classification using support vector machine[C] //Proceedings of the Sixteenth International Conference on Machine Learning. San Francisco: Morgan Kaufmann, 1999:148-156. [10] ANSHU S. A novel classification technique based on progressive transductive SVM learning[J].Pattern Recognition Letters, 2014, 42:101-106. [11] 吴飞,刘亚楠,庄越挺. 基于张量表示的直推式多模态视频语义概念检测[J].软件学报,2008,19(11):2853-2868. WU Fei, LIU Yanan, ZHUANG Yueting. Transductive multi-modality video semantic concept detection with tensor representation[J].Journal of Software, 2008, 19(11):2853-2868. [12] 董静,孙乐,冯元勇,等. 中文实体关系抽取中的特征选择研究[J].中文信息学报,2007,21(4):80-91. DONG Jing, SUN Le, FENG Yuanyong, et al. Chinese automatic entity relation extraction[J].Journal of Chinese Information Processing, 2007, 21(4):80-91. |
[1] | 张鹏,王素格,李德玉,王杰. 一种基于启发式规则的半监督垃圾评论分类方法[J]. 山东大学学报(理学版), 2017, 52(7): 44-51. |
[2] | 李智恒,杨志豪,林鸿飞. 基于语义的疾病相关蛋白质知识抽取[J]. 山东大学学报(理学版), 2016, 51(3): 104-110. |
[3] | 杜红乐,张燕,张林. 不均衡数据集下的入侵检测[J]. 山东大学学报(理学版), 2016, 51(11): 50-57. |
[4] | 朱丽萍, 李洪奇, 杨中国, 刘蔷. 一种面向科技文献引言的信息抽取方法[J]. 山东大学学报(理学版), 2015, 50(07): 23-30. |
[5] | 王辉, 陈光. 基于Bootstrapping的英文产品评论属性词抽取方法[J]. 山东大学学报(理学版), 2014, 49(12): 23-29. |
[6] | 关冕,马军. 针对Web论坛的一种结构化数据自动抽取方法[J]. J4, 2010, 45(5): 42-47. |
[7] | 王 静,姚 勇,刘志镜 . 基于广义隐马尔可夫模型的网页信息抽取方法[J]. J4, 2007, 42(11): 49-52 . |
[8] | 王 雷,陈治平,李志成 . 基于文本分块的多模板隐马尔可夫模型的文本信息抽取[J]. J4, 2006, 41(3): 19-24 . |
|