您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(理学版)》

山东大学学报(理学版) ›› 2018, Vol. 53 ›› Issue (9): 49-54.doi: 10.6040/j.issn.1671-9352.0.2017.650

• • 上一篇    下一篇

基于本体的俄文新闻话题检测设计与实现

原伟1,2,唐亮2,易绵竹2*   

  1. 1.上海外国语大学博士后流动站, 上海 200083;2.信息工程大学洛阳校区, 河南 洛阳 471003
  • 收稿日期:2017-12-22 出版日期:2018-09-20 发布日期:2018-09-10
  • 作者简介:原伟(1981— ),男,博士,副教授,研究方向为计算语言学、语料库语言学. E-mail:yw5811827@126.com*通信作者简介:易绵竹(1964— ),男,博士,教授,研究方向为计算语言学、俄语语言文学. E-mail:13373781261@126.com
  • 基金资助:
    国家社会科学基金资助项目(14CYY051,18BYY235);中国博士后科学基金面上资助项目(2017M610268,2018T110403)

Design and implementation of topic detection in Russian news based on ontology

  1. 1. Post-Doctoral Research Station of Shanghai International Studies University, Shanghai 200083, China;
    2. Information Engineering University, Luoyang 471003, Henan, China
  • Received:2017-12-22 Online:2018-09-20 Published:2018-09-10

摘要: 针对俄文新闻文本的话题检测问题,以俄文文本的自动形态分析、命名实体识别作为辅助手段,设计了一种基于本体描述俄文新闻文本和话题信息并进行相似度计算的方法,随后使用Single-pass算法进行俄文文本的话题检测实验。通过对比基于向量空间模型和基于本体模型的俄文话题检测结果,证明了后者具有相对较高的准确性和有效性。

关键词: 本体, 话题检测, 俄语

Abstract: Aiming at the problem of topic detection in Russian news, using automatic morphological analysis and named entity recognition as the auxiliary means, a method for describing Russian news elements and calculating their similarities based on ontology was designed. The Single-pass algorithm was used to carry out text clustering experiments for topic detection. By comparing the results of vector space model(VSM)model and ontology model, it is proved that the latter has relatively high accuracy and validity.

Key words: topic detection, Russian, ontology

中图分类号: 

  • TP391
[1] ALLAN J, JIN H, RAJMAN M, et al. Topic-based novelty detection[C] // Proceedings of the Johns Hopkins Summer Workshop. Baltimore: CLSP, 1999: 1-59.
[2] NALLAPATI R. Semantic language models for topic detection and tracking[C] // Proceedings of 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology: the HLT-NAACL 2003 Student Research Workshop.[S.l.] : ACL, 2003: 1-6.
[3] MAKKONEN J. Investigations on event evolution in TDT[C] // Proceedings of 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology: the HLT-NAACL 2003 Student Research Workshop.[S.l.] : ACL, 2003: 43-48.
[4] КОЛЬЦОВА Ю, КОЛЬЦОВ Н. Статистический и тематический профиль ??爯Живого журнала??爲[C] // Материалы научной конференции “Интернет и современное общество”. Санкт-Петербург: IMS, 2013: 96-104. KOLSOVA YU, KOLSOV N. Statistical and thematic profile of the “LiveJournal”[C] // Proceedings of Scientific Conference “Internet and Modern Society”. St Petersburg: IMS, 2013: 96-104.
[5] ДАНИЛОВА В, ПОПОВА В. Извлечения Событий Из Неструктурированного Текста Для Задач Интернет-Социологии[D]. Москва: Издательство Моска,РАНХиГС, 2015. DANILOVA V, POPOVA V. Extraction of events from the unstructured text for the tasks of internet sociology[D]. Moscow: Publishing House Moscow, RANEPA, 2015.
[6] 周学广, 高飞, 孙艳. 基于依存连接权VSM的子话题检测与跟踪方法[J]. 通信学报, 2013, 34(8):1-9. ZHOU Xueguang, GAO Fei, SUN Yan. Sub-topic detection and tracking based on dependency connection weights for vector space model[J]. Journal on Communications, 2013, 34(8):1-9.
[7] 李勇, 张克亮. 面向LDA和VSM模型的微博热点话题发现研究[J]. 自动化技术与应用, 2016, 35(8):52-57. LI Yong, ZHANG Keliang. Research of micro-blog hot topic detection based on LDA and VSM model[J].Techniques of Automation and Application, 2016, 35(08):52-57.
[1] 原伟,易绵竹. 基于维基百科的俄汉可比语料库构建及可比度计算[J]. 山东大学学报(理学版), 2017, 52(9): 1-6.
[2] 王彤,马延周,易绵竹. 基于DTW的俄语短指令语音识别[J]. 山东大学学报(理学版), 2017, 52(11): 29-36.
[3] 马丽菲,莫倩,杜辉. 面向中文短影评的分类技术研究[J]. 山东大学学报(理学版), 2016, 51(1): 52-57.
[4] 刘剑, 许洪波, 易绵竹, 程学旗. 面向知识级应用的多维语义本体构建[J]. 山东大学学报(理学版), 2015, 50(09): 13-20.
[5] 张溟, 唐慧丰, 李珠峰. 俄语武器装备名称共指词表构建[J]. 山东大学学报(理学版), 2014, 49(12): 36-42.
[6] 郑建兴,张博锋*,岳晓冬,成泽宇. 基于友邻-用户模型的微博主题推荐研究[J]. J4, 2013, 48(11): 59-65.
[7] 陈珂锐,潘君. 基于扩展特征向量空间模型的
多源数据融合
[J]. J4, 2013, 48(11): 87-92.
[8] 郑小蓉. 可信Web服务的度量模型[J]. J4, 2011, 46(9): 53-56.
[9] 高枫1,何泾沙2. 基于信任和信息流模型的隐私保护方法[J]. J4, 2011, 46(5): 39-43.
[10] 徐建民1,3,陈振亚2,崔琰3. 基于用户兴趣及术语间关系的查询扩展方法[J]. J4, 2011, 46(5): 49-53.
[11] 李继宝,李庆忠,闫中敏 . 基于Deep Web 的地图搜索系统的研究与实现[J]. J4, 2007, 42(11): 59-61 .
[12] 石翌轶,宋自林,尹康银 . 一种基于语义的Web数据搜索引擎方法研究[J]. J4, 2006, 41(3): 23-29 .
[13] 郑健珍,林坤辉,周昌乐,康 恺 . 基于本体语义的定题爬虫[J]. J4, 2006, 41(3): 90-94 .
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!