摘要: 根据新词语的不同特征,提出了一整套自动检测新词语的方法,通过大规模地统计分析,分别建立字,词,N元组的词典,从中自动检测出新词语来,然后再根据构词规则对自动检测的结果进行进一步的过滤,最终抽取出语料中的新词语. 根据此方案实现的系统,可以抽取不限长度不限领域的新词语.
[1] | 原伟,易绵竹. 基于维基百科的俄汉可比语料库构建及可比度计算[J]. 山东大学学报(理学版), 2017, 52(9): 1-6. |
[2] | 唐亮, 李倩, 许洪波, 易绵竹. 基于多策略过滤的汉日多词短语抽取和对齐[J]. 山东大学学报(理学版), 2015, 50(09): 21-28. |
[3] | 张亮,,王树梅,黄河燕,张孝飞 . 面向中文问答系统的问句句法分析[J]. J4, 2006, 41(3): 30-33 . |
|