-
基于LDA及标签传播的实体集合扩展
- 马宇峰, 阮彤
-
2015, 50(03):
20-27.
doi:10.6040/j.issn.1671-9352.3.2014.101
-
摘要
(
1263 )
PDF (1999KB)
(
1888
)
收藏
-
参考文献 |
相关文章 |
多维度评价
实体集合扩展是指给定某类别下若干示例作为种子,扩展得到属于该类别下的更多实体。传统的实体集合扩展方法主要考虑实体之间的共现关系,根据它们之间的相似程度进行迭代式的扩展,但这会导致语义偏转问题的出现,准确率较差。对此,提出了先根据LDA(latent dirichlet allocation)主题模型获得种子词集合语义信息,再通过标签传播来进行实体集合扩展的方法。该方法通过考虑实体列表整体蕴含的语义信息,避免了单个词可能带来的歧义问题;利用LDA模型,挖掘实体列表的上下文主题,丰富实体扩展过程中的语义信息,解决语义偏转问题。在实际数据集上取得了良好的检测效果,证明了本文方法的有效性。