%A 唐都钰1,王大亮2,赵凯2,秦兵1,刘挺1 %T 面向汽车领域的软文识别研究 %0 Journal Article %D 2012 %J 《山东大学学报(理学版)》 %R %P 43-46 %V 47 %N 3 %U {http://lxbwk.njournal.sdu.edu.cn/CN/abstract/article_2383.shtml} %8 2012-03-20 %X

 针对面向汽车领域的软文识别问题,将软文识别分为顶贴识别、无关帖识别、广告帖识别和伪造帖识别4个子任务,并分别使用基于规则的方法和基于机器学习的方法对4类软文进行识别。基于规则的方法综合考虑汽车领域专业信息、极性词信息、作者级别信息等因素;基于机器学习的方法结合网帖内容特征和作者信息特征,使用最大熵分类器进行模型训练。实验结果表明,对于领域特征明显、具有数值化反馈信息和明确标注数据的领域,适合使用机器学习的方法进行软文识别。