您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(理学版)》

J4 ›› 2009, Vol. 44 ›› Issue (11): 48-51.

• 论文 • 上一篇    下一篇

应用特征项分布信息的信息增益改进方法研究

杨玉珍,刘培玉*,朱振方,邱烨   

  1. 山东师范大学信息科学与工程学院, 山东 济南 250014
  • 收稿日期:2009-07-07 出版日期:2009-11-16 发布日期:2009-11-25
  • 通讯作者: 刘培玉(1960),教授,博士生导师,主要研究方向计算机网络信息安全、网络系统规划、网络信息资源开发和软件开发技术.
  • 作者简介:杨玉珍(1978),女,硕士研究生,主要研究网络信息安全,信息过滤. Email: zscyyz@yahoo.com.cn
  • 基金资助:

    国家自然科学基金资助项目(60873247)

Research of an improved information gain methodusing distribution information of terms

杨玉珍,刘培玉*,朱振方,邱烨   

  1. Department of Information Science and Engineering, Shandong Normal University, Jinan 250014, Shandong, China
  • Received:2009-07-07 Online:2009-11-16 Published:2009-11-25

摘要:

在特征项分布不平衡的情况下,传统信息增益算法的分类性能会急剧下降,针对此缺陷提出了一种利用特征项分布信息来改进信息增益公式的计算方法。通过计算特征项分布信息来判定特征项是否存在不平衡性,并利用此信息来平衡特征项不出现时对分类精度的影响。通过实验验证,改进后的计算方法整体上比传统的信息增益算法具有更好的性能。

关键词: 特征选择;信息增益;类内离散度;类间离散度

Abstract:

Classification performance of a traditional information gain algorithm will rapidly decline when feature items are in an unbalanced distribution. An improved calculation method of an information gain formula using feature items’ distribution information is proposed. Distribution information of feature items is computed to judge whether the imbalance of feature items exists and balance the influence of classification accuracy when the feature items do not appear. The improved calculation method has better performance through the experiment.

Key words: feature selection; information gain; distribution Information inside a class; distribution Information among classes

中图分类号: 

  • TP301
[1] 刘惊雷 王玲玲 张伟. 角色分配格的生成算法[J]. J4, 2009, 44(11): 52-56.
[2] 周小强 刘任任. P*4中保二元正则可离关系非最小覆盖的剔除[J]. J4, 2008, 43(12): 24-27.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!