您的位置:山东大学 -> 科技期刊社 -> 《山东大学学报(理学版)》

山东大学学报(理学版) ›› 2014, Vol. 49 ›› Issue (1): 71-75.doi: 10.6040/j.issn.1671-9352.1.2013.221

• 论文 • 上一篇    下一篇

基于改进型FP-Tree的分布式关联分类算法

卢琦蓓1,2,郭飞鹏3   

  1. 1. 浙江工商大学管理科学与工程研究所,浙江 杭州 310018;
    2.台州职业技术学院工商管理系, 浙江 台州 318000;
    3. 浙江经贸职业技术学院信息技术系,浙江 杭州 310018
  • 收稿日期:2013-09-02 出版日期:2014-01-20 发布日期:2014-01-15
  • 作者简介:卢琦蓓(1984- ),女,讲师,博士研究生,研究方向为智能信息处理,数据挖掘理论及算法.Email:luqibei@hotmail.com
  • 基金资助:

    国家自然科学基金资助项目(71071141);教育部人文社会科学研究基金资助项目(BYJC630041);浙江省自然科学基金资助项目(LQ13G020008);浙江省教育厅科研项目(Y201225624)

Distributed associative classification algorithm based on improved FP-tree

LU Qi-bei1,2, GUO Fei-peng3   

  1. 1. Institute of Management Science and Engineering, Zhejiang Gongshang University, Hangzhou 310018, Zhejiang, China;
    2. Department of Business Administration, Taizhou Vocational and Technical College, Taizhou 318000, Zhejiang, China;
    3. Department of Information Technology, Zhejiang Economic and Trade Polytechnic, Hangzhou 310018, Zhejiang, China
  • Received:2013-09-02 Online:2014-01-20 Published:2014-01-15

摘要:

传统的信息挖掘技术已经无法满足大数据环境下日益复杂的应用需求,而分布式数据挖掘技术是解决这个难题的一种手段,因此提出了基于改进型频繁模式树(FP-Tree)的分布式关联分类算法。首先,在各局部节点优化FP-Tree,生成局部条件模式树(CFP-Tree),再通过各节点间传送CFP-Tree构建全局CFP-Tree;其次,在挖掘全局CFP-Tree时通过计算显著度来获取初始的全局显著分类规则;最后,利用剪枝策略选取一个较小规则集来构造全局的关联分类器。实验结果表明该算法能够有效降低网络通信量,提高信息挖掘效率,同时保证剪枝的质量和规则的统计显著性,提高分类的精确性。

关键词: 关联分类, 频繁模式树, 条件模式树, 分布式信息挖掘, 显著度

Abstract:

Traditional information mining technology has been unable to meet the increasingly complex application requirements in the big data environment. The distributed data mining technique is a means to solve this problem. An improved distributed associative classification algorithm based on improved FP-tree was presented. First, FP-Tree was optimized in each local node to generate local conditional pattern tree (CFP-Tree), and then a global CFP-Tree was constructed through the inter-site transmission of each CFP-Tree. Second, the initial global significant classification rules were obtained by calculating significant degree in the process of global CFP-Tree mining. Final, the pruning strategies were used to get a small set of rules to construct the overall associative classifier. Experimental results show that this algorithm can not only effectively reduce network traffic and improve mining efficiency, but also ensure ensuring statistical significance of rules and improve the ability for the discovery of implicit rules.

Key words: associative classification, distributed information mining, FP-tree, conditional pattern tree, significant degree

中图分类号: 

  • TP311
[1] 晏燕,郝晓弘. 差分隐私密度自适应网格划分发布方法[J]. 山东大学学报(理学版), 2018, 53(9): 12-22.
[2] 随云仙,刘勇. 基于二步邻居拓扑的E-Burt结构洞检测算法[J]. 山东大学学报(理学版), 2017, 52(9): 59-68.
[3] 张中军,张文娟,于来行,李润川. 基于网络距离和内容相似度的微博社交网络社区划分方法[J]. 山东大学学报(理学版), 2017, 52(7): 97-103.
[4] 毕晓迪,梁英,史红周,田辉. 一种基于隐私偏好的二次匿名位置隐私保护方法[J]. 山东大学学报(理学版), 2017, 52(5): 75-84.
[5] 董红斌,苟乃康,杨雪. 基于兴趣度的广告拍卖模型研究[J]. 山东大学学报(理学版), 2017, 52(3): 1-7.
[6] 陈晓云,廖梦真,陈慧娟. 模式收缩最小二乘回归子空间分割[J]. 山东大学学报(理学版), 2016, 51(12): 108-115.
[7] 李钊,孙占全,李晓,李诚. 基于信息损失量的特征选择方法研究及应用[J]. 山东大学学报(理学版), 2016, 51(11): 7-12.
[8] 刘大福,苏旸. 一种基于证据的软件可信性度量模型[J]. 山东大学学报(理学版), 2016, 51(11): 58-65.
[9] 高元照,李炳龙,吴熙曦. 基于物理内存的注册表逆向重建取证分析算法[J]. 山东大学学报(理学版), 2016, 51(9): 127-136.
[10] 翟鹏,李登道. 基于高斯隶属度的包容性指标模糊聚类算法[J]. 山东大学学报(理学版), 2016, 51(5): 102-105.
[11] 邓松. 面向旅游人文信息集成的Web数据源选择[J]. 山东大学学报(理学版), 2016, 51(3): 70-76.
[12] 李瑞霞, 刘仁金, 周先存. 基于哈希表的MapReduce算法优化[J]. 山东大学学报(理学版), 2015, 50(07): 66-70.
[13] 吴熙曦, 李炳龙, 张天琪. 基于KNN的Android智能手机微信取证方法[J]. 山东大学学报(理学版), 2014, 49(09): 150-153.
[14] 戚丽丽,孙静宇*,陈俊杰. 基于均模型的IBCF算法研究[J]. J4, 2013, 48(11): 105-110.
[15] 朱国红 石冰 邢晓娜. 基于特征点选择的聚类算法研究[J]. J4, 2009, 44(9): 40-42.
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!