首页> 中文学位 >高维小样本数据的互信息特征选择方法研究
【6h】

高维小样本数据的互信息特征选择方法研究

代理获取

目录

第一章 绪论

1.1 引言

1.2 国内外研究现状

1.3 本文主要研究内容

1.4 论文结构

第二章 背景知识

2.1 过滤型特征选择算法

2.2 互信息

2.3 本章小结

第三章 基于分组的过滤型特征选择算法

3.1 引言

3.2 GBFS算法

3.3 GBFS算法的时间复杂度分析

3.4 实验结果与分析

3.5 本章小结

第四章 基于GBFS和Boruta的混合特征选择算法

4.1 Boruta算法

4.2 GBFS-Boruta算法

4.3 实验结果与分析

4.4 本章小结

第五章 总结与展望

5.1 总结

5.2 展望

参考文献

致谢

个人简况及联系方式

声明

展开▼

摘要

随着计算机性能的提高和数据采集技术的进步,各个领域产生的数据呈几何式增长。其中的高维数据可能包含有较多的不相关和冗余的特征,这些特征不仅增加了计算难度,而且降低分类的精度,因而,高维数据分类成为一个极具挑战性的问题。从原始特征中选出对信息系统最有益特征的技术(即特征选择)是解决这一挑战性问题的有效途径。所以,目前特征选择已经成为数据挖掘、模式识别和机器学习等领域的研究热点之一,并且在多个应用领域中得到了广泛的关注。
  特征选择的最终目的是找到一个尽可能含有最多的类区分信息,同时特征子集的规模也要尽可能的小。目前已有多项研究提出多种评价标准来更好地度量特征子集与类别之间的相关性以及特征子集内部的冗余性。其中,基于互信息(MI)的度量具有既可以识别线性关系也可以识别非线性关系的优点。但现有的方法,有的没有考虑特征的冗余性,有的在计算冗余的没有考虑冗余的局部性,这些问题都对分类性能的提高有着负面影响。本文以高维小样本数据的特征选择问题为对象开展研究,主要研究内容包括以下几个方面:
  (1)提出一种基于分组的互信息过滤型特征选择算法。通过考虑单个特征与类别的相关性,同时在以往典型特征选择算法的基础上同时加入了对特征冗余局部性的考量,提出一种基于分组的互信息过滤型特征选择算法(Group based Filtering Feature Selection Algorithm,GBFS)。在UCI机器学习数据集上与五种典型的以互信息为基础的特征选择方法的比较实验表明:GBFS特征选择算法具有较少的运行时间与良好的分类精度。
  (2)提出一种基于GBFS和Boruta的两阶段混合特征选择算法。包装型选择算法速度较慢,选出的特征分类效果好。过滤型算法高效,通用性高。但是大多数过滤型的特征选择算法不能确定最佳子集的大小。GBFS算法同大多数过滤型特征算法一样不能确定最佳特征子集。混合模型通过组合包装型和过滤型的评估标准来选择子集,这种方式利用了这两个模型的优点,从而包装型方法和过滤型方法的特性得到了很好地互补。基于上述分析,本文提出了一种基于GBFS和Boruta的两阶段混合特征选择算法( GBFS and Boruta based Hybrid Feature Selection Algorithm, GBFS-Boruta)。
  本文以高维数据为研究对象,同时结合对以往经典算法的分析,提出了两种特征选择算法。在多个数据集上的实验表明,两种方法在选出较小子集的同时可以有效的提高分类精度。本文取得的成果对特征选择研究具有一定的补充作用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号