高维小样本数据的互信息特征选择方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着计算机性能的提高和数据采集技术的进步，各个领域产生的数据呈几何式增长。其中的高维数据可能包含有较多的不相关和冗余的特征，这些特征不仅增加了计算难度，而且降低分类的精度，因而，高维数据分类成为一个极具挑战性的问题。从原始特征中选出对信息系统最有益特征的技术（即特征选择）是解决这一挑战性问题的有效途径。所以，目前特征选择已经成为数据挖掘、模式识别和机器学习等领域的研究热点之一，并且在多个应用领域中得到了广泛的关注。
　　特征选择的最终目的是找到一个尽可能含有最多的类区分信息,同时特征子集的规模也要尽可能的小。目前已有多项研究提出多种评价标准来更好地度量特征子集与类别之间的相关性以及特征子集内部的冗余性。其中，基于互信息（MI）的度量具有既可以识别线性关系也可以识别非线性关系的优点。但现有的方法，有的没有考虑特征的冗余性，有的在计算冗余的没有考虑冗余的局部性，这些问题都对分类性能的提高有着负面影响。本文以高维小样本数据的特征选择问题为对象开展研究，主要研究内容包括以下几个方面：
　　(1)提出一种基于分组的互信息过滤型特征选择算法。通过考虑单个特征与类别的相关性，同时在以往典型特征选择算法的基础上同时加入了对特征冗余局部性的考量，提出一种基于分组的互信息过滤型特征选择算法（Group based Filtering Feature Selection Algorithm,GBFS）。在UCI机器学习数据集上与五种典型的以互信息为基础的特征选择方法的比较实验表明：GBFS特征选择算法具有较少的运行时间与良好的分类精度。
　　(2)提出一种基于GBFS和Boruta的两阶段混合特征选择算法。包装型选择算法速度较慢，选出的特征分类效果好。过滤型算法高效，通用性高。但是大多数过滤型的特征选择算法不能确定最佳子集的大小。GBFS算法同大多数过滤型特征算法一样不能确定最佳特征子集。混合模型通过组合包装型和过滤型的评估标准来选择子集，这种方式利用了这两个模型的优点，从而包装型方法和过滤型方法的特性得到了很好地互补。基于上述分析，本文提出了一种基于GBFS和Boruta的两阶段混合特征选择算法（ GBFS and Boruta based Hybrid Feature Selection Algorithm, GBFS-Boruta）。
　　本文以高维数据为研究对象，同时结合对以往经典算法的分析，提出了两种特征选择算法。在多个数据集上的实验表明，两种方法在选出较小子集的同时可以有效的提高分类精度。本文取得的成果对特征选择研究具有一定的补充作用。

著录项

作者
张凯;
展开▼
作者单位

山西大学;

展开▼
授予单位山西大学;
学科软件工程
授予学位硕士
导师姓名王文剑;
年度 2017
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;
关键词
高维小样本数据; 互信息; 特征选择; 模式识别; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 基于混合遗传算法与互信息分析的高维小样本特征选择 [J] . 姚树春 ,刘正 ,张强 . 计算机应用与软件 . 2020,第001期
2. 高维小样本分类问题中特征选择研究综述 [J] . 王翔 ,胡学钢 . 计算机应用 . 2017,第009期
3. 基于高维k-近邻互信息的特征选择方法 [J] . 周红标 ,乔俊飞 . 智能系统学报 . 2017,第005期
4. 基于特征选择的高维数据集成学习方法研究 [J] . 周钢 ,郭福亮 . 计算机科学 . 2021,第0z1期
5. 基于互信息的话题特征选择方法研究 [J] . 吴树芳 ,徐建民 ,朱杰 . 情报杂志 . 2015,第004期
6. 基于高维k近邻互信息的出水总磷特征选择 [C] . ZHOU Hong-biao ,周红标 ,QIAO Jun-fei . 2016年第27届中国过程控制会议 . 2016
7. 面向高维小样本数据的分类特征选择算法研究 [A] . 张靖 . 2014

高维小样本数据的互信息特征选择方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅