摘要:信用评估领域时刻都在产生大量数据,一方面,这些数据中隐藏的数据结构具有很大价值;另一方面,信用数据通常存在着高维冗余、缺乏标签的特点,无法直接进行分析和研究。因此,为了去除信用数据冗余性和挖掘数据结构,本文结合过滤法高效简单、嵌入式分类性能优越和无监督特征选择方法不需要样本类别标签的优点,提出一种基于mRMR、XGBoost和拉普拉斯得分算法的信用评估分类模型。首先,对半监督数据中的有标记训练集分别执行mRMR算法和XGBoost算法,在有标记和无标记训练集上执行拉普拉斯得分算法,分别得到特征的排序。其次,根据特征的排序分别赋予特征相应的权重,并进行简单求和得到每个特征的最终权重。接着,按照权重大小选出最优的特征子集,去除无关冗余的特征。最后,基于XGBoost、LightGBM和CatBoost构建信用评估分类模型,以G值和F值来度量不同特征选择方法下模型的分类性能。实验结果表明,本文模型在不同的标记样本率和数据集下均具有较高的G值和F值,能够有效筛选特征、减少数据冗余性,提高数据的分类性能和对少数类的识别能力。