集成特征选择
专题介绍:R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来。得益于全世界众多 爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器的R Studio(用户的界面体验更好)。也正是由于全世界越来越多的数据科学社区和用户对R包的慷慨贡献,让R语言在全球范围内越来越流行。其中一些R包,例如MASS,SparkR, ggplot2,使数据操作,可视化和计算功能越来越强大。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R的学术性开发比较早,适合生物学和医学等学术学科的科研人员使用。

阅读完本文,你可以知道:
1 集成特征选择是什么
2 集成特征选择的类型
3 集成特征选择要解决的关键问题
4 集成特征选择实现的常用工具
集成特征选择是融合集成学习思想和特征选择方法,它结合了多个特征选择器的输出,通常可以提高性能,使得用户不必局限于选择单一的方法。简而言之:
集成特征选择 = 集成学习 + 特征选择
集成特征选择可以分为同构的和异构的。
同构的是指采用相同基特征选择器;而异构的是指采用不同的基特征选择器。
类似于,集成学习器里面的基分类器可以是相同的分类器,也可以是不同的分类器。
同构的,即对不同的训练数据集使用相同的特征选择方法;异构的,即对相同的训练数据集使用不同的特征选择方法。
集成特征选择要解决的关键问题,描述如下:
1 基特征选择选择器的确定
2 集成特征选择的策略,是采用同构的,还是异构的
3 集成特征选择的最终结果的合并策略
集成特征选择方法实现的常用工具
1 MATLAB,它的统计学和机器学习工具箱包括这些方法可以做特征选择。1)fscnca, 利用邻域成分分析进行特征选择分类;2)fsrnca, 利用邻域成分分析进行特征选择回归;3)relieff,利用ReliefF算法获得变量的重要性分析。等等。
2 R,有许多R包可以做特征选择。最著名的R包是caret和boruta。
3 Scikit-Learn,包括一些特征选择方法。例如基于低方差移除特征;基于卡方检验和互信息的单一变量的特征选择;递归特征消除的方法。等等。
关于集成特征选择,您有什么想法请留言。
需要深入交流和沟通,请加我的微信:luqin360。备注:实名+工作或者专业,否则不会通过。
数据思考与践行
帮助数据人才找工作
文章推荐

请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!