特征选择
专题介绍:R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来。得益于全世界众多 爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器的R Studio(用户的界面体验更好)。也正是由于全世界越来越多的数据科学社区和用户对R包的慷慨贡献,让R语言在全球范围内越来越流行。其中一些R包,例如MASS,SparkR, ggplot2,使数据操作,可视化和计算功能越来越强大。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R的学术性开发比较早,适合生物学和医学等学术学科的科研人员使用。
我们研究特征选择,有这些好处:
1 大数据时代,数据挖掘和机器学习的一大挑战就是维数灾难,特征选择是缓解维数灾的一种有效方法。
2 通过特征选择,可以建立有效的模型,避免过拟合,提升模型性能。
3 对高维数据做处理和分析时,使用特征选择,可以减少内存的空间和降低算力成本。
4 做特征选择,可以降低数据获取的难度和成本 ,也有利于数据的理解。
总之,我们可以从数据的整个链,即数据的获取,数据存储,数据处理,数据分析和挖掘,数据应用来思考特征选择所带来的价值和意义。你会发现,对数据做特征选择,对于数据链的各个环节都有益处。
特征选择是针对所要解决的特定问题从原始特征集选择或者搜索到一个最佳的特征子集。如何得到这个最佳特征子集,那就是特征选择的方法或者算法要做的事情。
前面已经提到了,通过特征选择方法或者算法从数据的原始特征集中获得最佳的特征子集。如何来度量这个“最佳”?纵观前人所做的事情,要么从特征自身的角度入手分析,俗话说,“打铁 还需自身硬”,若是特征本身就具有很强的信息,这对我们解决问就是一种价值;要么从特征集的关系以及特征集与目标问题之间的关系来寻求一种最佳组合。
鉴于此,前人把特征选择的方法划分为三类型,如图1所示:
图1 特征选择方法
1 Filter方法,算法逻辑如图2所示:
图2 Filter方法
2 Wrapper方法,算法逻辑如图3所示:
图3 Wrapper方法
3 Embedded方法,算法逻辑如图4所示:
图4 Embedded方法
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!