【数据科学】每位数据科学家都应该要知道的12个统计和机器学习方法
测试开头
测试结尾
每位数据科学家都应该要知道的12个统计和机器学习方法
以下的内容是我个人列出的一个清单,写的是在2016年中,每位数据科学家都应当知道的12个统计和机器学习方法。
1.统计假设性检验(t检验、卡方检验和方差分析)
2.多元回归分析(线性模型)
3.广义线性回归(逻辑回归、泊松回归)
4.随机森林
5.Xgboost(极端梯度提升决策树)
6.深度学习
7.基于MCMC的贝叶斯建模
8.word2vec
9.k均值聚类
10.图论和网络分析
1)LDA分配和主题建模
2)因数分解(奇异值分解、非负矩阵分解)
从我在数据科学行业的4年从业经验来看,我认为当前的这12种方法是用的最多的,最有用的,而且也是最适合应对数据科学里的各种问题的。
就我的认知来看,目前有不少人已经列举出很多“数据科学行业里最有代表性的方法”的清单,然而有些清单由于缺乏对当前先进的数据科学技术进行跟进从 而变成了过时的清单了。因此,我以一位处理业务的人员的角度来列举这样的一个清单,而这份清单则包含了在数据科学里一些实际的东西和解决方案,它包括统计 学和机器学习里的一些方法。
此外,就这份清单本身而言,我会针对每种方法进行相关的实验,并对此配备相应的数据集和R和Python的脚本,这样就给读者一个机会来尝试用这些方法。
原来的帖子在这里,包括R和Python的脚本以及每个实验所配对的数据集。
数据人网作者:何品言
热爱数据科学和英语
严禁修改,可以转载,请注明出自数据人网和原文链接。
今日数据人网精选推荐:
点击【阅读原文】,查看更多。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!