ISLR读书笔记2:统计学习是什么?
本文介绍ISLR第二章:统计学习第一节统计学习是什么内容。
提纲:
-
统计学习是什么?
-
为什么估计f和如何估计f?
-
预测精度和模型可解释性的权衡
-
有监督学习和无监督学习
-
回归与分类问题
一、 统计学习是什么?
回答问题之前,我们先思考这两个场景。
场景一:你是一个公司的统计顾问,现需要预测不同广告媒体与公司销量的关系。
场景二:你是一个公司的资深员工,想知道自己的薪酬待遇与那些因素有关系。
关于这两个场景所提出的问题,在我们的实际生活中比比皆是。此类问题的思考和解答,我们可以利用统计学习的方法论来很好地完成。
那什么是统计学习呢?通俗地说,就是一种关系的学习和抽象。
这种关系可以是输入与输出之间的关系,我们把它称为有监督的学习,输入由输入变量组成,输出由输出变量组成。
输入变量又可以称为预测变量、自变量、特征、属性等
输出变量又可称为响应变量、因变量、目标变量等
这种关系也可以是输入的内在或者潜在关系,我们把它称为无监督的学习。
在ISLR这本书里面,所介绍的统计学习,着重研究输入和输出之间的关系,即有监督性的学习方式。而这种关系,在数学里面可以使用函数对应法则f来进行抽象表示。
上述式子,告诉我们这些信息
-
输入变量和输出变量之间存在某种关系,这种关系的学习和实现,也就是我们时常说的模型
-
我们在训练模型的时候,实际上基于某些准则学习到最佳模型f,实际可以发现,所有的模型的都是错误的,但是,所有模型中的最佳模型又是有用的。因此,我们努力学习到最佳模型,把它用起来
-
利用模型学习到结果和实际结果可能会存在误差,绝大多数情况下是有误差的,这个误差是均值为0的随机性误差
关于模型f和误差,我们见下图:
二、 为什么估计f和如何估计f?
1 为什么估计f?
通过问题1中的两个场景,我们已经有了答案,我们为什么需要估计这个f?
一是为了预测
二是为了推理
不管是预测,还是推理,我们估计的f都是从数据中学习到的模型!
2 如何估计f?
两步走吧!
第一步:有数据,也就是X和Y
第二步:利用训练数据和统计学习方法学习到f
统计学习方法可以分为:参数方法和非参数方法
2.1 参数方法
参数方法:估计f实际上就是选择和确定最佳的参数。
第一步:基于某一种假设设计f,例如线性模型
第二步:利用训练数据去估计f中的未知参数,例如估计参数最常用的方法OLS
例如:
2.2 非参数方法
非参数方法:f的形式没有明确的假设
非参数方法的优劣
优势:能够拟合更加广泛的f形状
劣势:它需要更多的观察样本才能够准确地进行模型拟合
三、 预测精度和模型可解释性的权衡
预测精度和模型可解释性的权衡,有以下两个原因。
Reason1: A simple method such as linear regression produces a model which is much easier to interpret (the Inference part is better). For example, in a linear model, βj is the average increase in Y for a one unit increase in Xj holding all other variables constant.
简单的模型易于解释,适合推理,但是预测精度有待改善。
Reason2: Even if you are only interested in prediction, so the first reason is not relevant, it is often possible to get more accurate predictions with a simple, instead of a complicated, model. This seems counter intuitive but has to do with the fact that it is harder to fit a more flexible model.
在预测问题上,关注的是预测精度,这个时候会选择较为复杂的模型来代替简单的模型。
四、有监督学习和无监督学习
统计学习可以分为有监督学习和无监督学习
有监督学习:训练数据包括输入和输出,学习输入和输出的关系
例如:分类问题、回归问题
无监督学习:训练数据包括输入,学习输入的内在关系
例如:聚类问题
五、回归与分类问题
回归和分类问题都属于有监督学习
回归问题的目标变量是连续的
例如:预测股票未来的价格
预测房子的价格
分类问题的目标变量是类别的(离散的)
例如:预测股票的走势是涨,还是跌
预测邮件是否是垃圾邮件
参考资料:
1 ISLR第二章第一节内容
2 Classification: https://en.wikipedia.org/wiki/Classification
3 Regression: https://en.wikipedia.org/wiki/Regression_analysis
4 Cluster: https://en.wikipedia.org/wiki/Cluster
【温馨提示】:因为微信公众号不支持外链,请大家点击【阅读原文】,进入【数据人网】获取更多有价值的信息。大家可以在数据人网注册,然后写文章记录自己学习或者应用数据的历程。
您在阅读中,有什么建议或者想法,请留言。
如果您觉得本文有收获,请小额赞赏,让我有动力继续写出高质量的文章。
数据人网是数据人学习、交流和分享的平台http://shujuren.org 。专注于从数据中学习。
平台的理念:人人投稿,知识共享;人人分析,洞见驱动;智慧聚合,普惠人人。
您在数据人网平台,可以1)学习数据知识;2)创建数据博客;3)认识数据朋友;4)寻找数据工作;5)找到其它与数据相关的干货。
我们努力坚持做原创,分享和传播有价值的数据知识!
我们都是数据人,数据是有价值的,坚定不移地利用数据价值创造价值!
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!