ISLR读书笔记4:评价统计学习方法的准确性
本文介绍第二章:统计学习第二节评价统计学习的准确性内容。
提纲:
-
衡量模型拟合的质量
-
偏差与方差权衡
-
分类问题准确性评价
-
贝叶斯分类
-
最近邻分类
天下没有免费的午餐!
没有一种统计学习方法或者机器学习算法可以通吃所有的数据集。还真要“具体问题具体分析和处理”
简而言之,特定数据集上有着特定的方法适合她,换成别的方法,效果会不那么好了;而这别的方法又可以在别的数据集上发挥出好的效用。
1 衡量模型拟合的质量
假如我们有一个回归模型(regression model)
一种常用准确性衡量是均方误差(mean squared erro MSE)
计算公式定义如下:
公式解读:
-
n表示样本的数目
-
平方那个式子表示第i个样本目标变量真实值(实际值)与模型的预测值(估计值)的残差的平方
-
求和表示n个样本的残差平方和
-
求和结果后除以n表示计算残差平方和的平均值
综上所述,这个式子就是计算了模型针对n个样本的【均方差】
有时候,会看到RMSE这个指标,它实际上是MSE开平方根,参加Kaggle数据竞赛的朋友,应该对RMSE很有亲切感。
我们基于MSE最小化从训练数据集中获得模型,然而,我们关注(care)模型在测试集(新的数据集)上面的MSE是否最小化??
实际上,我们没法保证在训练集MSE最小的模型同样在测试集上也最小!!
如图所示:
图片解析:
-
左图,基于同一数据集采用不同的模型进行拟合,从简单到复杂
-
右图,模型在训练集上的MSE不断降低,而在测试集上呈现U形状
总结:模型的灵活性不断增加,训练集MSE不断下降,而测试集MSE可能不是这样的。
若一个模型对于训练数据集又很小的MSE,而对于测试集有很大的MSE,我们说模型过拟合了(overfitting)。【下回,有人和你谈模型过拟合问题,应该知道是怎么一回事了??】
2 偏差与方差权衡
一个非常重要的公式:
公式解读:
-
左边式子,某一个样本x0的残差平方的期望值
-
右边式子三部分,分别是样本x0的预测值的方差、样本x0的预测值的偏差平方和均值为零的随机误差的方差
测试集的MSE、偏差和方差之间的关系,如下图所示:
图片解析:
以左边这幅图为例
-
测试集MSE最小的时候,偏差和方差是权衡最好的
-
测试集为U型,看左边部分,模型简单,偏差较大,方差较小;看右边部分,模型复杂,偏差较小,方差较大
关于其它图形,大家能看出什么信息,请留言交流。
3 分类问题的准确性评价
回归问题,采用MSE,分类问题采用什么评价模型的准确性呢?
使用错误率进行评价,公式如下:
这个公式很好理解,对于n个样本做分类问题,利用模型预测的结果与真实的结果进行对比,若是不相同则计数1,计数全部完毕后再除以总的样本数n,就是错误率了。
3.1 贝叶斯分类
贝叶斯分类,条件概率应用到分类问题
公式如下:
贝叶斯分类器能够获得最低的测试集误差,称之为贝叶斯误差率。
一般来说,总的贝叶斯误差率:
3.2 最近邻分类
面对实际数据,我们不能知道基于X条件下Y的概率,因此使用贝叶斯分类方法是不可行的。
因此,采用逼近的方法计算条件概率,这里采用KNN方法(K近邻),公式如下:
公式解读:
-
确定k近邻的k值
-
计算x0的k近邻中类别为j的占比,即为x0条件下类别为j的条件概率
总结
模型复杂度与预测误差之间的关系
总而言之,在回归和分类问题,选择正确性的模型灵活性水平对于任何统计学习方法的成功至关重要。
偏差和方差的权衡,由此导致在测试误差的U形状,这是一个棘手的任务,后续章节会有相应的方法来处理这个“难题”。
参考资料
1 ISLR第二章第2节、第3节的内容
2 均方误差:https://en.wikipedia.org/wiki/Mean_squared_error
3 偏差与方差均衡: https://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff
4 机器学习中模型复杂度:http://www.dummies.com/programming/big-data/data-science/model-complexity-machine-learning/
【温馨提示】:点击阅读原文,进入数据人网,用最少的时间学习有价值的数据知识!
您在阅读中,有什么建议或者想法,请留言。
如果您觉得本文有收获,请小额赞赏,让我有动力继续写出高质量的文章。
数据人网是数据人学习、交流和分享的平台http://shujuren.org 。专注于从数据中学习。
平台的理念:人人投稿,知识共享;人人分析,洞见驱动;智慧聚合,普惠人人。
您在数据人网平台,可以1)学习数据知识;2)创建数据博客;3)认识数据朋友;4)寻找数据工作;5)找到其它与数据相关的干货。
我们努力坚持做原创,分享和传播有价值的数据知识!
我们都是数据人,数据是有价值的,坚定不移地利用数据价值创造价值!
公众号推荐:【脚印英语JoyEnglish】
跟Joy老师学习英语口语
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!