• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    同等学历教学

    同等学历教学

    免费
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      同等学历教学

      同等学历教学

      免费
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      R语言

      • 首页
      • 博客
      • R语言
      • ISLR读书笔记4:评价统计学习方法的准确性

      ISLR读书笔记4:评价统计学习方法的准确性

      • 发布者 weinfoadmin
      • 分类 R语言
      • 日期 2017年1月15日
      测试开头

      本文介绍第二章:统计学习第二节评价统计学习的准确性内容。
      提纲:

      • 衡量模型拟合的质量

      • 偏差与方差权衡

      • 分类问题准确性评价

        • 贝叶斯分类

        • 最近邻分类

      天下没有免费的午餐!

      没有一种统计学习方法或者机器学习算法可以通吃所有的数据集。还真要“具体问题具体分析和处理”

      简而言之,特定数据集上有着特定的方法适合她,换成别的方法,效果会不那么好了;而这别的方法又可以在别的数据集上发挥出好的效用。

      1 衡量模型拟合的质量

      假如我们有一个回归模型(regression model)
      一种常用准确性衡量是均方误差(mean squared erro MSE)
      计算公式定义如下:

      ISLR读书笔记4:评价统计学习方法的准确性

      公式解读:

      • n表示样本的数目

      • 平方那个式子表示第i个样本目标变量真实值(实际值)与模型的预测值(估计值)的残差的平方

      • 求和表示n个样本的残差平方和

      • 求和结果后除以n表示计算残差平方和的平均值

      综上所述,这个式子就是计算了模型针对n个样本的【均方差】
      有时候,会看到RMSE这个指标,它实际上是MSE开平方根,参加Kaggle数据竞赛的朋友,应该对RMSE很有亲切感。

      我们基于MSE最小化从训练数据集中获得模型,然而,我们关注(care)模型在测试集(新的数据集)上面的MSE是否最小化??

      实际上,我们没法保证在训练集MSE最小的模型同样在测试集上也最小!!
      如图所示:
      ISLR读书笔记4:评价统计学习方法的准确性

      图片解析:

      • 左图,基于同一数据集采用不同的模型进行拟合,从简单到复杂

      • 右图,模型在训练集上的MSE不断降低,而在测试集上呈现U形状

      总结:模型的灵活性不断增加,训练集MSE不断下降,而测试集MSE可能不是这样的。

      若一个模型对于训练数据集又很小的MSE,而对于测试集有很大的MSE,我们说模型过拟合了(overfitting)。【下回,有人和你谈模型过拟合问题,应该知道是怎么一回事了??】

      2 偏差与方差权衡

      一个非常重要的公式:
      ISLR读书笔记4:评价统计学习方法的准确性

      公式解读:

      • 左边式子,某一个样本x0的残差平方的期望值

      • 右边式子三部分,分别是样本x0的预测值的方差、样本x0的预测值的偏差平方和均值为零的随机误差的方差
        测试集的MSE、偏差和方差之间的关系,如下图所示:
        ISLR读书笔记4:评价统计学习方法的准确性

      图片解析:
      以左边这幅图为例

      • 测试集MSE最小的时候,偏差和方差是权衡最好的

      • 测试集为U型,看左边部分,模型简单,偏差较大,方差较小;看右边部分,模型复杂,偏差较小,方差较大

      关于其它图形,大家能看出什么信息,请留言交流。

      3 分类问题的准确性评价

      回归问题,采用MSE,分类问题采用什么评价模型的准确性呢?
      使用错误率进行评价,公式如下:
      ISLR读书笔记4:评价统计学习方法的准确性

      这个公式很好理解,对于n个样本做分类问题,利用模型预测的结果与真实的结果进行对比,若是不相同则计数1,计数全部完毕后再除以总的样本数n,就是错误率了。

      3.1 贝叶斯分类

      贝叶斯分类,条件概率应用到分类问题
      公式如下:
      ISLR读书笔记4:评价统计学习方法的准确性
      贝叶斯分类器能够获得最低的测试集误差,称之为贝叶斯误差率。
      一般来说,总的贝叶斯误差率:
      ISLR读书笔记4:评价统计学习方法的准确性

      3.2 最近邻分类

      面对实际数据,我们不能知道基于X条件下Y的概率,因此使用贝叶斯分类方法是不可行的。
      因此,采用逼近的方法计算条件概率,这里采用KNN方法(K近邻),公式如下:
      ISLR读书笔记4:评价统计学习方法的准确性
      公式解读:

      • 确定k近邻的k值

      • 计算x0的k近邻中类别为j的占比,即为x0条件下类别为j的条件概率

      总结

      模型复杂度与预测误差之间的关系
      ISLR读书笔记4:评价统计学习方法的准确性

      总而言之,在回归和分类问题,选择正确性的模型灵活性水平对于任何统计学习方法的成功至关重要。
      偏差和方差的权衡,由此导致在测试误差的U形状,这是一个棘手的任务,后续章节会有相应的方法来处理这个“难题”。

      参考资料

      1 ISLR第二章第2节、第3节的内容
      2 均方误差:https://en.wikipedia.org/wiki/Mean_squared_error
      3 偏差与方差均衡: https://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff
      4 机器学习中模型复杂度:http://www.dummies.com/programming/big-data/data-science/model-complexity-machine-learning/

      【温馨提示】:点击阅读原文,进入数据人网,用最少的时间学习有价值的数据知识!

      您在阅读中,有什么建议或者想法,请留言。
      如果您觉得本文有收获,请小额赞赏,让我有动力继续写出高质量的文章。

      ISLR读书笔记4:评价统计学习方法的准确性


      数据人网是数据人学习、交流和分享的平台http://shujuren.org 。专注于从数据中学习。
      平台的理念:人人投稿,知识共享;人人分析,洞见驱动;智慧聚合,普惠人人。
      您在数据人网平台,可以1)学习数据知识;2)创建数据博客;3)认识数据朋友;4)寻找数据工作;5)找到其它与数据相关的干货。
      我们努力坚持做原创,分享和传播有价值的数据知识!
      我们都是数据人,数据是有价值的,坚定不移地利用数据价值创造价值!



      公众号推荐:【脚印英语JoyEnglish】

      跟Joy老师学习英语口语

      ISLR读书笔记4:评价统计学习方法的准确性

      测试结尾

      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      作者头像
      weinfoadmin

      上一篇文章

      ISLR读书笔记3:Lab1R的介绍
      2017年1月15日

      下一篇文章

      迟来的祝福,宝贵的知识|R语言
      2017年2月2日

      你可能也喜欢

      3-1665801675
      R语言学习:重读《R数据科学(中文版)》书籍
      28 9月, 2022
      6-1652833487
      经典铁死亡,再出新思路
      16 5月, 2022
      1-1651501980
      R语言学习:阅读《R For Everyone 》(第二版)
      1 5月, 2022

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      301月2023
      如何快速批量修改 Git 提交记录中的用户信息
      261月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?