• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    同等学历教学

    同等学历教学

    免费
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      同等学历教学

      同等学历教学

      免费
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      R语言

      • 首页
      • 博客
      • R语言
      • 【机器学习】 机器学习算法中的过拟合与欠拟合

      【机器学习】 机器学习算法中的过拟合与欠拟合

      • 发布者 weinfoadmin
      • 分类 R语言
      • 日期 2016年4月24日
      测试开头

      机器学习的表现很差的原因要么是数据发生了过拟合或者欠拟合。

      在本文中你将了解到机器学习中的泛化以及伴随着的过拟合和欠拟合问题。

      让我们开始吧。
      【机器学习】 机器学习算法中的过拟合与欠拟合

      机器学习中的逼近目标函数过程

      监督式机器学习通常理解为逼近一个目标函数

      (f)(f)

      (f),此函数映射输入变量(X)到输出变量(Y).

      Y=f(X)Y=f(X)

      Y=f(X)

      这种特性描述可以用于定义分类和预测问题和机器学习算法的领域。

      从训练数据中学习目标函数的过程中,我们必须考虑的问题是模型在预测新数据时的泛化性能。泛化好坏是很重要的,因为我们收集到的数据只是样本,其带有噪音并且是不完全的。

      机器学习中的泛化

      在In机器学习中,我们描述从训练数据学习目标函数的学习过程为归纳性的学习。

      归纳与特别的样本中学习到通用的概念有关,而这就是监督式机器学习致力于解决的问题。这与推演不同,其主要是另一种解决问题和寻求从通常的规则中找寻特别的内容。

      泛化即是,机器学习模型学习到的概念在它处于学习的过程中时模型没有遇见过的样本时候的表现。

      好的机器学习模型的模板目标是从问题领域内的训练数据到任意的数据上泛化性能良好。这让我们可以在未来对模型没有见过的数据进行预测。

      在机器学习领域中,当我们讨论一个机器学习模型学习和泛化的好坏时,我们通常使用术语:过拟合和欠拟合.

      过拟合和欠拟合是机器学习算法表现差的两大原因。

      统计拟合

      在统计学中,拟合指的是你逼近目标函数的远近程度。

      这个术语同样可以用于机器学习中,因为监督式机器学习算法的目标也是逼近一个未知的潜在映射函数,其把输入变量映射到输出变量。

      统计学通常通过用于描述函数和目标函数逼近的吻合程度来描述拟合的好坏。

      这类理论中的一些在机器学习中也是有用的(例如,计算残差),但是一些技巧假设我们已经知道了我们要逼近的函数。这和机器学习的场景就不同了。

      如果我们已经知道了目标函数的形式,我们将可以直接用它来做预测,而不是从一堆有噪音的数据中把它费力的学习出来。

      机器学习中的过拟合

      过拟合指的是referstoa模型对于训练数据拟合程度过当的情况。

      当某个模型过度的学习训练数据中的细节和噪音,以至于模型在新的数据上表现很差,我们称过拟合发生了。这意味着训练数据中的噪音或者随机波动也被当做概念被模型学习了。而问题就在于这些概念不适用于新的数据,从而导致模型泛化性能的变差。

      过拟合更可能在无参数非线性模型中发生,因为学习目标函数的过程是易变的具有弹性的。同样的,许多的无参数器学习算法也包括限制约束模型学习概念多少的参数或者技巧。

      例如,决策树就是一种无参数机器学习算法,非常有弹性并且容易受过拟合训练数据的影响。这种问题可以通过对学习过后的树进行剪枝来解决,这种方法就是为了移除一些其学习到的细节。

      机器学习中的欠拟合

      欠拟合指的是模型在训练和预测时表现都不好的情况。

      一个欠拟合的机器学习模型不是一个良好的模型并且由于在训练数据上表现不好这是显然的。

      欠拟合通常不被讨论,因为给定一个评估模型表现的指标的情况下,欠拟合很容易被发现。矫正方法是继续学习并且试着更换机器学习算法s。虽然如此,欠拟合与过拟合形成了鲜明的对照。

      机器学习中好的拟合

      理想上,你肯定想选择一个正好介于欠拟合和过拟合之间的模型。

      这就是我们学习的目标,但是实际上很难达到。

      为了理解这个目标,我们可以观察正在学习训练数据机器学习算法的表现。我们可以把这个过程划分为分别是训练过程和测试过程。

      随着时间进行,算法不断地学习,模型在训练数据和测试数据上的错误都在不断下降。但是,如果我们学习的时间过长的话,模型在训练数据上的表现将继续 下降,这是因为模型已经过拟合并且学习到了训练数据中的不恰当的细节以及噪音。同时,测试数据集上的错误率开始上升,也即是模型的泛化能力在下降。

      这个完美的临界点就处于测试集上的错误率开始上升时,此时模型在训练集和测试集上都有良好的表现。

      你可以用你自己喜爱的机器学习算法来实践这个实验。而在实践中这通常是无用的,因为在测试数据上运用这个技巧来选择训练停止的时机,这意味着这个测试集对于我们并不是“不可见的”或者单独的衡量标准。数据的一些知识(许多有用的知识)已经泄露到了训练过程。

      通常有两种手段可以帮助你找到这个完美的临界点:重采样方法和验证集方法。

      如何限制过拟合

      过拟合和欠拟合可以导致很差的模型表现。但是到目前为止大部分机器学习实际应用时的问题都是过拟合。

      过拟合是个问题因为训练数据上的机器学习算法的评价方法与我们最关心的实际上的评价方法,也就是算法在位置数据上的表现是不一样的。

      当评价机器学习算法时我们有两者重要的技巧来限制过拟合:

      使用重采样来评价模型效能
      保留一个验证数据集

      最流行的重采样技术是k折交叉验证。指的是在训练数据的子集上训练和测试模型k次,同时建立对于机器学习模型在未知数据上表现的评估。

      验证集只是训练数据的子集,你把它保留到你进行机器学习算法的最后才使用。在训练数据上选择和调谐机器学习算法之后,我们在验证集上在对于模型进行评估,以便得到一些关于模型在未知数据上的表现的认知。

      对于机器学习,使用交叉验证在未知数据上进行验证模型效能是一种良好的标准。如果你拥有数据,使用验证集也是一种良好的实践。

      进一步阅读

      如果你想学习更多关于机器学习中的泛化、过拟合和欠拟合的知识,本节列举了一些相关的推荐资源。

      维基百科上的泛化
      维基百科上过拟合
      维基百科上的归纳推理
      维基百科上的感应问题
      Quora上的过拟合的直观解释

      总结

      本文中你学习了机器学习就是以感应方法来解决问题。

      你学习了泛化是一种关于模型学习到的知识在未知数据上表现程度的概念描述。最后你学习了机器学习中的术语:泛化中的过拟合与欠拟合:

      • 过拟合:在训练数据上表现良好,在未知数据上表现差。

      • 欠拟合:在训练数据和未知数据上表现都很差

      关于过拟合和欠拟合,你有什么问题吗?欢迎留下评论,我将竭力解答。
      原文链接:Overfitting and Underfitting With Machine Learning Algorithms

      作者:陈昭男,爱数据爱生活

      严禁修改,可以转载,请注明数据人网和原文链接。


      本日数据人网精选推荐

      《R语言编码风格 》

      《R语言中的机器学习评价标准》

      点击【阅读原文】查看更多。

      测试结尾

      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      作者头像
      weinfoadmin

      上一篇文章

      【数据挖掘】27本免费的数据挖掘书籍
      2016年4月24日

      下一篇文章

      【数据科学】每位数据科学家都应该要知道的12个统计和机器学习方法
      2016年4月25日

      你可能也喜欢

      3-1665801675
      R语言学习:重读《R数据科学(中文版)》书籍
      28 9月, 2022
      6-1652833487
      经典铁死亡,再出新思路
      16 5月, 2022
      1-1651501980
      R语言学习:阅读《R For Everyone 》(第二版)
      1 5月, 2022

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      301月2023
      如何快速批量修改 Git 提交记录中的用户信息
      261月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?