• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    同等学历教学

    同等学历教学

    免费
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      同等学历教学

      同等学历教学

      免费
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      R语言

      • 首页
      • 博客
      • R语言
      • 【机器学习】监督学习之线性回归

      【机器学习】监督学习之线性回归

      • 发布者 weinfoadmin
      • 分类 R语言
      • 日期 2015年10月26日
      测试开头

      线性回归简介

      如下图所示,如果把自变量(也叫independent variable)和因变量(也叫dependent variable)画在二维坐标上,则每条记录对应一个点。线性回规最常见的应用场景则是用一条直线去拟和已知的点,并对给定的x值预测其y值。而我们要 做的就是找出一条合适的曲线,也就是找出合适的斜率及纵截矩。

      【机器学习】监督学习之线性回归

      SSE & RMSE

      上图中的SSE指sum of squared error,也即预测值与实际值之差的平方和,可由此判断该模型的误差。但使用SSE表征模型的误差有些弊端,比如它依赖于点的个数,且不好定其单位。所 以我们有另外一个值去称量模型的误差。RMSE(Root-Mean-Square Error)。

      【机器学习】监督学习之线性回归

      由N将其标准化,并且其单位与变量单位相同。

      【机器学习】监督学习之线性回归


      案例

      许多研究表明,全球平均气温在过去几十年中有所升高,以此引起的海平面上升和极端天气频现将会影响无数人。本文所讲案例就试图研究全球平均气温与一些其它因素的关系。
      读者可由此下载本文所使用的数据climate_change.csv。
      https://courses.edx.org/c4x/MITx/15.071x_2/asset/climate_change.csv
      此数据集包含了从1983年5月到2008年12月的数据。
      本例我们以1983年5月到2006年12月的数据作为训练数据集,以之后的数据作为测试数据集。

      数据

      首先加载数据

       temp <- read.csv("climate_change.csv") 

      数据解释

      • Year 年份 M

      • Month 月份 T

      • emp 当前周期内的全球平均气温与一个参考值之差

      • CO2, N2O,CH4,CFC.11,CFC.12:这几个气体的大气浓度 Aerosols

      模型选择

      线性回归模型保留两部分。

      • 选择目标feature。我们数据中,有多个feature,但并非所有的feature都对预测有帮助,或者并非所有的feature都需要一起工作来做预测,因此我们需要筛选出最小的最能预测出接近事实的feature组合。

      • 确定feature系数(coefficient)。feature选出来后,我们要确定每个feature对预测结果所占的权重,这个权重即为coefficient

      【机器学习】监督学习之线性回归

      结合实例选择模型

      初始选择所有feature
      选择所有feature作为第一个model1,并使用summary函数算出其Adjusted R2为0.7371。

       model1 <- lm(Temp ~ MEI + CO2 + CH4 + N2O + CFC.11 + CFC.12 + TSI + Aerosols, temp) summary(model1) 

      【机器学习】监督学习之线性回归

      逐一去掉feature
      在model1中去掉任一个feature,并记下相应的Adjusted R2如下

      Feature Adjusted R2
      CO2 + CH4 + N2O + CFC.11 + CFC.12 + TSI + Aerosols 0.6373
      MEI + CH4 + N2O + CFC.11 + CFC.12 + TSI + Aerosols 0.7331
      MEI + CO2 + N2O + CFC.11 + CFC.12 + TSI + Aerosols 0.738
      MEI + CO2 + CH4 + CFC.11 + CFC.12 + TSI + Aerosols 0.7339
      MEI + CO2 + CH4 + N2O + CFC.12 + TSI + Aerosols 0.7163
      MEI + CO2 + CH4 + N2O + CFC.11 + TSI + Aerosols 0.7172
      MEI + CO2 + CH4 + N2O + CFC.11 + CFC.12 + Aerosols 0.697
      MEI + CO2 + CH4 + N2O + CFC.11 + CFC.12 + TSI 0.6883

      本轮得到Temp ~ MEI + CO2 + N2O + CFC.11 + CFC.12 + TSI + Aerosols

      从model2中任意去掉1个feature,并记下相应的Adjusted R2如下

      Feature Adjusted R2
      CO2 + N2O + CFC.11 + CFC.12 + TSI + Aerosols 0.6377
      MEI + N2O + CFC.11 + CFC.12 + TSI + Aerosols 0.7339
      MEI + CO2 + CFC.11 + CFC.12 + TSI + Aerosols 0.7346
      MEI + CO2 + N2O + CFC.12 + TSI + Aerosols 0.7171
      MEI + CO2 + N2O + CFC.11 + TSI + Aerosols 0.7166
      MEI + CO2 + N2O + CFC.11 + CFC.12 + Aerosols 0.698
      MEI + CO2 + N2O + CFC.11 + CFC.12 + TSI 0.6891

      任一组合的Adjusted R2都比上一轮小,因此选择上一轮的feature组合作为最终的模型,也即Temp ~ MEI + CO2 + N2O + CFC.11 + CFC.12 + TSI + Aerosols
      由summary(model2)可算出每个feature的coefficient如下 。

      【机器学习】监督学习之线性回归

      线性回归介绍

      在线性回归中,数据使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计。这些模型被叫做线性模型。最常用的线性回归建模是给定X值的y的条件均值是X的仿射函数。
      线性回归是回归分析中第一种经过严格研究并在实际应用中广泛使用的类型。这是因为线性依赖于其未知参数的模型比非线性依赖于其位置参数的模型更容易拟合,而且产生的估计的统计特性也更容易确定。
      上面这段定义来自于维基百科。

      【机器学习】监督学习之线性回归

      这个错误估计函数是去对x(i)的估计值与真实值y(i)差的平方和作为错误估计函数,前面乘上的1/2m是为了在求导的时候,这个系数就不见了。至于为何选择平方和作为错误估计函数,就得从概率分布的角度来解释了。
      如何调整θ以使得J(θ)取得最小值有很多方法,本文会重点介绍梯度下降法和正规方程法。


      梯度下降

      在选定线性回归模型后,只需要确定参数θ,就可以将模型用来预测。然而θ需要使得J(θ)最小。因此问题归结为求极小值问题。
      梯度下降法流程如下:

      1. 首先对θ赋值,这个值可以是随机的,也可以让θ为一个全零向量。
      2. 改变θ的值,使得J(θ)按梯度下降的方向进行调整。

      梯度方向由J(θ)对θ的偏导数确定,由于求的是极小值,因此梯度方向是偏导数的反方向。更新公式为为:

      【机器学习】监督学习之线性回归

      这种方法需要对全部的训练数据求得误差后再对θ进行更新。(α为学习速度)


      正规方程(Normal Equation)

       

      【机器学习】监督学习之线性回归

      推荐公众号:数据科学自媒体

      微信号:DataScienceWeMedia

      这里都是分享数据科学的好东东哦

      数据科学自媒体,专注数据科学的好东西。

      【机器学习】监督学习之线性回归
      长按图片,识别二维码,关注我们。



      测试结尾

      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      作者头像
      weinfoadmin

      上一篇文章

      【机器学习】监督学习之SVM
      2015年10月26日

      下一篇文章

      【机器学习】监督学习之神经网络
      2015年10月27日

      你可能也喜欢

      3-1665801675
      R语言学习:重读《R数据科学(中文版)》书籍
      28 9月, 2022
      6-1652833487
      经典铁死亡,再出新思路
      16 5月, 2022
      1-1651501980
      R语言学习:阅读《R For Everyone 》(第二版)
      1 5月, 2022

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      白介素-17受体信号的自主激活,维持炎症并促进疾病进展
      048月2023
      MCT4依赖的乳酸分泌抑制LKB1缺陷肺腺癌的抗肿瘤免疫
      187月2023
      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?