• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    同等学历教学

    同等学历教学

    免费
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      同等学历教学

      同等学历教学

      免费
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      R语言

      • 首页
      • 博客
      • R语言
      • 【R与统计】样本比较(下)

      【R与统计】样本比较(下)

      • 发布者 weinfoadmin
      • 分类 R语言
      • 日期 2016年3月7日
      测试开头

      4.t检验分析两样本均值

      除了按照上面的方法,根据两样本的方差求出两样本的期望之差外,我们还可以引入假设检验对它们的差进行检验。先前在假设性检验的时候就已经讲了H0原假设和H1备择假设,也求出了一个假设的拒绝域。同样的,我们也可以根据假设性检验的相关检验来检验两样本期望,而这里,我们假设H0为E(Xa)=E(Xb),H1取H0反面,而标准则是以p为0.05为准,如果p小于0.05,我们接受原假设,大于则拒绝。在先前的章节中,我们又介绍了t的相关公式,比如H0为E(X)=0,那么,我们T的计算公式则为:

      【R与统计】样本比较(下)

      在R语言里,我们常用qt()函数计算t分布的分位数,比如,qt(0.975,n-1)计算的就是t分布当中自由度为n,分位为97.5%的分位数,也可表示成事件{|T|>qt(0.975,n-1)},而P({|T|>t})就是表示R里通常看到的p值。同样的,假设H0:E(Xa)-E(Xb)=0,那么,根据上面T值公式可得:

      【R与统计】样本比较(下)

      又回到刚刚的耗油量之差的例子,先前我们已经把里面的样本均值和方差算出来了,因此,我们得到它们的t值是:

      【R与统计】样本比较(下)

      因此,我们算出来的p值为P(|T|>2.425531)=2×[1-P(|T|<=2.425531)],根据这个结果,我们在R模拟一下:

      【R与统计】样本比较(下)

      【R与统计】样本比较(下)

       

      两样本方差比较

      之前,我们已经介绍了如何用期望、置信区间和t检验进行两样本的比较;接下来,我们还要介绍一种方法来比较两个样本,它就是方差比较。

      首先,我们在讲第11章就讲了讲卡方分布。卡方分布就是假设一个标准正态分布有X1,X2……Xn这n个随机变量,而它们的随机平方和由组成一个新的分布的就称之为卡方分布;而卡方检验就是在假设性统计里,统计推断值和实际值的偏差,以卡方值表示。卡方值越大,即它们的偏差就越大,反之亦然,如果为0,即它们没有任何偏差。

      而这里,我们要介绍的是F检验法。我们还是假设两个样本的方差分别为Sa和Sb。构造F分布的时候,我们可以根据它们两个样本的方差构造得:

      【R与统计】样本比较(下)

      其中,左边就是分别构造两样本的方差估计值和实际值的比率,之所以要构造这个比例,就是因为F分布的计算标准就是根据比率进行的,因此我们也就得到了上面的那个公司。

      在R里面,qf()函数计算F分布的分位数,一般形式为qf(σ,dfa,dfb),其中,σ表示求哪个分位的分位数,dfa和dfb分布代表样本a和样本b的自由度。

      现在,根据F分布的公式,再结合qf()函数来构造它的95%置信区间,得:

      【R与统计】样本比较(下)

      根据这个公式,我们可以得到:

      【R与统计】样本比较(下)

      现在,我们假设H0:Var(Xa)/Var(Xb)=1,而原假设的拒绝域为F<qf(0.025,qfa,qfb)或F>qf(0.975,qfa,qfb),而p则为2*P(F>f)=2*[1-P(F<=f)],它在f<1条件下成立。衡量的标准还是p值是否达到0.05。现在,再次回到之前的耗油量之差的例子,用R模拟过程和结构如下:

      【R与统计】样本比较(下)

      【R与统计】样本比较(下)

       

      我们看到p值仅为0.16663,小于0.05,这时,我们要拒绝原假设,即,Var(Xa)和Var(Xb)不相同。同时,从这份报告中,我们还看到比率的95%置信区间为[0.4189200,0.9162126],而样本的比率方差,在最后一行可以看到,是0.6196502;而这一个值,就是由先前我们在求耗油量之差时求出来的,Sa2/Sb2得来的,具体Sa和Sb可以根据先前的结果查看。这里,再说一下p,根据耗油量之差,我们可以用相关函数pf()模拟计算,过程如下:

      【R与统计】样本比较(下)

      【R与统计】样本比较(下)

      最后,我们算一算两样本方差比率的95%置信区间,过程结果如下:

      【R与统计】样本比较(下)

      【R与统计】样本比较(下)

      得到95%置信区间为[0.676317,1.479161]。

       

      总结

      这一部分的内容把样本的比较方法单独拿出来讲,说明比较两个样本的内容还是相当重要的,而且有很多的方法和相关理论需要掌握。

      这部分内容,我们分别从均值、置信区间和方差这3个角度来比较这两个样本的大致情况。比较这两个样本的重要指标就是引入了t检验和F检验,也就是说,我们分别从t分布和F分布来间接比较这两个样本。

      用均值进行两样本的比较,我们列举了汽车耗油量之差这个例子,把里面的数据分成2组,然后用t分布计算出相关的p值,并与p值的极值0.05进行比较,如果大于0.05,我们接受原假设,反之亦然。另外,我们在介绍比较两样本的方差之前,我们还通过构造t分布来比较两样本的均值,计算相关的t值和p值,并对比我们所求出的拒绝域;如果落入拒绝域,则原假设不成立,反之亦然。

      用置信区间比较两样本,我们引入了两个样本的期望,同时也引入这两个样本的标准差,通过置信区间的计算公式,利用两样本的均值之差构造出95%置信区间,然后根据这个置信区间进行分析。

      最后,我们还引入了F分布,通过构造两样本的方差之比进行F检验分析,同样比较它的p值是否达到0.05;如果达到,我们接受原假设,反之亦然。

      从上面的文章,我们可以看到假设性检验的其中一种应用,它通过计算相关的值和我们原来的假设进行比较,作为我们的假设是否合理的一个重要指标。由于受限于水平以及课本所提到的内容,可能很多地方会有一些错误,也欢迎大家留言指出。当然,如果大家有什么疑问也可以到留言板上留言,我会尽自己的能力帮你解答。最后,由于文章讲的比较少,而且可能比较难以理解,同时也是读书笔记的形式来写的,所以我打算在后面一段时间,会从概率论与数理统计的角度,把这个系列的读书笔记里所提到的知识进行一个扩充,这样能更有助于你们理解统计学的相关内容。后面的章节,我们就要开始简单的讲述相关的统计模型;不过,由于已经快到本书的结尾,而本系列的比较也很快就写完了,所以如果大家还想看更多的统计模型,我后续也会以各种方式进行补充。

      作者:何品言,热爱英语和数据科学。

      严禁修改,可以转载,请注明出自数据人网和原文链接:http://shujuren.org/index.php/Article/update/aid/181

      更多精彩内容,请点击阅读原文。

      数据人网(http://shujuren.org),数据人学习、交流和分享的家园,专注于从数据中学习,努力发觉数据之洞见,积极利用数据之价值。为“让人懂数据、用数据”之使命坚持做点事情。大家可以来投稿,做分享和传播,可以给反馈。您有什么想法,请反馈给我们,谢谢。数据人网,我们共建和共享。

      数据人网构建了数据人圈子,诚邀热爱数据和利用数据朋友入群。加小编微信:luqin360,注明入圈子。

             数据人网官方公众号:数据科学自媒体,分享数据科学干货。

            

             【R与统计】样本比较(下)


      测试结尾

      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      作者头像
      weinfoadmin

      上一篇文章

      【R与统计学】样本比较(上)
      2016年3月7日

      下一篇文章

      【数据分析】数值型数据的探索分析
      2016年3月8日

      你可能也喜欢

      3-1665801675
      R语言学习:重读《R数据科学(中文版)》书籍
      28 9月, 2022
      6-1652833487
      经典铁死亡,再出新思路
      16 5月, 2022
      1-1651501980
      R语言学习:阅读《R For Everyone 》(第二版)
      1 5月, 2022

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      301月2023
      如何快速批量修改 Git 提交记录中的用户信息
      261月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?