• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    同等学历教学

    同等学历教学

    免费
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      同等学历教学

      同等学历教学

      免费
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      R语言

      • 首页
      • 博客
      • R语言
      • 【R基础】一小时向非程序员介绍 R 编程语言

      【R基础】一小时向非程序员介绍 R 编程语言

      • 发布者 weinfoadmin
      • 分类 R语言
      • 日期 2016年1月11日
      测试开头

      我妹妹正在念大四,主修社会学。她刚刚签了下个学期一份不错的分析员工作,对方告诉她工作中要用到 R 编程语言。她让我在寒假时教教她,我欣然同意了。还有什么比这更好的方式来消磨明尼苏达的冬天呢?[注1]

      问题是:在原定教她的那天,我们俩都有空的时间只有一个小时。哎呀!

      不过我还是接受了这个挑战,用一个小时向我的社会学家妹妹介绍R。下面就是我所做的事情。我没有预先做功课,而且肯定犯了些错误,忽视了核心思想,纠缠于细枝末节。但妹妹给我的反馈是非常好(我确实对其他人的“一小时学会R”理念非常感兴趣)

      (1)下载R和RStudio

      我对RStudio的印象不错,对于初学者来说,它既方便又很有帮助,对专业人士也很有用。尤其对于初学者:鼠标指向-点击式(point-and-click)的选项非常棒,工作区面板对于建立起对R环境的概念也非常有用。我甚至都不用再花精力向我妹妹介绍R默认的集成开发环境——我马上就让她下载了RStudio,不过你仍然需要下载普通版的R。下载之后,我意识到r-project.org网站真应该在设计上进行大修整,因为:(a)它不够漂亮(b)如果你不知道什么是“CRAN镜像”,下载R将是一件容易把人搞糊涂的事。

      (2)控制台和脚本

      准备好之后,我们做的第一件事就是在控制台中键入如下两行代码:

      1
      2
      3
      > x = 7
      > x + 9
      [1] 16

      这并非纯粹的“Hello World”,但它阐明了一些概念,比如”赋值”、”变量”和”求值”[注2]。

      接着,我让妹妹在一个R脚本文件中保存了上面那两行代码(我认为,在初学者开始使用一门语言时就教会他们如何正确地把代码保存在脚本文件中是非常重要的)。然后,我教她怎么用Cmd-Enter组合键(译者注:这是Mac OS的键位。在PC中,对应的组合键是Ctrl+Enter)在控制台中执行代码。

      在解释这些内容的过程中,我意识到”控制台”和”脚本”这类术语比较晦涩,所以我尽可能给出它们的明确的定义。我也不得不小心地使用那些含义确切的词而非”REPL”或”prompt”这类词汇

      (3)注释

      1
      # 注释特别重要,所以我们学习了它

      (4)图形

      脚本、注释和控制台可能有点儿枯燥,所以到了这一步,该是从图形中寻找点儿乐趣的时候了!这是我们绘制的一张图:

      1
      2
      x = rnorm(1000, mean = 100, sd = 3)
      hist(x)

      教我妹妹理解这段代码涉及解释什么是函数(因为rnorm和hist都是函数)、什么是函数的实参,以及为什么你可以通过名字引用实参却不一定非得这样做。

      我还教她怎么保存一个图形——借助图形窗口中方便的“Export”按钮,在RStudio中保存图形非常容易。

      (5)获得帮助

      我认为,“获取帮助”是这类快速入门过程中需要掌握的最重要的概念。显然你不可能在一个小时之内学会一切,所以,你真正需要的是当你用到时可以查找到相应信息的工具。下面是我介绍的语法:

      1
      2
      3
      4
      # 如果你知道函数名,但不知道怎么使用
      ?chisq.test
      # 如果你知道要做什么,但不知道函数名
      ??chisquare

      考虑到查函数文档对非程序员来说不太容易,这本来或许不是一个正确的策略。我考虑过强调google技巧的重要性(我在研究生院学到的最有用的东西),或者介绍StackOverFlow和R-help,但最后还是决定讲解官方的文档系统。”在R中我该怎么做X这件事”是初学者最常见的问题之一,我认为这个问题的答案可能应该是”使用函数Y( )”——所以重要的是能够搞清楚如何使用函数Y( )。

      在我看来,初学者最常见的另一个问题是”我遇到了出错信息Z,怎么修正它?”。为解决这个问题,我演示一些常见的错误(对象未找到,意外的<X>常量,等等)并解释了它们的含义。

      (6)数据类型

      查看帮助文档让我想起文档中经常会提及某个函数的实参必须是某个特定的类型,因此我们或许应该讨论一下数据类型。我介绍了:

      向量

      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      # 字符串向量
      > y = c("apple", "apple", "banana", "kiwi", "bear", "strawberry", "strawberry")
      > length(y)
      [1] 7
      # 数值向量
      > numbers = rep(3, 99)
      > numbers
      [1] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
      [39] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
      [77] 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3

      矩阵

      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      18
      19
      20
      21
      > mymatrix = matrix(c(10, 15, 3, 29), nrow = 2, byrow = TRUE)
      > mymatrix
      [,1] [,2]
      [1,] 10 15
      [2,] 3 29
      > t(mymatrix)
      [,1] [,2]
      [1,] 10 3
      [2,] 15 29
      > solve(mymatrix)
      [,1] [,2]
      [1,] 0.1183673 -0.06122449
      [2,] -0.0122449 0.04081633
      > mymatrix %*% solve(mymatrix)
      [,1] [,2]
      [1,] 1 0
      [2,] 0 1
      > chisq.test(mymatrix)
      Pearson's Chi-squared test with Yates' continuity correction
      data: mymatrix
      X-squared = 5.8385, df = 1, p-value = 0.01568

      数据框(dataframe)

      1
      2
      3
      4
      5
      # 设置工作目录
      setwd("~/Documents/R_intro")
      # 读入一个数据集
      wages = read.table("wages.csv", sep = ",", header = TRUE)

      就这样,我们借助实例讨论了一些数据类型,并顺带着学习了其他一些重要的内容,像怎么确定向量中元素的个数、什么是工作目录,以及怎样读入数据文件。

      (7)探索性数据分析

      一旦你读入了一个数据集,事情就开始变得有趣了。我们从中学习了一大堆东西,像怎么做基本的表格、遇到缺失数据如何处理,以及怎么拟合一个简单的线性模型。这部分的内容相当有趣,以至于我妹妹开始主导学习过程了:不再是我说“我要教你如何做什么”,而是她主动问“嗯,我们能画一个散点图吗?”或“你觉得我们可以把最优拟合直线放到那个图上吗?”我真为此而感到高兴——我希望这意味着她已全身心投入并乐在其中。

      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      11
      12
      13
      14
      15
      16
      17
      > names(wages)
      [1] "edlevel" "south" "sex" "workyr" "union" "wage" "age"
      [8] "race" "marital"
      > class(wages$marital)
      [1] "integer"
      > table(wages$union)
      not union member union member
      438 96
      > summary(wages$workyr)
      Min. 1st Qu. Median Mean 3rd Qu. Max.
      0.00 8.00 15.00 17.82 26.00 55.00
      > nrow(wages)
      [1] 534
      > length(which(is.na(wages$sex)))
      [1] 0
      > linmod = lm(workyr ~ age, data = wages)
      > summary(linmod)

      我们还进一步学习了图形,像怎么作出好的直方图,以及怎么在回归直线上叠加散点图。

      1
      2
      3
      hist(wages$wage, xlab = "hourly wage", main = "wages in our dataset", col = "purple")
      plot(wages$age, wages$workyr, xlab = "age", ylab="years worked", main = "age vs. years worked")
      abline(lm(wages$workyr ~ wages$age), col="red", lwd = 2)

      好了,时间到。

      我遗漏了些什么?哪些事能做得更好?我事后想到的有:

      • 用[]取子集. 这是个关键知识点。它可以应用于我所介绍的所有数据类型,而且极为有用。我真希望当时有时间让我妹妹做一个,比如只包含女性的工资直方图

      • 编程相关的东西:循环、if语句、用户自定义函数,等等。不过我觉得不教这些东西也没问题——考虑到受众,我是把R当作一个数据分析环境而非一种编程语言来教授。

      • 保存.rda文件和/或工作区

      • 安装和载入包

      • 其他数据类(比如列表)

      • 其他(更好的?)帮助资源/提示/技巧

      最后一点感想
      总的来说,在一小时内介绍R让我收获了乐趣,而且我认为(希望?)我妹妹也是如此。临别时我又给了她一些资料:这个,这个和这个,这些资料我都不是非常熟悉——但我知道,要想能够用R分析实际数据,所需的时间远大于在我这儿的一个小时。我相信我已经覆盖了大部分基础知识,我妹妹也觉得这对她非常有帮助。我很乐意听各位来谈谈你是如何应对”一小时内向非程序员介绍R”这个挑战的。

      脚注

      注1. 即便对明尼苏达来说,天气也真的太冷了。温度已在华氏0度(译者注:摄氏-17度)左右徘徊了一个月之久。星期一的最高温度是华氏-12度(译者注:摄氏-24度)

      注2.你可能注意到了,我用“=”来赋值,而且把这个习惯传给了我妹妹。我考虑过这个问题并坚持这一用法,“<-”要多敲键盘,我发现它唯一有用的地方只是当我在system.time函数调用内进行赋值。



      更多精彩内容,请点击阅读原文。

      数据人网(http://shujuren.org),数据人学习、交流和分享的家园,专注于从数据中学习,努力发觉数据之洞见,积极利用数据之价值。为“让人懂数据、用数据”之使命坚持做点事情。大家可以来投稿,做分享和传播,可以给反馈。您有什么想法,请反馈给我们,谢谢。数据人网,我们共建和共享。

      公众号推荐

      数据科学自媒体,从数据里面学习。

      长按二维码图片,选择识别二维码图片,添加即可。

      【R基础】一小时向非程序员介绍 R 编程语言


      测试结尾

      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      作者头像
      weinfoadmin

      上一篇文章

      【数据挖掘】手把手教你做文本挖掘
      2016年1月11日

      下一篇文章

      【R案例】R语言中的情感分析与机器学习
      2016年1月14日

      你可能也喜欢

      3-1665801675
      R语言学习:重读《R数据科学(中文版)》书籍
      28 9月, 2022
      6-1652833487
      经典铁死亡,再出新思路
      16 5月, 2022
      1-1651501980
      R语言学习:阅读《R For Everyone 》(第二版)
      1 5月, 2022

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      301月2023
      如何快速批量修改 Git 提交记录中的用户信息
      261月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?