• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    同等学历教学

    同等学历教学

    免费
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      同等学历教学

      同等学历教学

      免费
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      未分类

      • 首页
      • 博客
      • 未分类
      • 我做数据分析工作常用的8个R包

      我做数据分析工作常用的8个R包

      • 发布者 weinfoadmin
      • 分类 未分类
      • 日期 2021年9月9日
      • 评论 0评论

      专题介绍:R是一种广泛用于数据分析和统计计算的强大语言,于上世纪90年代开始发展起来。得益于全世界众多 爱好者的无尽努力,大家继而开发出了一种基于R但优于R基本文本编辑器的R Studio(用户的界面体验更好)。也正是由于全世界越来越多的数据科学社区和用户对R包的慷慨贡献,让R语言在全球范围内越来越流行。其中一些R包,例如MASS,SparkR, ggplot2,使数据操作,可视化和计算功能越来越强大。R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。R作为一种统计分析软件,是集统计分析与图形显示于一体的。它可以运行于UNIX、Windows和Macintosh的操作系统上,而且嵌入了一个非常方便实用的帮助系统,相比于其他统计分析软件,R的学术性开发比较早,适合生物学和医学等学术学科的科研人员使用。

      是新朋友吗?记得先点R语言关注我哦~
      《R玩数据》专栏·第5篇
      文 | R扫地僧
      1910字 | 6分钟阅读
      【R语言】已开通R语言社群,五湖四海,天南地北,各行各业,有缘相聚,共享R事,雕刻数据,求解问题,以创价值。喜乐入群者,请加微信号luqin360,或扫描文末二维码,添加为好友,同时附上R-入群。有朋自远方来,不亦乐乎,并诚邀入群,以达相互学习和进步之美好心愿。

      大家好,我是一名数据分析师,目前在一家互联网公司,做私域业务相关的数据分析工作。




      我经常会用R语言解决数据分析工作系列问题。在此,我分享下做数据分析工作常用的8个R包,也欢迎朋友们补充和分享自己常用的R包。


      1 dplyr包

      我用dplyr包做数据的整理工作,包括数据的选择(业务所需的行与列),变量的新增,数据的集成(常用的内连接和左连接),数据的聚合运算(描述性统计常用指标,求和、最大值、最小值、均值、中位数、个数、分位数),数据的清洗工作等。我在前面的文章,介绍了dplyr包一些用法,系列文章如下:


      • dplyr包-列选择的方法

      • dplyr包-列变换的方法

      • dplyr包-行选择的方法

      • dplyr包-汇总数据的方法


      我编写的R语言程式90%都用到这个包。众所周知,做数据分析工作之前,数据的准备和加工,需要花费我们50%到70%的时间和精力,因此,掌握和熟练使用这个dplyr包,可更有效地完成数据整理的工作。



      2 ggplot2包

      我用ggplot2包做数据可视化分析的工作。数据可视化,通过图形的方式,帮助我们理解数据,洞察数据以及表达数据结果和讲好数据故事。ggplot2包,基于图形语法和分层的思想,高效地实现一系列图形。我们可以从变量的个数、变量的类型以及变量之间的关系三个方面,确定需要创建什么类型的图形。我在这里推荐几本数据可视化的优秀书籍,这些书籍里面都有关于ggplot2包学习和应用的介绍。

      数据可视化好书集合


      3 stringr包

      我用stringr包处理字符串类型相关的数据,比方说,字符串替换、子串的查询,字符的计数,字符串的修改等系列操作。实际工作中,字符串类型的数据,经常会遇到。很多时候,原始数据集,都要做清洗工作,才能被用于后续操作,比方说重编码,聚合汇总等。



      4 data.table包

      data.table包,一个增强版的数据框结构,可以更高效地存储和处理数据集。对于这个包,我主要用它来做数据的存储以及数据结构之间的转换操作。这个包详细介绍和使用,可以查阅这个链接:

      https://rdatatable.gitlab.io/data.table/


      5 tidyr包

      我用tidyr包来做数据重塑工作,主要包括:1)把宽数据转换成长数据;2)把长数据转换成宽数据。这个时候,我们需要根据实际情况,选择合适的操作。tidyr包,用spread函数把长数据转换为宽数据;gather函数把宽数据转换为长数据。


      6 caret包

      我常用caret包来做有监督机器学习的任务,以及数据集的划分和数据集预处理的相关操作。这个R包对于做有监督的机器学习任务,提供了一个统一编写程式的框架。当然了,你使用这个包做随机森林的任务,前提是需要安装和加载randomForest包。关于这个R包的详细用法,可以查阅这个链接:

      http://topepo.github.io/caret/index.html


      7 cluster包和factoextra包

      我有时会用聚类分析的方法,去做分群或者分组的事情。这种技术,可以让组内相似性最大,组间差异性最大。我常用的聚类分析方法,一种是划分方式聚类,一种是分层方式的聚类。为了更好地地解读聚类的结果,对聚类效果的可视化,是一种很好地手段。所以,我会用到cluster包和factoextra包。这两个包组合,可以实现聚类分析以及聚类结果的可视化分析。factoextra包除了做聚类分析结果可视化,还可以做其它事情,如下图所示:



      8 arules包和arulesViz包

      关联分析和规则挖掘,也是我在实际工作,经常会用到的方法。对于能够表示或者转化成事务型数据格式的业务场景,我们都可以尝试使用关联分析的方法去发觉数据洞见,以指导业务做有效行动。我用arules包做频繁项挖掘和关联规则挖掘,使用arulesViz包对关联规则做可视化分析。


      除了使用上述这些R包,在实际工作中,也会根据具体的业务问题和实际任务,使用其它R包。关于R包的学习和使用,首先,会查看一下这个R包应用实例;其次,把相关代码迁移到自己的手头数据上,第三,在自己实际数据项目中,进一步加深对R包的理解。


      朋友们,你们在实际工作中,常用那些R包,请留言。

      我创建了R语言群,各行各业,一起学习和交流。扫描下方二维码,添加我的微信,备注“R-入群”,我邀请你入群。



      朋友们,又到我推荐好书籍的时候了,下面这些书籍,总会有一本适合你的。资源的获取方式,可以在文章里有介绍。


      R书籍推荐 

      1. 复杂数据统计方法-基于R的应用(第三版)

      2. 数据科学实战

      3. R数据科学

      4. 数据挖掘与R语言

      5. 统计推断与数据科学,moderndive和tidyverse包

      6. 用R,tidyverse和mlr做机器学习

      7. 用RStudio做数据分析

      8. R语言做时间序列预测3本书


      公众号推荐

      数据科学与人工智能

      数据科学与人工智能公众号推广Python语言,数据科学与人工智能的知识和信息。扫码下方二维码关注我,一起学习Python语言和数据科学与人工智能。


      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      作者头像
      weinfoadmin

      上一篇文章

      ggplot2包|柱形图
      2021年9月9日

      下一篇文章

      R做探索性数据分析,助您理解数据
      2021年9月9日

      你可能也喜欢

      2-1675088548
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      30 1月, 2023
      9-1675131201
      如何快速批量修改 Git 提交记录中的用户信息
      26 1月, 2023
      8-1678501786
      肿瘤细胞通过改变CD8+ T细胞中的丙酮酸利用和琥珀酸信号来调控抗肿瘤免疫应答。
      7 12月, 2022

      留言 取消回复

      要发表评论,您必须先登录。

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      301月2023
      如何快速批量修改 Git 提交记录中的用户信息
      261月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?