• 主页
  • 课程

    关于课程

    • 课程归档
    • 成为一名讲师
    • 讲师信息
    同等学历教学

    同等学历教学

    免费
    阅读更多
  • 特色
    • 展示
    • 关于我们
    • 问答
  • 事件
  • 个性化
  • 博客
  • 联系
  • 站点资源
    有任何问题吗?
    (00) 123 456 789
    weinfoadmin@weinformatics.cn
    注册登录
    恒诺新知
    • 主页
    • 课程

      关于课程

      • 课程归档
      • 成为一名讲师
      • 讲师信息
      同等学历教学

      同等学历教学

      免费
      阅读更多
    • 特色
      • 展示
      • 关于我们
      • 问答
    • 事件
    • 个性化
    • 博客
    • 联系
    • 站点资源

      R语言

      • 首页
      • 博客
      • R语言
      • 穆勒报告的词云:R的简版教程

      穆勒报告的词云:R的简版教程

      • 发布者 weinfoadmin
      • 分类 R语言
      • 日期 2019年4月26日
      测试开头

      这是一个利用R代码从穆勒报告生成一个词云的快速而简版的教程,可以在Github上面找到
      (https://github.com/raklein/mueller-wordcloud)。
      所有的功劳都归于Alboukadel Kassambara的word cloud教程(http://www.sthda.com/english/wiki/text-mining-and-word-cloud-fundamentals-in-r-5-simple-steps-you-should-know)。

      【好书推荐:R-Data Analysis and Visualization,一本详细介绍R做数据分析和可视化的书籍,把本文分享到朋友圈,添加微信luqin360截图告知,即可获取】

      因为我只是实现了一个简短的版本并添加了几行代码。

      穆勒报告的词云:R的简版教程

      在删除常见和无信息的单词后,词云是文本中最常用单词的简单视觉摘要。它们提供与直方图基本相同的信息,但不太精确,而且更加引人注目。它们可以让您快速了解文本中的主题,这在您处理448页合法内容时非常有用。

      首先,加载我们需要的库。我们将使用:

      library("pdftools") # to convert pdf to text
      library("tm") # tools to work with text
      library("wordcloud") # generate the wordcloud
      library("RColorBrewer") # color palette 
      library("Cairo") # antialiasing for better graphics

      现在下载报告并将其放在工作目录中
      (例如,https://cdn.cnn.com/cnn/2019/images/04/18/mueller-report-searchable.pdf)。

      将pdf转换为文本,并将其存储为字符向量。这里会出现错误,但是对于这个文档来说,它没有问题。

      tex <- pdf_text("mueller-report-searchable.pdf")

      将文本字符串转换为语料库,这样tm包就可以使用它

      docs <- Corpus(VectorSource(tex))

      在这里,我们实现了几个步骤来“整理”语料库,并删除在word cloud中不能提供太多信息的常见单词。这些是直接来自 Kassambara’s的教程:
      将文本转换为小写

      docs <- tm_map(docs, content_transformer(tolower))

      删除数字

      docs <- tm_map(docs, removeNumbers)

      移除常用的英语词

      docs <- tm_map(docs, removeWords, stopwords("english"))

      指定要删除的任何附加字
      在完成可视化之后,重新查看这一行并添加任何额外的内容

      docs <- tm_map(docs, removeWords, c("president", "presidents", "also"))

      删除标点符号

      docs <- tm_map(docs, removePunctuation)

      删除多余的空格

      docs <- tm_map(docs, stripWhitespace)

      这里有一个随机化组件(主要是在布局方面),所以让我们锁定这个随机化,这样我们就可以重复完全相同的图

      set.seed(1)

      在绘制图形之前,我们将指定要输出到的图形设备
      我使用Cairo是因为它增加了抗混叠以获得更高的质量。

      CairoPNG("wordcloud.png", width = 450, height = 450)

      制造词云

      wordcloud(words = docs, 
                        scale=c(5,0.5), # size difference between largest and smallest words
                        min.freq = 1,
                        max.words = 150, # how many words to plot
                        random.order=FALSE, 
                        rot.per=0.35, # what % of words will be rotated
                        colors=brewer.pal(8, "Dark2")) # specify the color pallette

      关闭Cairo图形设备,它可以有效地将wordcloud保存为a.png

      dev.off()

      完成了!你应该有一个美丽的,半信息型的图形。请注意,这个图形最初是在大约20分钟内完成的,我收到了许多关于如何使它更好的建议。实验!

      如果本文对您有用,请点赞或者分享给朋友。
      您任何想法,请参与留言和评论。

      原文链接:
      https://www.kdnuggets.com/2019/04/mueller-report-word-cloud-brief-tutorial-r.html

      我们创建数据人网http://shujuren.org,它是数据人的家园,一个数据人学习,交流和分享的场所。欢迎您,大家一起来创造和分享数据知识,共建和共享数据智库,为智能化社会助力。

      数据人才(ID:datarencai)

      (一个帮助数据人才找工作的公众号,

      也分享数据人才学习和生活的有趣事情。)

      穆勒报告的词云:R的简版教程

      内容推荐


      • R中你应该学习的7种可视化

      • R的ggplot2包画折线图?

      • R的ggplot2包画柱状图?

      • 如何阅读论文?

      • 论文管理工具,我用Zotero

      • 一个数据人的2018

      测试结尾

      请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!

      • 分享:
      作者头像
      weinfoadmin

      上一篇文章

      DESeq2分析转录组之数据导入
      2019年4月26日

      下一篇文章

      哈佛R语言课程--5.数据框、矩阵、列表取子集
      2019年4月26日

      你可能也喜欢

      3-1665801675
      R语言学习:重读《R数据科学(中文版)》书籍
      28 9月, 2022
      6-1652833487
      经典铁死亡,再出新思路
      16 5月, 2022
      1-1651501980
      R语言学习:阅读《R For Everyone 》(第二版)
      1 5月, 2022

      搜索

      分类

      • R语言
      • TCGA数据挖掘
      • 单细胞RNA-seq测序
      • 在线会议直播预告与回放
      • 数据分析那些事儿分类
      • 未分类
      • 生信星球
      • 老俊俊的生信笔记

      投稿培训

      免费

      alphafold2培训

      免费

      群晖配置培训

      免费

      最新博文

      Nature | 单细胞技术揭示衰老细胞与肌肉再生
      301月2023
      lncRNA和miRNA生信分析系列讲座免费视频课和课件资源包,干货满满
      301月2023
      如何快速批量修改 Git 提交记录中的用户信息
      261月2023
      logo-eduma-the-best-lms-wordpress-theme

      (00) 123 456 789

      weinfoadmin@weinformatics.cn

      恒诺新知

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      链接

      • 课程
      • 事件
      • 展示
      • 问答

      支持

      • 文档
      • 论坛
      • 语言包
      • 发行状态

      推荐

      • iHub汉语代码托管
      • iLAB耗材管理
      • WooCommerce
      • 丁香园论坛

      weinformatics 即 恒诺新知。ICP备案号:粤ICP备19129767号

      • 关于我们
      • 博客
      • 联系
      • 成为一名讲师

      要成为一名讲师吗?

      加入数以千计的演讲者获得100%课时费!

      现在开始

      用你的站点账户登录

      忘记密码?

      还不是会员? 现在注册

      注册新帐户

      已经拥有注册账户? 现在登录

      close
      会员购买 你还没有登录,请先登录
      • ¥99 VIP-1个月
      • ¥199 VIP-半年
      • ¥299 VIP-1年
      在线支付 激活码

      立即支付
      支付宝
      微信支付
      请使用 支付宝 或 微信 扫码支付
      登录
      注册|忘记密码?