穆勒报告的词云:R的简版教程
这是一个利用R代码从穆勒报告生成一个词云的快速而简版的教程,可以在Github上面找到
(https://github.com/raklein/mueller-wordcloud)。
所有的功劳都归于Alboukadel Kassambara的word cloud教程(http://www.sthda.com/english/wiki/text-mining-and-word-cloud-fundamentals-in-r-5-simple-steps-you-should-know)。
【好书推荐:R-Data Analysis and Visualization,一本详细介绍R做数据分析和可视化的书籍,把本文分享到朋友圈,添加微信luqin360截图告知,即可获取】
因为我只是实现了一个简短的版本并添加了几行代码。

在删除常见和无信息的单词后,词云是文本中最常用单词的简单视觉摘要。它们提供与直方图基本相同的信息,但不太精确,而且更加引人注目。它们可以让您快速了解文本中的主题,这在您处理448页合法内容时非常有用。
首先,加载我们需要的库。我们将使用:
library("pdftools") # to convert pdf to text
library("tm") # tools to work with text
library("wordcloud") # generate the wordcloud
library("RColorBrewer") # color palette
library("Cairo") # antialiasing for better graphics
现在下载报告并将其放在工作目录中
(例如,https://cdn.cnn.com/cnn/2019/images/04/18/mueller-report-searchable.pdf)。
将pdf转换为文本,并将其存储为字符向量。这里会出现错误,但是对于这个文档来说,它没有问题。
tex <- pdf_text("mueller-report-searchable.pdf")
将文本字符串转换为语料库,这样tm包就可以使用它
docs <- Corpus(VectorSource(tex))
在这里,我们实现了几个步骤来“整理”语料库,并删除在word cloud中不能提供太多信息的常见单词。这些是直接来自 Kassambara’s的教程:
将文本转换为小写
docs <- tm_map(docs, content_transformer(tolower))
删除数字
docs <- tm_map(docs, removeNumbers)
移除常用的英语词
docs <- tm_map(docs, removeWords, stopwords("english"))
指定要删除的任何附加字
在完成可视化之后,重新查看这一行并添加任何额外的内容
docs <- tm_map(docs, removeWords, c("president", "presidents", "also"))
删除标点符号
docs <- tm_map(docs, removePunctuation)
删除多余的空格
docs <- tm_map(docs, stripWhitespace)
这里有一个随机化组件(主要是在布局方面),所以让我们锁定这个随机化,这样我们就可以重复完全相同的图
set.seed(1)
在绘制图形之前,我们将指定要输出到的图形设备
我使用Cairo是因为它增加了抗混叠以获得更高的质量。
CairoPNG("wordcloud.png", width = 450, height = 450)
制造词云
wordcloud(words = docs,
scale=c(5,0.5), # size difference between largest and smallest words
min.freq = 1,
max.words = 150, # how many words to plot
random.order=FALSE,
rot.per=0.35, # what % of words will be rotated
colors=brewer.pal(8, "Dark2")) # specify the color pallette
关闭Cairo图形设备,它可以有效地将wordcloud保存为a.png
dev.off()
完成了!你应该有一个美丽的,半信息型的图形。请注意,这个图形最初是在大约20分钟内完成的,我收到了许多关于如何使它更好的建议。实验!
如果本文对您有用,请点赞或者分享给朋友。
您任何想法,请参与留言和评论。
原文链接:
https://www.kdnuggets.com/2019/04/mueller-report-word-cloud-brief-tutorial-r.html
我们创建数据人网http://shujuren.org,它是数据人的家园,一个数据人学习,交流和分享的场所。欢迎您,大家一起来创造和分享数据知识,共建和共享数据智库,为智能化社会助力。
数据人才(ID:datarencai)
(一个帮助数据人才找工作的公众号,
也分享数据人才学习和生活的有趣事情。)
内容推荐
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!