【数据挖掘】十大经典数据挖掘算法R语言实践(十)
续《十大经典数据挖掘算法R语言实践(九)》,本文介绍PageRank算法在R语言中如何使用。
数据集
利用人工构造的数据集,随机地生成具有10个对象的有向图
PageRank算法R语言实践
第一步:加载R包
library(igraph)
第二步:随机生成具有10个对象的有向图
g <-random.graph.game(n=10, p.or.m=1/4, directed =TRUE)
第三步:画有向图
plot(g)
第四步:计算PageRank
pr <-page.rank(g)$vector
第五步:显示每个对象的 PageRank
df <-data.frame(Object =1:10,PageRank = pr)
arrange(df,desc(PageRank))
PageRank算法原理
1 PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。Google的创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明了这项技术。
2 PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。
参考资料
1 《数据挖掘导论》和《数据挖掘:概念与技术》
3 Top10 data mining algorithms in plain R
中国数据人QQ群:290937046,使命:让更多人懂数据、用数据。陆勤微信:luqin360 ,多交流。
请关注“恒诺新知”微信公众号,感谢“R语言“,”数据那些事儿“,”老俊俊的生信笔记“,”冷🈚️思“,“珞珈R”,“生信星球”的支持!