MapReduce稍微高级编程之PageRank算法的实现
一、概念: PageRank是Google专有的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。是Google创始人拉里·佩奇和谢尔盖·布林于1997年创造的。PageRank实现了将链接价值概念作为排名因素。这幅图表示的是一个简单的网络,下面介绍几个名词: 入链:指向该页面的链接为入链,入链相当于投票,到一个页面的超链接相当于对该页投一票。 入链数量:如果一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要 入链质量:指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A,则页面A越重要。质量是指不同网页发出的链接所含的权重是不同的,比如百度百科里面的链接和你自己写的网页里面的链接肯定是不能比的。这么做主要是为了防止别人恶意刷“流量”。 出链:从本页面发出的链接为出链。 二、计算过程:下面我们介绍一下PageRank的算法流程: 初始值: 每个页面设置相同的PR值,Google的PageRank算法给每个页面的PR初始值为1,该页面的所有出链均分该页面的值。以上图为例,A页面的初始值为1,然后它每一条...

