MapReduce稍微高级编程之PageRank算法的实现-低调大师

MapReduce稍微高级编程之PageRank算法的实现

2019-03-05 607

一、概念：
PageRank是Google专有的算法，用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。是Google创始人拉里·佩奇和谢尔盖·布林于1997年创造的。PageRank实现了将链接价值概念作为排名因素。

这幅图表示的是一个简单的网络，下面介绍几个名词：

入链：指向该页面的链接为入链，入链相当于投票，到一个页面的超链接相当于对该页投一票。
入链数量：如果一个页面节点接收到的其他网页指向的入链数量越多，那么这个页面越重要
入链质量：指向页面A的入链质量不同，质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A，则页面A越重要。质量是指不同网页发出的链接所含的权重是不同的，比如百度百科里面的链接和你自己写的网页里面的链接肯定是不能比的。这么做主要是为了防止别人恶意刷“流量”。
出链：从本页面发出的链接为出链。

二、计算过程：
下面我们介绍一下PageRank的算法流程：

初始值：
每个页面设置相同的PR值，Google的PageRank算法给每个页面的PR初始值为1，该页面的所有出链均分该页面的值。以上图为例，A页面的初始值为1，然后它每一条出链会均分它的值，即'AB' = 0.5,'AD' = 0.5，以此类推，最后每条链接都有自己的初始值。
迭代递归计算：每个页面都会先减去它通过出链输出去的值变成0，然后又会加上它的入链送进来的值得到新的价值。Google不断的重复计算每个页面的PageRank。那么经过不断的重复计算，这些页面的PR值会趋向于稳定，也就是收敛的状态。
在具体企业应用中怎么样确定收敛标准？
1. 每个页面的PR值和上一次计算的PR相等
  1. 设定一个差值指标（0.0001）。当所有页面和上一次计算的PR差值平均小于该标准时，则收敛。
    1. 设定一个百分比（99%），当99%的页面和上一次计算的PR相等

三、算法修正：
上面的算法有点小问题，试想一下如果有一个页面它只有入度没有出度，即“孤立网页”。那么经过若干次计算后，该网络的权值会慢慢流向这个只进不出的页面，使得这个页面的价值异常增大。因此我们需要对 PageRank公式进行修正。即在简单公式的基础上增加了阻尼系数（damping factor）q， q一般取值q=0.85。完整的计算公式：

四、代码书写：
切入正题，开始写代码。
mapreduce是M->R单向过程，那么当需要这么做“M->R->M->R....”的时候,则需要设置累加器传参数。

enum Count {
    my
}

这是个累加器定义，后面会获取它。

Map：
假设我们拿到的网页数据是这么表示的：

/**按照制表符分割
 * A    1    B    D
 * B    1    C
 * C    1    A    B
 * D    1    B    C
 */

第0列为页面名称，第1列表示该页面的价值（初始值为1），其后的每一列表示的是该页面所有的出链指向的页面名称，当然数量是不固定的。下面是Map阶段的代码：

class PageRankMapper extends Mapper<LongWritable, Text, Text, Text> {
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {  
String[] split = value.toString().split("\t");//首先拿到值，返回列表
String page = split[0];//page名称
Double pagerank = Double.parseDouble(split[1]);//初始值是1，但是在随后的计算中会出现小数所以在这里转成Double
//获取出链列表
String[] outlist = Arrays.copyOfRange(split, 2, split.length);//用Array里面的方法复制剩下的页面，构成专门的页面数组，方便后面的迭代。

//1、平分之后的pr值
Double avgPr = pagerank / outlist.length;
//map阶段是要将数据的值发给reduce计算的，下面构造key和value
for (String s : outlist) {
    Text outKey = new Text(s);//key        
    Text outValue = new Text(avgPr.toString() + "\t*");//value值，以 "\t*"结尾是为了区分不同类型的数据
    //第一种数据：key是页面名称，value是被分到的值（将与来自不同map的value一起计算求和）
    context.write(outKey, outValue);
}

//指定分隔符拼接数组，将原有的行数据发过去，保持“A   1   B   C”这样的每个网页的出链列表还存在，然后将计算的结果替换1
//加上上一次网页的pr值
String outListStr = split[1] + "\t" + StringUtils.join(outlist, "\t");
Text text = new Text(outListStr + "\t#");  
context.write(new Text(page), text);
  }
}

Reduce:
拿到map发过来的数据应该是这样的<'A',['0.5 ','0.25 ','1 B D #']>,然后开始处理数据：

class PageRankReducer extends Reducer<Text, Text, Text, Text> {

@Override
protected void reduce(Text key, Iterable<Text> values, Context context) throws         IOException, InterruptedException {
//当前网页的pagerank值
Double sum = 0.0;
String lastPrAndOutList = "";
for (Text value : values) {
    String[] split = value.toString().split("\t");//每个value值都是用制表符分割的，且最后一个字符是标记，表示哪种类型的数据
    String flag = split[split.length - 1];//取标记
    //出链列表和上一次网页的pr值
    if ("#".equals(flag)) {//出链列表
        lastPrAndOutList = value.toString();
    } else if ("*".equals(flag)) {//pagerank值加和
        sum = sum + 
Double.parseDouble(split[0]);
    }
}

String[] split = lastPrAndOutList.split("\t");

//上一次pr值
Double lastPr = Double.parseDouble(split[0]);

String[] outList = Arrays.copyOfRange(split, 1, split.length - 1);//构成输出

//加上阻尼系数,计算当前pr值
Double currPr = 0.15 / 4 + 0.85 * sum;

//取绝对值
long abs = (long) (Math.abs(currPr - lastPr) * 1000);

//获取累加器对象
Counter counter = context.getCounter(Count.my);

//累加
/**
 * 累加所有网页pr值的差值
 */
counter.increment(abs);

//写入到hdfs
/**
 * A    0.5     B    D
 * B    1.5     C
 * C     1.5     A     B
 * D     0.5     B     C
 */
context.write(key, new Text(currPr.toString() + "\t" + StringUtils.join(outList, "\t")));  }}

设置job：

public class RunJob {

public static void main(String[] args) throws Exception {

int i = 0;//用来拼接字符串的

//收敛阈值
double flag = 0.1;

while (true) {
    i++;
    Configuration config = new Configuration();
    FileSystem fs = FileSystem.get(config);
    Job job = Job.getInstance(config);
    job.setJarByClass(com.shujia.mr.pagerank.RunJob.class);
    job.setJobName("pagerank");
    job.setMapperClass(PageRankMapper.class);
    job.setReducerClass(PageRankReducer.class);
    job.setMapOutputKeyClass(Text.class);
    job.setMapOutputValueClass(Text.class);
    job.setInputFormatClass(TextInputFormat.class);

    Path inputPath = new Path("E:\\data\\pagerank.txt");

        //后一次读取前一次的输出结果
        if (i > 1) {
            inputPath = new Path("E:\\data\\out" + (i - 1));
        }

        FileInputFormat.addInputPath(job, inputPath);

        Path outPath = new Path("E:\\data\\out" + i);
        if (fs.exists(outPath)) {
            fs.delete(outPath, true);
        }

        FileOutputFormat.setOutputPath(job, outPath);
        boolean f = job.waitForCompletion(true);

        //计算当前所有网页的pagerank的和上一次pagerank的差值的平均值
        //当差值的平均值小于设定的阈值之后收敛

        /**
         * 累加器
         *  在map端或者reduce端累加，在主函数里面读取的一个变量
         *
         */

        //获取累加器的值
        Counter counter = job.getCounters().findCounter(Count.my);
        long value = counter.getValue();

        //差值的平均值
        double l = value / 4000.0;

        System.out.println(l);

        //当差值的平均值小于设定的阈值后收敛
        if (l < flag) {
            break;
        }
    }
}
}

结语：

本篇只是简单地实现了pagerank算法，还有很多复杂情况处理，比如说并没有考虑入链质量问题，所以仅供练习。

微信关注我们

原文链接：https://yq.aliyun.com/articles/692566

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

实时计算最佳实践：基于表格存储和Blink的大数据实时计算

表格存储: 数据存储和数据消费All in one 表格存储（Table Store）是阿里云自研的NoSQL多模型数据库，提供PB级结构化数据存储、千万TPS以及毫秒级延迟的服务能力。在实时计算场景里，表格存储强大的写入能力和多模型的存储形态，使其不仅可以作为计算结果表，同时也完全具备作为实时计算源表的能力。通道服务是表格存储提供的全增量一体化数据消费功能，为用户提供了增量、全量和增量加全它量三种类型的分布式数据实时消费通道。实时计算场景下，通过为数据表建立数据通道，用户可以以流式计算的方式对表中历史存量和新增数据做数据消费。利用表格存储存储引擎强大的写入能力和通道服务完备的流式消费能力，用户可以轻松做到数据存储和实时处理all in one！ Blink: 流批一体的数据处理引擎 Blink是阿里云在Apache Flink基础上深

2019-03-06

860

本文根据演讲视频以及PPT整理而成。本文将主要围绕以下四个方面进行分享：时序数据与时序数据库时序数据库的演变时序数据库对比总结一、时序数据与时序数据库什么是时序数据库？按照维基百科解释，时间序列数据库（TSDB）是一个为了用于处理时间序列数据而优化的软件系统，其按时间数值或时间范围进行索引。时序数据库增长趋势时序数据库从2014年开始就被DB-Engine列入了单独的数据库类别进行统计。下图所示的是在过去的24个月内所有数据库类别在DB-Engine上的增长趋势，可以看出时序数据库的增长趋势排在第一位。时序数据举例列举一个时序数据的例子，比如在张北有一些风力发电机组，这些风力发电机都具有能够代表自身唯一性的标签(Tag)，比如生产厂商、风场、型号以及自身ID等，而每个风机都会产生一些指标(Metrics)，比如当前的运转功率、当前

2019-03-06

606

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。