MapReduce业务－图片关联计算

2016-04-24 444

1.概述

　　最近在和人交流时谈到数据相似度和数据共性问题，而刚好在业务层面有类似的需求，今天和大家分享这类问题的解决思路，分享目录如下所示：

业务背景
编码实践
预览截图

　　下面开始今天的内容分享。

2.业务背景

　　目前有这样一个背景，在一大堆数据中，里面存放着图片的相关信息，如下图所示：

　　上图只是给大家列举的一个示例数据格式，第一列表示自身图片，第二、第三......等列表示与第一列相关联的图片信息。那么我们从这堆数据中如何找出他们拥有相同图片信息的图片。

2.1 实现思路

　　那么，我们在明确了上述需求后，下面我们来分析它的实现思路。首先，我们通过上图所要实现的目标结果，其最终计算结果如下所示：

pic_001pic_002 pic_003,pic_004,pic_005
pic_001pic_003 pic_002,pic_005
pic_001pic_004 pic_002,pic_005
pic_001pic_005 pic_002,pic_003,pic_004
......

　　结果如上所示，找出两两图片之间的共性图片，结果未列完整，只是列举了部分，具体结果大家可以参考截图预览的相关信息。

　　下面给大家介绍解决思路，通过观察数据，我们可以发现在上述数据当中，我们要计算图片两两的共性图片，可以从关联图片入手，在关联图片中我们可以找到共性图片的关联信息，比如：我们要计算pic001pic002图片的共性图片，我们可以在关联图片中找到两者（pic001pic002组合）后对应的自身图片（key），最后在将所有的key求并集即为两者的共性图片信息，具体信息如下图所示：

　　通过上图，我们可以知道具体的实现思路，步骤如下所示：

第一步：拆分数据，关联数据两两组合作为Key输出。
第二步：将相同Key分组，然后求并集得到计算结果。

　　这里使用一个MR来完成此项工作，在明白了实现思路后，我们接下来去实现对应的编码。

3.编码实践

拆分数据，两两组合。

public static class PictureMap extends Mapper<LongWritable, Text, Text, Text> {

        @Override
        protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, Text>.Context context)
                throws IOException, InterruptedException {
            StringTokenizer strToken = new StringTokenizer(value.toString());
            Text owner = new Text();

            Set<String> set = new TreeSet<String>();

            owner.set(strToken.nextToken());
            while (strToken.hasMoreTokens()) {
                set.add(strToken.nextToken());
            }

            String[] relations = new String[set.size()];
            relations = set.toArray(relations);

            for (int i = 0; i < relations.length; i++) {
                for (int j = i + 1; j < relations.length; j++) {
                    String outPutKey = relations[i] + relations[j];
                    context.write(new Text(outPutKey), owner);
                }

            }
        }
    }

按Key分组，求并集

public static class PictureReduce extends Reducer<Text, Text, Text, Text> {

        @Override
        protected void reduce(Text key, Iterable<Text> values, Reducer<Text, Text, Text, Text>.Context context)
                throws IOException, InterruptedException {
            String common = "";
            for (Text val : values) {
                if (common == "") {
                    common = val.toString();
                } else {
                    common = common + "," + val.toString();
                }
            }
            context.write(key, new Text(common));
        }
    }

完整示例

package cn.hadoop.hdfs.example;

import java.io.IOException;
import java.util.Set;
import java.util.StringTokenizer;
import java.util.TreeSet;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import cn.hadoop.hdfs.util.HDFSUtils;
import cn.hadoop.hdfs.util.SystemConfig;

/**
 * @Date Aug 31, 2015
 *
 * @Author dengjie
 *
 * @Note Find picture relations
 */
public class PictureRelations extends Configured implements Tool {

    private static Logger log = LoggerFactory.getLogger(PictureRelations.class);
    private static Configuration conf;

    static {
        String tag = SystemConfig.getProperty("dev.tag");
        String[] hosts = SystemConfig.getPropertyArray(tag + ".hdfs.host", ",");
        conf = new Configuration();
        conf.set("fs.defaultFS", "hdfs://cluster1");
        conf.set("dfs.nameservices", "cluster1");
        conf.set("dfs.ha.namenodes.cluster1", "nna,nns");
        conf.set("dfs.namenode.rpc-address.cluster1.nna", hosts[0]);
        conf.set("dfs.namenode.rpc-address.cluster1.nns", hosts[1]);
        conf.set("dfs.client.failover.proxy.provider.cluster1",
                "org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider");
        conf.set("fs.hdfs.impl", org.apache.hadoop.hdfs.DistributedFileSystem.class.getName());
        conf.set("fs.file.impl", org.apache.hadoop.fs.LocalFileSystem.class.getName());
    }

    public static class PictureMap extends Mapper<LongWritable, Text, Text, Text> {

        @Override
        protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, Text>.Context context)
                throws IOException, InterruptedException {
            StringTokenizer strToken = new StringTokenizer(value.toString());
            Text owner = new Text();

            Set<String> set = new TreeSet<String>();

            owner.set(strToken.nextToken());
            while (strToken.hasMoreTokens()) {
                set.add(strToken.nextToken());
            }

            String[] relations = new String[set.size()];
            relations = set.toArray(relations);

            for (int i = 0; i < relations.length; i++) {
                for (int j = i + 1; j < relations.length; j++) {
                    String outPutKey = relations[i] + relations[j];
                    context.write(new Text(outPutKey), owner);
                }

            }
        }
    }

    public static class PictureReduce extends Reducer<Text, Text, Text, Text> {

        @Override
        protected void reduce(Text key, Iterable<Text> values, Reducer<Text, Text, Text, Text>.Context context)
                throws IOException, InterruptedException {
            String common = "";
            for (Text val : values) {
                if (common == "") {
                    common = val.toString();
                } else {
                    common = common + "," + val.toString();
                }
            }
            context.write(key, new Text(common));
        }
    }

    public int run(String[] args) throws Exception {
        final Job job = Job.getInstance(conf);
        job.setJarByClass(PictureMap.class);
        job.setMapperClass(PictureMap.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(Text.class);
        job.setReducerClass(PictureReduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        FileInputFormat.setInputPaths(job, args[0]);
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        int status = job.waitForCompletion(true) ? 0 : 1;
        return status;
    }

    public static void main(String[] args) {
        try {
            if (args.length != 1) {
                log.warn("args length must be 1 and as date param");
                return;
            }
            String tmpIn = SystemConfig.getProperty("hdfs.input.path.v2");
            String tmpOut = SystemConfig.getProperty("hdfs.output.path.v2");
            String inPath = String.format(tmpIn, "t_pic_20150801.log");
            String outPath = String.format(tmpOut, "meta/" + args[0]);

            // bak dfs file to old
            HDFSUtils.bak(tmpOut, outPath, "meta/" + args[0] + "-old", conf);

            args = new String[] { inPath, outPath };
            int res = ToolRunner.run(new Configuration(), new PictureRelations(), args);
            System.exit(res);
        } catch (Exception ex) {
            ex.printStackTrace();
            log.error("Picture relations task has error,msg is" + ex.getMessage());
        }

    }

}

4.截图预览

　　关于计算结果，如下图所示：

5.总结

　　本篇博客只是从思路上实现了图片关联计算，在数据量大的情况下，是有待优化的，这里就不多做赘述了，后续有时间在为大家分析其中的细节。

6.结束语

　　这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

微信关注我们

原文链接：https://yq.aliyun.com/articles/34000

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

ElasticSearch实战－编码实践

1.概述前面在《ElasticSearch实战－入门》中给大家分享如何搭建这样一个集群，在完成集群的搭建后，今天给大家分享如何实现对应的业务功能模块，下面是今天的分享内容，目录如下所示：编码实践效果预览总结 2.编码实践由于 ES 集群支持 Restful 接口，我们可以直接通过 Java 来调用 Restful 接口来查询我们需要的数据结果，并将查询到的结果在在我们的业务界面可视化出来。我们知道在 ES 集群的 Web 管理界面有这样一个入口，如下图所示：我们可以在此界面的入口中拼接 JSON 字符串来查询我们想要的结果，下面，我们通过 Java 的 API 去调用 Restful 接口来查询我们想要的结果。 2.1 字符串拼接实现接着，我们去实现要查询的核心代码，具体内容实现如下所示： public String buildQueryString(Map<String, Object> param) throws ParseException { SimpleDateFormat dfs = new SimpleDateFormat("yyyy-MM-dd...

2016-04-25

650

1.概述 JStorm 是一个类似于 Hadoop 的MapReduce的计算系统，它是由Alibaba开源的实时计算模型，它使用Java重写了原生的Storm模型（Clojure和Java混合编写的），并且再原来的基础上做了许多改进。用户只需按照指定的接口实现一个任务，然后将这个任务提交给JStorm系统，JStorm在接受了任务指令后，会无间断运行任务，一旦出现异常导致某个Worker发送故障，调度器立刻会分配一个新的Worker去顶替异常的Worker。下面是本次分享的目录结构：应用场景基本术语 JStorm比较 JStorm架构总结下面开始今天的内容分享。 2.应用场景从应用的角度来说，JStorm它是一种分布式的应用；从系统层面来说，它又类似于MapReduce这样的调度系统；而从数据方面来说，它又是一种基于流水数据的实时处理解决方案。如今，DT时代的当下，用户和企业也不仅仅只满足于离线数据，对于数据的实时性要求也越来越高了。在早期，Storm和JStorm未问世之前，业界有很多实时计算系统，可谓百家争鸣，自Storm和JStorm出世之后，基本这两者占据...

2016-04-25

663

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

MapReduce业务－图片关联计算

1.概述

2.业务背景

2.1 实现思路

3.编码实践

4.截图预览

5.总结

6.结束语

ElasticSearch实战－编码实践

JStorm－介绍

相关文章

发表评论

资源下载

腾讯云软件源

Nacos

Spring

Rocky Linux

欢迎您来访！

MapReduce业务 － 图片关联计算

1.概述

2.业务背景

2.1 实现思路

3.编码实践

4.截图预览

5.总结

6.结束语

ElasticSearch实战－编码实践

JStorm－介绍

相关文章

发表评论

资源下载

腾讯云软件源

Nacos

Spring

Rocky Linux

欢迎您来访！

MapReduce业务－图片关联计算