MapReduce实现倒排索引（类似协同过滤）

2016-12-13 845

一、问题背景

　　倒排索引其实就是出现次数越多，那么权重越大，不过我国有凤巢....zf为啥不管，总局回应推广是不是广告有争议...

　　eclipse里ctrl+t找接口或者抽象类的实现类，看看都有啥方法，有时候hadoop的抽象类返回的接口没有需要的方法，那么我们返回他的实现类。

　　吧需要的文件放入hdfs下的目录下，只要不是以下划线开头的均算。

二、理论准备

　　搜索引擎查询的时候就是查询这个单词文档矩阵，旺旺采用倒排索引存储，后缀树也可以。

　　不管理论直接看例子，这是原始的文档

　　下面是简单的索引，只是表征是否在文档中出现过。

　　下面就是文档及出现次数。

　　擦，咋有点想协同过滤。

三、思路分析

　　其实是一个全文检索的数据结构。理论上关键字出现次数越多，那么文章就越靠前。

　　就是wc的加强版本。wc是统计单词在文章里出现的次数，倒排是统计关键字在各个文章出现的次数。

　　有时候不能一下子写出来，可能需要多次mr，那么我们首先确定最终的结果形式，然后向上反推。

　　如果多个mr，考虑使用combiner，不过要考虑combiner是不是可插拔的，也就是combiner和业务逻辑是否和reducer一样。

　　怎么知道单词出现在那个文章里？从context对象里获取。既然能忘context写东西，那么也能从其中获取信息。

　　最终结果是

hello	"a.txt->5 b.txt->3"
tom		"a.txt->2 b.txt->1"
kitty	"a.txt->1"

　　那么reduce的输出

context.write("hello","a.txt->5 b.txt->3");

　　那么combiner阶段是

<"hello",{"a.txt->5","b.txt->3"}>

　　那么map的输出

context.write("hello","a.txt->5");
context.write("hello","b.txt->3");

　　不过考虑到wc，map的输出应该是，路径放在value不好处理，还要廉价呢。

context.write("hello->a.txt",1);
context.write("hello->a.txt",1);
context.write("hello->a.txt",1);
context.write("hello->a.txt",1);
context.write("hello->a.txt",1);

context.write("hello->b.txt",1);
context.write("hello->b.txt",1);
context.write("hello->b.txt",1);

　　那么combiner阶段根据就输出

<"hello->a.txt",1>
<"hello->a.txt",1>
<"hello->a.txt",1>
<"hello->a.txt",1>
<"hello->a.txt",1>

<"hello->b.txt",1>
<"hello->b.txt",1>
<"hello->b.txt",1>

context.write("hello","a.txt->5");
context.write("hello","b.txt->3");

　次是不同文件的相同key并没有合并，reducer合并输出皆可。

四、代码实现

4.1 Mapper

public class IIMapper1 extends Mapper<LongWritable, Text, Text, Text> {

	private Text k = new Text();
	//下面其实是int，不过也可以在接收端Integer.parseInt转了就好
	private Text v = new Text();
	public void map(LongWritable key, Text value, Context context)
			throws IOException, InterruptedException {
		String line = value.toString();
		String[] words = line.split(" ");
		//从context对象里找到单词属于那个文章
		//context.getInputSplit();找到切片 按ctrl找 发现返回时InputSplit
		//不过是个抽象类 ctrl + t找他的实现类
		//能把数据写入context，繁殖也能从context拿到很多信息
		//从下面inputSplit调用get的时候发现没有合适的方法，那么我们找他的实现类，调用实现类的方法
		//InputSplit inputSplit = context.getInputSplit();
		//inputSplit.get
		
		//他的子类很多    我们处理文件就用File开头的  然后有个getPath
		FileSplit inputSplit = (FileSplit)context.getInputSplit();
		//文件名是hdfs://hostname：port/a/1.txt
		//我们戒掉hdfs://hostname：port  不能戒掉a  应为这是文件夹否则不知道1.txt来自哪 其他文件家下可能也有同名文件
		//也可以不接去
		String path = inputSplit.getPath().toString();
		for(String w:words) {
			k.set(w+"->"+path);
			v.set("1");
			context.write(k, v);
		}
	}

}

4.2 Combiner

String[] wordAndPath = key.toString().split("->");
		String word = wordAndPath[0];
		String path = wordAndPath[1];
		// process values
		int sum = 0;
		for (Text val : value) {
			sum += Integer.parseInt(val.toString());
		}
		k.set(word);
		v.set(path+"->"+sum);
		context.write(k, v);

4.3 Reducer

//不涉及多线程 用StringBuilde即可
		StringBuilder sb = new StringBuilder();
		// process values
		for (Text val : value) {
			sb.append(val.toString()).append("\t");
		}
		context.write(key, new Text(sb.toString()));

四、实验分析

微信关注我们

原文链接：https://yq.aliyun.com/articles/288400

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hbase操作table常见方法示例

首先上我的输出类： /** * 功能：电池历史数据数据结构 * Created by liuhuichao on 2016/12/5. */ public class ResBatteryDataHistory implements Serializable { private String batteryNo; private Integer batteryType; private Float voltageDeviation; private Float totalVoltage; private String createTime; private Integer createUser; private Integer source; private Float vol1; private Float vol2; private Float vol3; private Float vol4; private Float vol5; private Float vol6; private Float vol7; private Float vol8; private Float ...

2016-12-13

695

编译环境必须的安装包安装jdk 安装mvn 配置本地仓库路径更换阿里云maven镜像强烈推荐更换 Native libraries ProtocolBuffer 250 可选的安装包 Snappy compression Bzip2 Jansson C Library for JSON Linux FUSE 编译eclipse plugin 切换到root编译hadoop-maven-plugins 生成eclipse项目 ProtocolBuffer版本问题解决办法先卸载libbprotoc 下载protobuf-250targz 解压安装编译好的源码eclipse可直接导入编译环境 ubuntu 16.04 64bit jdk 1.7.0_79 maven 3.3.9 hadoop-2.7.3-src 必须的安装包安装jdk tar zxf jdk-7u79-linux-x64.tar.gz sudo vim /etc/profile export JAVA_HOME=/opt/jdk1.7.0_79 export PATH=$JAVA_HOME/bin:$PATH ...

2016-12-14

950

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。