处理hadoop发送的文件到后台并解析存储到数据库策略-低调大师

处理hadoop发送的文件到后台并解析存储到数据库策略

2015-04-30 546 89

处理hadoop发送的文件到后台并解析存储到数据库策略

主要实现：首先 hadoop mapreduce 处理好的文件，一个个放到指定的文件目录下，然后通过在Linux 下通过定时任务打包发到 web 服务器的指定目录下，然后web 服务器会通过定时任务去解析它，然后，存储导数据库。

1.上篇介绍了文件的解压，通过解压后文件会形成多个文件。

如图，解压后，我们会发现有很多文件，然后我们该去对每个文件读取内容并存到数据库中。

2. map 为所有文件解析类

dataMap 所有数据类所有文件的数据都存储到datamap 中了

for (File subfile : subFiles){
	AbstractFileParser ifp = map.get(subfile.getName());
	if (ifp != null) {
		try {
			ifp = ifp.getClass().newInstance();
			ifp.init(subfile, (StatMap) dataMap.get(subfile.getName()));
			jobList.add(ifp);
			ifp.start();
		} catch (Exception e) { e.printStackTrace(); }
	}
}
for (Thread ifp : jobList)
{
	try {
		ifp.join();
	} catch (InterruptedException e) { e.printStackTrace(); }
}

AbstractFileParser 类

BufferedReader bufferedReader = null;
try
{
	bufferedReader = new BufferedReader(new FileReader(this.file));
	String s = null;
	while ((s = bufferedReader.readLine()) != null)
	{
		if (isDebug || logger.isDebugEnabled())
			logger.debug(s);
		String[] ss = s.split(",");
		StatBase o = parseLine(ss);
		if (o != null)
		{
			StatBase b = null;
			synchronized (map)
			{
				b = map.get(o.getPrivateKey());
				if (b == null)
				{
					map.put(o.getPrivateKey(), o);
				}
				else
				{
					update(o, b);
				}
			}
		}
	}
}
catch (Exception e)
{
	logger.error("", e);
}
finally
{
	if (bufferedReader != null)
		try
		{
			bufferedReader.close();
		}
		catch (IOException e)
		{
		}
}

保存到 datamap 中的数据要进行数据库保存

捐助开发者

在兴趣的驱动下,写一个免费的东西，有欣喜，也还有汗水，希望你喜欢我的作品，同时也能支持一下。当然，有钱捧个钱场（右上角的爱心标志，支持支付宝和PayPal捐助），没钱捧个人场，谢谢各位。

谢谢您的赞助，我会做的更好！

微信关注我们

原文链接：https://yq.aliyun.com/articles/643350

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

如何高效的阅读hadoop源代码？

这篇文章的内容是从知乎的帖子上摘抄下来的，是董西成的经验之作，虽然我还没有来的及通读源码，但觉得这经验有些意义就转载来与大家共享。 ============ 首先，不得不说，hadoop发展到现在这个阶段，代码已经变得非常庞大臃肿，如果你直接阅读最新版本的源代码，难度比较大，需要足够的耐心和时间，所以，如果你觉得认真一次，认真阅读一次hadoop源代码，一定要有足够的心理准备和时间预期。其次，需要注意，阅读Hadoop源代码的效率，因人而异，如果你有足够的分布式系统知识储备，看过类似的系统，则能够很快地读它的源代码进行通读，并快速切入你最关注的局部细节，比如你之前看过某个分布式数据库的源代码，对分布式系统的网络通信模块，调度模块等有一定了解，这对阅读hadoop源代码有极大帮助；如果你是一个初学者，对hadoop一无所知，只了解一些java语法，那阅读hadoop源代码是极具挑战的一件事情，尤其是从无到开始入门的过程，是极度煎熬和困惑的，这时候需要你在阅读代码过程中，不断补充缺乏的相关知识（比如RPC，NIO，设计模式等），循序渐进，直到入门。接下来进入主题，说一下阅读源代码的个人...

762

hadoop 2.6伪分布安装

hadoop 2.6的“伪”分式安装与“全”分式安装相比，大部分操作是相同的，主要区别在于不用配置slaves文件，而且其它xxx-core.xml里的参数很多也可以省略，下面是几个关键的配置：（安装JDK、创建用户、设置SSH免密码这些准备工作，大家可参考hadoop 2.6全分布安装一文，以下所有配置文件，均在$HADOOP_HOME/etc/hadoop目录下）另外,如果之前用 yum install hadoop安装过低版本的hadoop,请先卸载干净(即:yum remove hadoop) 一、修改hadoop-env.sh 主要是设置JAVA_HOME的路径，另外按官网说法还要添加一个HADOOP_PREFIX的导出变量，参考下面的内容： export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.65.x86_64export HADOOP_PREFIX=/home/hadoop/hadoop-2.6.0 二、修改core-site.xml 1 <configuration> 2 <prope...

541

资源下载

更多资源

Mario，低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Oracle Database，又名Oracle RDBMS

Oracle Database，又名Oracle RDBMS，或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统，系统可移植性好、使用方便、功能强，适用于各类大、中、小、微机环境。它是一种高效率、可靠性好的、适应高吞吐量的数据库方案。

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包，主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心，它包含了JAVA的运行环境（JVM+Java系统类库）和JAVA工具。

Sublime Text 一个代码编辑器

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。