bboss hadoop hdfs大数据抽取工具-低调大师

bboss hadoop hdfs大数据抽取工具

2015-07-31 765

bboss大数据抽取工具功能特点如下：

实现db到hadoop hdfs数据导入功能，提供高效的分布式并行处理能力，可以采用数据库分区、按字段分区、分页方式并行批处理抽取db数据到hdfs文件系统中；能有效解决按字段分区抽取数据时，各分区数据不均匀导致作业任务处理节点负载不均衡的问题。
灵活的作业任务处理模式：可以增量方式执行作业任务，作业可以停止后重新执行，重新执行时只需执行未完成的作业任务，也可以全部重新执行所有作业任务；当停止作业后，可以在原有作业切分的基础进一步切分出子任务，然后再重新执行作业，提升系统处理数据效率。
数据处理服务器为每个作业分配独立的作业任务处理工作线程和任务执行队列，作业之间互不干扰
采用异步事件驱动模式来管理和分发作业指令、采集作业状态数据。
通过管理监控端，可以实时监控作业在各个数据处理节点作业任务的实时运行状态，查看作业的历史执行状态，方便地实现提交新的作业、重新执行作业、停止正在执行的作业、清除作业执行监控数据、同步作业任务执行状态等操作

工具架构拓扑图：

所采用的技术体系：

Bboss ioc：轻量级ioc容器，ioc扩展属性配置语法
Bboss持久层：高效数据查询行处理器，灵活动态数据源管理（连接池数据源/非连接池数据源），表分区信息查询等，动态创建作业配置表和作业监控记录表
Bboss分布式事件框架：基于JGroups，提供异步分布式事件驱动模型，动态管理作业节点（服务节点和数据处理节点），包括作业节点的动态加入、动态离开等；在管理节点、数据处理节点之间分发和接收各种作业处理指令事件
Bboss mvc：实现监控管理应用模块,在监控服务节点中，通过mvc 容器启动监听器启动作业管理节点
Bboss序列化组件：用来将作业监控数据序列化存储到sqllite中的作业监控表，同时在查看作业执行历史时将序列化存储的作业监控数据还原为对象状态的监控对象，便于界面展示
Bboss 标签库，jquery等：实现监控管理应用的视图层
Hadoop Hdfs客户端：用来连接hadoop hdfs文件系统
Sqllite：在监控节点中保存作业配置，保存作业执行状态数据
Jetty：运行监控管理应用模块的web应用容器
Bboss应用执行容器：用来启动作业管理监控应用、作业数据处理应用、启动jetty容器

bboss大数据抽取工具源码github托管地址：

https://github.com/bbossgroups/bigdatas

版本源码和发布包下载地址：

https://github.com/bbossgroups/bigdatas/releases

操作使用文档：大数据抽取工具管理操作手册.docx

微信关注我们

原文链接：https://yq.aliyun.com/articles/621808

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

四、伪分布下安装hive1.2

声明：本篇blog并没有配置MySQL，元数据库为derby 如需配置mysql请点击：http://blog.csdn.net/gamer_gyt/article/details/47776369 一、环境 Ubuntu14.04 hadoop2.6伪分布（安装教程请参考：点击打开链接） hive-1.2.1（下载链接：点击打开链接）二、安装 1、将其下载的安装包解压到相应的目录，在此小编的是/usr/local/hadoop/ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /usr/local/hadoop 重命名操作(为了后续方便) mv apache-hive-1.2.1-bin hive 2、配置hive的环境变量（在此注意，小编的profile中并未配置），故不细说 3、修改hive/conf下的几个template模板，并重命名为其他 cp hive-env.sh.template hive-env.sh cp hive-default.xml.template hive-site.xml 4、配置hive-env.sh文件...

2015-07-29

789

使用MapReduce编写的中文分词程序出现了Exception from container-launch: org.apache.hadoop.util.Shell$ExitCodeException: 这样的问题如图：上网查了好多资料，才明白这是hadoop本身的问题，具体参考： https://issues.apache.org/jira/browse/YARN-1298 https://issues.apache.org/jira/browse/MAPREDUCE-5655 解决办法是重新编译hadoop具体参考： http://zy19982004.iteye.com/blog/2031172

2015-07-31

811

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。