bboss hadoop hdfs大数据抽取工具
- 实现db到hadoop hdfs数据导入功能,提供高效的分布式并行处理能力,可以采用数据库分区、按字段分区、分页方式并行批处理抽取db数据到hdfs文件系统中;能有效解决按字段分区抽取数据时,各分区数据不均匀导致作业任务处理节点负载不均衡的问题。
- 灵活的作业任务处理模式:可以增量方式执行作业任务,作业可以停止后重新执行,重新执行时只需执行未完成的作业任务,也可以全部重新执行所有作业任务;当停止作业后,可以在原有作业切分的基础进一步切分出子任务,然后再重新执行作业,提升系统处理数据效率。
- 数据处理服务器为每个作业分配独立的作业任务处理工作线程和任务执行队列,作业之间互不干扰
- 采用异步事件驱动模式来管理和分发作业指令、采集作业状态数据。
- 通过管理监控端,可以实时监控作业在各个数据处理节点作业任务的实时运行状态,查看作业的历史执行状态,方便地实现提交新的作业、重新执行作业、停止正在执行的作业、清除作业执行监控数据、同步作业任务执行状态等操作
工具架构拓扑图:
所采用的技术体系:
- Bboss ioc:轻量级ioc容器,ioc扩展属性配置语法
- Bboss持久层:高效数据查询行处理器,灵活动态数据源管理(连接池数据源/非连接池数据源),表分区信息查询等,动态创建作业配置表和作业监控记录表
- Bboss分布式事件框架:基于JGroups,提供异步分布式事件驱动模型,动态管理作业节点(服务节点和数据处理节点),包括作业节点的动态加入、动态离开等;在管理节点、数据处理节点之间分发和接收各种作业处理指令事件
- Bboss mvc:实现监控管理应用模块,在监控服务节点中,通过mvc 容器启动监听器启动作业管理节点
- Bboss序列化组件:用来将作业监控数据序列化存储到sqllite中的作业监控表,同时在查看作业执行历史时将序列化存储的作业监控数据还原为对象状态的监控对象,便于界面展示
- Bboss 标签库,jquery等:实现监控管理应用的视图层
- Hadoop Hdfs客户端:用来连接hadoop hdfs文件系统
- Sqllite:在监控节点中保存作业配置,保存作业执行状态数据
- Jetty:运行监控管理应用模块的web应用容器
- Bboss应用执行容器:用来启动作业管理监控应用、作业数据处理应用、启动jetty容器
bboss大数据抽取工具源码github托管地址:
https://github.com/bbossgroups/bigdatas
版本源码和发布包下载地址:
https://github.com/bbossgroups/bigdatas/releases
操作使用文档: 大数据抽取工具管理操作手册.docx

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
四、伪分布下安装hive1.2
声明:本篇blog并没有配置MySQL,元数据库为derby 如需配置mysql请点击:http://blog.csdn.net/gamer_gyt/article/details/47776369 一、环境 Ubuntu14.04 hadoop2.6伪分布(安装教程请参考:点击打开链接) hive-1.2.1(下载链接:点击打开链接) 二、安装 1、将其下载的安装包解压到相应的目录,在此小编的是/usr/local/hadoop/ tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /usr/local/hadoop 重命名操作(为了后续方便) mv apache-hive-1.2.1-bin hive 2、配置hive的环境变量(在此注意,小编的profile中并未配置),故不细说 3、修改hive/conf下的几个template模板,并重命名为其他 cp hive-env.sh.template hive-env.sh cp hive-default.xml.template hive-site.xml 4、配置hive-env.sh文件...
- 下一篇
Exception from container-launch: org.apache.hadoop.util.Shell$ExitCode...
使用MapReduce编写的中文分词程序出现了Exception from container-launch: org.apache.hadoop.util.Shell$ExitCodeException: 这样的问题如图: 上网查了好多资料,才明白这是hadoop本身的问题,具体参考: https://issues.apache.org/jira/browse/YARN-1298 https://issues.apache.org/jira/browse/MAPREDUCE-5655 解决办法是重新编译hadoop具体参考: http://zy19982004.iteye.com/blog/2031172
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Red5直播服务器,属于Java语言的直播服务器
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- CentOS6,CentOS7官方镜像安装Oracle11G
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7,CentOS8安装Elasticsearch6.8.6
- CentOS7设置SWAP分区,小内存服务器的救世主
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS关闭SELinux安全模块