RMDB与hadoop的实时整合-低调大师

RMDB与hadoop的实时整合

2016-05-12 831

一、MySQL的Hadoop Applier

实现原理是：把hadoop作为MYSQL 的slave，实时把数据同步到hadoop,支持apache hadoop

通过分析MYSQL的binlog日志,在hdfs产生一个目录（同表名），所有的表记录都存储在一个文件中，用户的操作如插入，更新，删除都会产生一笔记录追加到文件末尾.

但如何利用hdfs上的这个数据，需要用户自己定义逻辑，把表中的数据插入到hbase表

详见：http://dev.mysql.com/tech-resources/articles/mysql-hadoop-applier.html

二、GoldenGate的HDFS Adapter

Oracle GoldGate's 也有类似的工具，通过分析Trails File把数据实时同步到hadoop

ORACLE官方网站提供了Hdfs Adapter，但不提供服务支持
详见：https://blogs.oracle.com/dataintegration/entry/streaming_relational_transactions_to_hadoop

微信关注我们

原文链接：https://yq.aliyun.com/articles/43463

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

hadoop : hdfs的心跳时间设置及心跳检测算法

datenode以固定周期向namenode发送心跳，namenode如果在一段时间内没有收到心跳，就会标记datenode为宕机。此段时间的计算公式是：timeout = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval 而默认的heartbeat.recheck.interval 大小为5分钟，dfs.heartbeat.interval默认的大小为3秒。所以namenode如果在10分钟+30秒后，仍然没有收到datanode的心跳，就认为datanode已经宕机，并标记为dead 注意:hdfs-site.xml中 heartbeat.recheck.interval的单位为毫秒 dfs.heartbeat.interval的单位为秒 http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml

2016-05-12

689

一、针对hadoop集群的磁盘配置建议针对datanode,建议采用一组单独的磁盘，针对namenode节点，建议采用raid5或raid1来实现针对metadata的冗灾。二、针对此问题讨论的资料针对此问题，两篇文章从不同角度论证为什么Hadoop更青睐JBOD而不是RAID-0。分别是： Steve Loughran所撰写的《Why not RAID-0? It’s about Time and Snowflakes》，对Greg Bruno博士（工程副总裁及StackIQ联合创始人）的一个采访《Proper Care and Feeding of Drives in a Hadoop Cluster: A Conversation with StackIQ’s Dr. Bruno》 Raid0的资料：将多个磁盘合并成一个大的磁盘，不具有冗余，并行I/O，速度最快。RAID 0亦称为带区集。它是将多个磁盘并列起来，成为一个大磁盘。在存放数据时，其将数据按磁盘的个数来进行分段，然后同时将这些数据写进这些盘中，所以在所有的级别中，RAID 0的速度是最快的。但是RAID ...

2016-05-12

666

资源下载

更多资源

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。