RMDB与hadoop的实时整合
一、MySQL的Hadoop Applier
实现原理是:把hadoop作为MYSQL 的slave,实时把数据同步到hadoop,支持apache hadoop
通过分析MYSQL的binlog日志,在hdfs产生一个目录(同表名),所有的表记录都存储在一个文件中,用户的操作如插入,更新,删除都会产生一笔记录追加到文件末尾.
但如何利用hdfs上的这个数据,需要用户自己定义逻辑,把表中的数据插入到hbase表
详见:http://dev.mysql.com/tech-resources/articles/mysql-hadoop-applier.html
二、GoldenGate的HDFS Adapter
Oracle GoldGate's 也有类似的工具,通过分析Trails File把数据实时同步到hadoop
ORACLE官方网站提供了Hdfs Adapter,但不提供服务支持
详见:https://blogs.oracle.com/dataintegration/entry/streaming_relational_transactions_to_hadoop

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
hadoop : hdfs的心跳时间设置及心跳检测算法
datenode以固定周期向namenode发送心跳,namenode如果在一段时间内没有收到心跳,就会标记datenode为宕机。 此段时间的计算公式是:timeout = 2 * heartbeat.recheck.interval + 10 * dfs.heartbeat.interval 而默认的heartbeat.recheck.interval 大小为5分钟,dfs.heartbeat.interval默认的大小为3秒。 所以namenode如果在10分钟+30秒后,仍然没有收到datanode的心跳,就认为datanode已经宕机,并标记为dead 注意:hdfs-site.xml中 heartbeat.recheck.interval的单位为毫秒 dfs.heartbeat.interval的单位为秒 http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
- 下一篇
Hadoop: Why Not Use RAID?
一、针对hadoop集群的磁盘配置建议 针对datanode,建议采用一组单独的磁盘,针对namenode节点,建议采用raid5或raid1来实现针对metadata的冗灾。 二、针对此问题讨论的资料 针对此问题,两篇文章从不同角度论证为什么Hadoop更青睐JBOD而不是RAID-0。分别是: Steve Loughran所撰写的《Why not RAID-0? It’s about Time and Snowflakes》, 对Greg Bruno博士(工程副总裁及StackIQ联合创始人)的一个采访《Proper Care and Feeding of Drives in a Hadoop Cluster: A Conversation with StackIQ’s Dr. Bruno》 Raid0的资料: 将多个磁盘合并成一个大的磁盘,不具有冗余,并行I/O,速度最快。RAID 0亦称为带区集。它是将多个磁盘并列起来,成为一个大磁盘。在存放数据时,其将数据按磁盘的个数来进行分段,然后同时将这些数据写进这些盘中,所以在所有的级别中,RAID 0的速度是最快的。但是RAID ...
相关文章
文章评论
共有0条评论来说两句吧...