实践：大数据平台1.0总结和2.0演化路线-低调大师

实践：大数据平台1.0总结和2.0演化路线

2018-06-05 707

从3月份到现在2个月过去了，整个数据平台从0到1，算是有了一个基本的样子，跌跌撞撞的勉强支撑起运营的一些基本业务，当然这仅仅是开始，下一步还要从零打造自己的UBS系统，想想都兴奋呢!接下来总结下自己这段时间的得失，以及下一阶段的演化目标。

　　关于产品架构的原则可以查看这里，我分了两篇来写：

　　https://www.cnblogs.com/buoge/p/9093096.html

　　目前的架构方式是这样的:

　　从使用Sqoop 定时从MySQL中同步数据，数据量大只能小水管的去fetch每次5-10W条记录，避免数据库压力过大

　　Flume tailagent 每汇总一小时然后传递logcenter,通过Python过滤后批量的Load到hive中

　　每日的报表在Hive的基础上会跑一些 MR 的Job, 作为每日的固化查询。

　　目前的缺点和不足：

　　问题：日志读取,Hive入库和完成后删除log日志原始文件没有做完整的事务控制，load失败或是任务失败，原始日志已经删除了，尴尬:sweat:，目前解决方式是保留15天的原始日志

　　解决方案：后续引入Kafka的日志回放功能，它有机制保证写入一次后在返回

　　问题：各种crontab 飞起没有统一的调度平台，crontab 之间有依赖关系，但是crontab并没有做前后的依赖检查和重试

　　原因：数据就我一个人，平台架构和业务要同时搞，老板在后面催没有这么多时间容许我慢慢的搞的这么精细

　　解决方案：引入azkaban任务调度平台，统一管理

　　问题： Hue还没安装，神器不解释了，把各个集群的指标汇总在一起，HDFS，Yarn, MapReduce都能在一个页面直观的看到，而且还有个方便的功能就是Hive的web客户端，不用每次都去终端敲ssh命令，公司网垃圾ssh老是断浪费时间

　　问题： HDFS数据不能修改，只能删除重建，这里其实更适合日志类的信息，像订单分析和会员分析，需要做增量更新的记录则不合适，就几万条记录需要更新，但是把上亿级别的表删除在重建绝对是有问题的

　　问题： HDFS 同步有24小时的时间差，这期间线上的订单和会员信息已经发生了百万级别甚至更多的变化，而hadoop集群却没法及时的同步，从Hive出去的报表也不会包含这个空档期间的数据，准确性和实时性有待提高

　　解决方案引入Tidb 分布式NewSql解决方案，或是Hbase这类读写和更新更有好的分布式方案，下一步准备先接入Tidb

　　问题： hive 查询慢，rest api 查询不友好，根据我之前提过的架构原则，适合和简单原则，hive查询慢并不是阻碍我实现业务的主要障碍，慢一些不会有太大关系，但是之前说的数据的增量更新和热数据的实时查询，并配合后续的实时数据流模块，作为流方案的数据落地方案

　　数据平台2.0Lambda架构，离线批处理和实时流方案结合：

　　关于大数据3中架构模式的补充

　　Lambda架构：

　　Kappa架构：

▲图片来源：https://blog.csdn.net/Post_Yuan/article/details/52241252

　　未来的展望，去ETL化的IOTA ：

　　核心是边缘计算，前两个没啥好让人兴奋的反而是边缘计算，让人兴奋，流量剧增，单靠数据局中心肯定会不是一个明智的决定，数据中心的压力会越来越大，期间的高可用，弹性，容错，一致性要求更高，届时数据的规模会倒逼架构走边缘计算的模式，而当下分布式去中心话的计算也是颠覆性的势头

　　原来由数据中心完成的ETL任务交由业务终端完成，数据中心接受统一格式的CommonModel,大幅度减轻数据中心的ETL, 这种方式固然美好，但是咱们的产品，用户，市场策略是不断变化的，你不知道突然之间要不要换一种什么策略去度量整个产品数据，尽可能的完全的收集，尽可能多的收集没毛病，就像当初的google爬去网页建立自己的索引，后续不断优化自己的搜索算法，而雅虎只是实时爬去后没有存储快照，整个算法调整没有数据的支撑是很难的，当然也是我自己的臆测，到底有去ETL化我不敢肯定，但是去中心化的边缘计算要给1024个赞!

原文发布时间为：2018-06-6

本文来自云栖社区合作伙伴“IT168”，了解相关信息可以关注“IT168”。

微信关注我们

原文链接：https://yq.aliyun.com/articles/600127

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

当云HBase2.0被赋能了search

概述云HBase2.0也就是我们即将要上线的ApsaraDBforHBase2.0。它不仅兼容开源HBase2.0，也承载着阿里多年大规模HBase使用的技术积淀，还有广大公有云用户喜欢的商业化功能。在大数据量场景中已经具有如此优势的云HBase2.0，如果还能search呢？技术简介云HBase2.0上的search是基于最新版本的solr7.3.x研发。数据通过replication准实时的同步到solrcloud中，利用solr实现数据的检索。具体过程如下：通过配置文件或者SQL中指定要同步的索引列以及分词器等信息，建立HBase与solr表之间的映射关系。当有HBase中发生数据操作（插入／更新／删除）时，对应的操作数据将会被捕获，转化为doc写入solrcloud中。索引列作为全文索引进行检索。先检索solr中对应的

2018-06-05

766

大数据新兴技术不断涌现，让我们更容易更精准的从海量繁杂的数据中提取有用价值。开源作为一种推动大数据技术创新的新模式，正广受技术开发人员的热爱。一、大数据市场前景无限近年来，我国大数据政策频频发布，2014年“大数据”的概念首次正式写入《政府工作报告》，其后的2015年是大数据政策顶层设计年、2016年政策细化落地，国家发改委、环保部、工信部、国家林业局、农业部等均推出了关于大数据的发展意见和方案，2017年，大数据产业的发展正从理论研究加速进入应用时代，大数据与前沿科技的结合也越来越紧密。2017年，习近平明确要求实施国家大数据战略，加快建设数字中国。随着一系列利好政策的发布，大数据创业公司不断涌现，风险投资等机构也在追逐这个行业。大数据领域的创新创业变为常态，形成了大数据领域创新的力量。大数据作为一种不会枯竭并且不断增值的重要的资源，是经济社会发展的重要推力，市场前途不可限量。从2014到2020年我国大数据市场规模不断扩大，其中2017-2018年正是市场高速成长期，大数据龙头企业较多，小微企业也分得庞大市场中的一杯羹。大数据产业整体蓬勃，未来向好。二、开源推动大数据技术创...

2018-06-05

730

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。