Σco时间 | 大数据存算是“分”还是“合”?华为给你正确答案!
【51CTO.com原创稿件】华为企业业务中国 4天前虽然因“疫情”的影响,让技术人群放弃了聚会,减少了面对面沟通,但他们对于学习和交流的渴望从未停歇过。为此华为特别推出了#Σco时间#系列栏目,以线上直播+互动的形式,共话技术变革与行业转型。
3月4日下午3点,本期#Σco时间#聚焦的话题是“大数据存算是‘分’还是‘合’,您做对了吗?”——华为智能数据与存储分布式存储高级营销专家崔玉祥来到了华为“智能数据基础设施「学数派」”直播间,分享了华为如何看待存算分离的价值,以及华为大数据的存算分离解决方案和应用实践,并与上千位线上嘉宾探讨了存算分离技术的发展趋势和市场前景。
数字经济时代,大数据架构走向存算分离
崔玉祥介绍道,在数字经济时代,数据已经成为新的生产资料,并从数据管理走向数据运营,大数据正发挥着越来越重要的作用,数据驱动体验、数据驱动决策、数据驱动流程的各种应用每天都在不断上演。随着5G和AI技术的发展,数据量必将迎来爆发式的增长,在这样的形势下,传统的大数据存算一体架构,在多个行业都面临着资源利用率不均、存储成本高、资源共享难的挑战。
以国内电信运营商为例,每年市场采购金额高达上亿元,但是如此巨大的投资在支持电信业务的同时,也带来了计算资源浪费,庞大的服务器设备占据机房空间导致制冷供电费用高涨等诸多挑战,“降本增效”成为电信运营商的重要诉求。而同样的,提升资源利用率,部署弹性灵活,按需调度计算资源这些诉求,也成为金融、政务领域用户亟待解决的课题。
如何化解这么多挑战?崔玉祥认为,计算存储分离是大数据架构演进的必然趋势,也是解决行业用户数据痛点的一大利器。他解释道,在Hadoop1.0时代,计算和存储是高度融合的,仅能处理单一的MapReduce分析业务;到了Hadoop2.0时代,计算层与数据开始解耦,通过Yarn实现了独立的资源管理,并开始支持Spark等更多的计算引擎;而如今已经到了Hadoop3.0时代,计算存储走向分离,通过Hadoop EC来支持冷数据的存储,逐步向数据湖架构演进。“存算分离其实更适合企业级市场,它实现了资源云化和灵活扩展,能够让用户享受更专业的存储,更佳的可靠性和利用率。”
三大优势令华为OceanStor分布式存储更懂用户
在2019年,华为创新性地推出了大数据存算分离解决方案,崔玉祥向观看嘉宾详细讲解了华为OceanStor分布式存储,一个能够打造更高性价比的大数据存储方案。简直就是为多样式存储和超大数据量的用户量身定制。“简单总结,华为OceanStor分布式存储最鲜明的三个特点就是成本更优、效率更高、使用更简。”
【成本更优】在成本方面,华为OceanStor分布式存储实现存算分离,资源按需独立扩展,弹性EC+分级,存储成本大幅降低。“性能、可靠性和HDFS三副本相当,但是存储利用率相比三副本提升1.75倍,”崔玉祥还特别指出,OceanStor分布式存储可以通过自动生命周期管理获得更佳的性价比,且计算侧无感知。用户可以定义不同的数据写入策略,使不同类型的应用读写不同的存储池,实现资源的物尽其用;用户还可以定义数据迁移策略,实现热、温、冷数据的自动转换,降低整体TCO。
他以上文中提到的电信运营商为例,运营商日志留存场景下,计算利用率为30%时,总容量需求大于256TB 时,改用存算分离方案会有TCO优势;总容量需求大于2PB时,存算分离方案的TCO节省会达到40%以上。
【效率更高】在数据应用效率方面,华为OceanStor分布式存储采用全对称分布式NameNode,集群性能和支持文件数随节点数目增加,单一命名空间支持文件数达百亿级。不仅如此,华为还实现了多集群数据融合互通,提升数据共享和分析效率,协议互通更是提升了分析效率30%,降低空间占用50%。“在一家金融客户的应用测试中,基于相同的计算和存储硬件配置,OceanStor存储存算分离方案在大部分测试中,性能均超过了原生HDFS三副本,部分测试项的执行时间甚至降低了70%以上。”
【使用更简】在实际操作运维方面,华为原生HDFS接口提供了更佳性能和使用体验,例如完整HDFS语义100%兼容主流大数据组件,用户无需安装插件,安装维护简单。更重要的是,通过ViewFS或Hbase元数据网关方式可以实现新老共存,保护用户已有投资,系统级数据冗余保护能够支持4节点同时失效。崔玉祥特别强调,即使发生节点故障,华为OceanStor分布式存储也能够自动调整EC级别,确保新写入数据可靠性不下降,与此同时,多节点并行重构,可实现2TB/小时数据恢复效率。
存算分离,助力千行百业大数据进阶
自2019年以来,华为OceanStor分布式存储解决方案已经被广泛应用在电信、金融、政务、大型企业各个领域中。在本次直播活动中,崔玉祥专门分享了两个有代表性的应用案例。
在江苏,原有的政务系统大多采用的是烟囱化部署,数据孤岛比比皆是。然而随着数据量快速增长,江苏决定基于华为存算分离解决方案开始打造分层解耦、高效共享的大数据平台。华为帮助江苏政务系统打造了一个统一大数据平台,可以同时支撑多种业务,实现部门间数据快速共享,实现政务服务“最多跑一次”。在部署中,存算分离就大显身手,加上计算资源和存储资源云化,实现了资源灵活分配,业务上线时间缩短90% 。同时,借助OceanStor分布式存储的弹性EC技术,将存储利用率从33% 提升到91.6%,从容应对数据快速增长的挑战。
在河北电信,已部署安装了89台存算一体的大数据集群,整体存储空间使用率已超80%,存储空间不足,经常需要通过删除数据的方式释放存储空间。而且现有机房空间紧张,仅能容纳135台2U服务器,按原有存算一体方式扩容,机房空间无法满足要求。对此,华为创新性地采用存算一体+存算分离共存的方案,扩容100个计算节点+35个存储节点,使用Hadoop数据联邦方案(ViewFS),既解决了新老共存问题,又实现 了性能和容量的均衡扩展,相比原始方案提升60%可用容量。崔玉祥指出,存算分离方案无缝扩容,数据均衡读写,用户既不需要升级现网大数据版本,也不需要迁移现网数据。
相信通过本次直播活动,及华为大咖带来的精彩分享,行业用户对于存算分离将会有更加深刻的认识,对于如何选择合适自己的存算分离解决方案,也能做到心中有数了
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】
点赞 0
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
RSA 2020新品调研:解密改善安全运营效能的“法宝”
RSA 2020在旧金山落下帷幕。大会期间共有41家安全厂商发布了新产品,涉及安全安全管理、威胁情报、安全开发、安全演练与测试、安全认证与可信环境、网络安全、云安全、应用安全、终端安全和数据安全11个领域,基本上覆盖了企业网络安全所有需求。其中安全管理类产品、服务和平台共计14款,占比37%,是技术和产品演进速度最快的一个领域。 2020年RSA大会发布新品分布情况 接下来绿盟君将以安全运营的视角,盘点、总结下新产品和服务,看看它们可以帮助企业解决哪些问题,带来什么样的变化。 RSA 2020大会期间发布的新产品主要有两个特征:第一,过去两年在大会上的热点产品与技术已趋于成熟,例如SOAR、MDR服务、MSS服务;第二,传统的产品和技术在进一步演进和更新,例如具备可信验证功能的认证产品与技术,攻击模拟和靶场技术与安全管理平台。 企业和机构在构建和完善安全运营体系可以考虑: 第一, 对于已经趋于成熟产品与技术,企业和机构可以考虑大规模引入到企业的安全运营体系,例如SOAR、MDR服务、MSS服务。 第二, 考虑对一些传统设备进行升级和替代,引入或扩展新的安全机制和能力。例如采用具备可信验...
- 下一篇
企业的存储设备已为数据驱动型经济做好了准备吗?
组织需要重新考虑其存储架构,以实现数据驱动型经济。组织如何捕获、存储和分析数据的方式可以决定在这种新的经济模式中数据驱动组织的成功程度。 数据驱动的经济不仅限于使用人工智能(AI)和深度学习(DL)做出更好的决策。尽管这些应用无疑至关重要,但其他关键驱动因素还包括5G的可用性,这提高了移动性并创建了新的边缘/核心关系以及用于培训和获利。数据驱动型经济的用例包括自动驾驶汽车、互联城市、个性化医疗、定制媒体和娱乐、新的金融模式和市场,以及“一切皆服务”现象。 数据驱动的经济要求新的存储和数据管理架构。这些体系结构需要超越仅提供分布式容量的传统横向扩展存储解决方案。数据驱动型经济的存储体系结构需要利用横向扩展来分发所有数据管理服务,例如元数据存储、数据索引和搜索以及安全性和分析处理。另外,支持数据驱动型经济的存储基础设施不会位于单个位置或数据中心。它的分布式特性需要一个全局全局名称空间,该名称空间可以从任何地方存储和访问数据和应用程序。 来自传感器和设备等来源的非结构化数据是数据驱动型经济的基础。与过去几年不同,该数据是大小文件的混合。文件的数量可以达到数十亿个,并且它们可能消耗数PB的容量...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Linux系统CentOS6、CentOS7手动修改IP地址
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Docker安装Oracle12C,快速搭建Oracle学习环境
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS7,CentOS8安装Elasticsearch6.8.6