数据湖与 LakeHouse 依然炙手可热
马进网易数帆大数据实时计算技术专家、湖仓一体项目负责人,负责网易集团分布式数据库、数据传输平台、实时计算平台、实时数据湖等项目,长期从事中间件、大数据基础设施方面的研究和实践,目前带领团队聚焦于流批一体、湖仓一体的平台方案和技术演进,及流式湖仓服务 Arctic 项目开源。
近日,OSCHINA 和 Gitee 联合发布了《2022 中国开源开发者报告》。网易数帆大数据实时计算技术专家马进在报告中对开源 AI 领域进行了解读,以下为原文。
数据湖与 LakeHouse 依然炙手可热
2022 年,数据湖与 LakeHouse 依然是炙手可热的话题。一方面,在 Apache Iceberg、Apache Hudi、Delta 等知名开源项目的带动下,国内的一些基础软件公司也开始在数据湖开源领域积极布局,代表有网易数帆开源的湖仓管理系统 Arctic,阿里云开源的流式数仓 Flink Tablestore;另一方面,一些传统架构的开源数仓软件,以及闭源的数据分析引擎,也开始积极拥抱开放的数据湖格式,标志性事件如 Snowfake 可以对接 Delta 和 Iceberg,Doris 系的开源数仓可以查询 Iceberg 数据。
在众多开源项目与头部企业的带动下,行业和市场相比去年对 LakeHouse 的价值认知有了长足进步。
目前,用户切入 LakeHouse 主要有两点:一是数据湖上云,公有云的对象存储与私有化的 Hadoop 在一些功能上有较大不同,比如 list 和 rename 接口的性能缺陷,导致用户在把围绕 Hadoop 构建的数仓体系迁往云端时需要应对各种问题,而以 Iceberg 为代表的新型表格式在使用上天然不依赖这些接口,并且提供了 ACID、模式演进等高阶特性,为用户提供了更好的上云方案;二是数据处理的流批一体,新型数据湖格式的快照机制对流更加友好,可以将数据湖拓展到更多流计算场景,甚至演进到流式湖仓的场景,实现实时数仓和离线数仓在湖仓上的统一。
但需要承认的是,LakeHouse 这项技术还没有瓜熟蒂落,尤其在流批一体方面,依然有很多想象空间。在 Gartner 技术成熟度曲线中,LakeHouse 处于期望膨胀期的临界点,距离主流市场采纳还需要 2-5 年的时间。得益于数据湖天然的体量和成本优势,可以预见当 LakeHouse 成为标准技术方案时,它将给企业的数字化转型带来极具意义的变革。
《2022 中国开源开发者报告》报告由” 前沿开源技术领域解读 “ ” 中国开源创业观察 2022“,以及” 开发者画像分析 “ 三个章节组成。
在 “前沿开源技术领域解读” 部分,多位在其领域有所建树的一线开发者和开源商业化公司创始人,对目前国内外流行的前沿开源技术领域过去的发展和未来的趋势进行了深入的洞察,覆盖开源云原生、开源 AI、开源大前端、开源大数据、开源 DevOps、RISC-V、开源操作系统、开源数据库、编程语言九大领域。
欲了解更多报告内容,请点击:https://gitee.com/report/china-open-source-2022/

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
操作系统根社区或能应对停服难题
近日,OSCHINA 和 Gitee 联合发布了《2022 中国开源开发者报告》。麒麟软件副总经理李震宁在报告中对开源操作系统领域进行了解读,以下为原文。 操作系统根社区或能应对停服难题 2022 是极特殊的一年,我们看到开源界出现了社区版停服、商业版断供的一些情况。全球开发者都在寻找相关替代方案。Project Lenix 更名为 AlmaLinux ,CentOS 的原始创始人 Gregory Kurtzer 领导创始了 Rocky Linux,两者均迅速推出社区版本。同时,国内 OpenEuler、OpenAnolis、OpenCloudOS 等社区也纷纷出现。 经过测试,上述社区从版本上与 CentOS 都具备不同程度兼容,个别的应用不兼容也可以通过 docker 实现兼容。而欧拉等社区已经不再满足国外产品的再发行版,包的选择和维护走上了独立路线。这些根社区的出现从一定程度缓解了社区停服的技术难题。 但从应用趋势来看,很多大型商业应用是需要大量迁移适配和现场服务的,纯粹开源社区在商业化服务上就较难实现。于是国内现在也出现了像银河麒麟这样融合根社区技术的商业发行版本。 对标技术上...
- 下一篇
Debian 12“Bookworm”进入软冻结状态
本周Debian 12“Bookworm” Linux 发行版正式进入软冻结状态。从这个里程碑开始,Debian 12 的所有上传都仅限是小的、有针对性的修复,并且不允许新的源码包进入 Bookworm。 Bookworm 存档中的包也不再允许添加或删除二进制包。 周五 Debian 发布团队在邮件列表中宣布了软冻结,在该更新中指出: Bookworm的状态还是不错的。我们要求大家继续努力修复剩余的 RC 错误(请找到并归档那些当前未报告的错误), Link 列出了我们应该一起降到零的 Bug 清单。 请立即尝试将您的 bullseye 系统升级为 bookworm 并报告您遇到的问题。 Bookworm 存档中目前有 GNOME 43 软件包、 KDE Plasma 5.26.90、Linux 6.1 LTS 内核、Mesa 22.3、LLVM 15 以及与 Debian 11 相比更新的软件包。
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS6,CentOS7官方镜像安装Oracle11G
- CentOS7,8上快速安装Gitea,搭建Git服务器
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- MySQL8.0.19开启GTID主从同步CentOS8
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Red5直播服务器,属于Java语言的直播服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作