白鲸开源代立冬:数据技术快速更迭, DataOps 应运而生
代立冬
白鲸开源联合创始人,Apache DolphinScheduler PMC 主席,Apache SeaTunnel PPMC,Apache 基金会正式成员,Apache 孵化器导师,ApacheCon Asia 大数据论坛主席。
近日,OSCHINA 和 Gitee 联合发布了《2022 中国开源开发者报告》。白鲸开源联合创始人代立冬在报告中对开源大数据领域发展进行了解读,以下为原文。
数据技术快速更迭, DataOps 应运而生
2022 年的大数据发展如火如荼,OLAP、数据湖、数据集成、DataOps、MLOps 等领域非常火热,企业数字化、数智化发展十分蓬勃,开源原生公司发展迅速,数据湖三剑客 Apache Iceberg、Apache Hudi 加上 DataBricks 主导的 Delta Lake 都已经有商业化公司的助力。数据领域的估值愈发突起,比如 DBT Labs 估值已经达到 40 多亿美金,Airbyte 估值已经 15 亿美金。国内以天谋科技、思斐、SelectDB、白鲸开源为代表的大数据开源原生公司开始展露头角。
数据技术正在快速迭代,且迭代速度比以往任何时候都更快,每年新诞生的技术多达几十种,在此的背景下,DataOps 应运而生。DataOps 围绕云原生、敏捷智能化、多云能力等方向重构现代数据技术栈,涵盖了现代数据处理的整个生命周期,包括数据采集、数据加工(ELT/ETL)、数据集成、数据安全、数据治理等多个方面,利用 DataOps 可以高效打造现代数据智能高速公路。
根据 Gartner 的总结,我们来看一下 DataOps 在数据运营体系关键要素中的作用:
(1)流程控制:在 DataOps 中,自动化测试和统计流程控制在数据管道的每一步运行,过滤和消除数据错误,这些数据错误会破坏分析,并产生大量计划外工作影响生产效率。
(2)变更管理: DataOps 关注的是跟踪、更新、同步、集成和维护驱动数据分析管道的代码、文件和功能组件。
(3)并行开发:DataOps 组织并划分数据开发各个阶段,以便团队成员可以高效地协同工作,而不会发生资源冲突。
(4)虚拟化技术环境: DataOps 会虚拟化技术环境,以便将开发与生产隔离。虚拟化可以让业务创新更轻松地通过开发流程,并快速流向生产环境。当需要时,数据分析师可以快速启动一个开发环境,其中包括所需的工具、安全访问、数据、代码。
(5)复用:DataOps 支持复用模型,标准化被广泛使用的功能和分析组件,并简化虚拟环境之间的迁移。
(6)响应能力和灵活性:DataOps 设计数据分析管道以适应不同的运行时情况。这种灵活性使分析能够更好地响应组织的需求和不断变化的优先级。
(7)快速变化:DataOps 将构建技术环境,以实现尽可能短的开发周期时间,同时满足数据使用者的要求。DataOps 的设计理念就是基于变革,DataOps 体系结构将动态数据处理能力视为 “核心思想”,而不是 “亡羊补牢”,做事后的更改。
(8)团队协同:DataOps 协调任务、角色和工作流,以打破不同数据团队和业务团队之间的障碍,以便更好地协同工作。
可以说,DataOps 是快速实践数字化转型的理论指导,贯穿于现代数据技术栈的始末,DataOps 也是降本提效的最佳路径,实践 DataOps 路径的收益立竿见影。
《2022 中国开源开发者报告》报告由” 前沿开源技术领域解读 “ ” 中国开源创业观察 2022“,以及” 开发者画像分析 “ 三个章节组成。
在 “前沿开源技术领域解读” 部分,多位在其领域有所建树的一线开发者和开源商业化公司创始人,对目前国内外流行的前沿开源技术领域过去的发展和未来的趋势进行了深入的洞察,覆盖开源云原生、开源 AI、开源大前端、开源大数据、开源 DevOps、RISC-V、开源操作系统、开源数据库、编程语言九大领域。
欲了解更多报告内容,请点击:https://gitee.com/report/china-open-source-2022/

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Bittly —— 通讯调试工具
Bittly是一个通讯调试工具,支持通讯调试、上位机面板、自动化测试、自动响应。 指令管理 支持多种参数构建方式,省去大小端以及进制转换的步骤 支持无限制保存通讯数据,可通过文件夹的方式进行分类管理 支持快捷调用等函数来自动生成校验数据或者随机数据 支持通过脚本来生成更加复杂的请求内容 文件模式 文件模式支持逐行发送,即可将一系列参数放入一个文件中加载进来, 通过点击“发送”按钮来逐行发送请求内容。 支持鼠标随时修改当前发送行。 响应解析 响应绘图解析绘图解析支持多种解析方式,可通过配置解析器自动适应响应内容而不用修改代码来适应绘图。 绘图解析支持文本,数据帧,数据矩阵,格式化结构,正则表达式以及脚本等多种解析方式。 支持多频道同时绘制。 上位机面板 通过将指令绑定到按钮或者下拉框中来控制数据的发送,然后将响应内容绑定到变量上, 当变量值更新时则会自动刷新展示组件例如角度或者高度等值, 上位机面板可通过日志面板实时查看通讯数据;以及通过变量面板实时查看变量值。 自动化测试 支持单元测试和功能测试两种模式 单元测试用于针对某一指令发送不同的参数并和期待的响应内容进行对比 功能测试用于针对...
- 下一篇
eBPF 为云原生应用可观测性开启更多可能性
来源 云杉网络创始人兼 COO。云杉网络旗下开源项目 DeepFlow 是一款面向云原生开发者的高度自动化的可观测性平台,使用了 eBPF、WASM、OpenTelemetry 等新技术,创新地实现了 AutoTracing、AutoMetrics、AutoTagging、SmartEncoding 等核心机制,极大避免了埋点插码,显著降低了后端数仓的资源开销。 近日,OSCHINA 和 Gitee 联合发布了《2022 中国开源开发者报告》。云杉网络创始人兼 COO来源在报告中对开源云原生领域发展进行了解读,以下为原文。 eBPF为云原生应用可观测性开启更多可能性 Alexei Starovoitov 在 2014 年引入了扩展 BPF (external BPF) 设计,可以直接将 BPF 虚拟机开放至用户空间,为内核运行用户空间程序。谁也不会预想到,它在 2022 年被火热追捧。 eBPF 具备的安全以及高效的特点,在云、容器以及微服务应用发展迅速的今天,使基于 eBPF 的应用程序有了更多契合场景,在云安全、容器网络、分布式应用追踪以及可观测性等方面得到了广泛使用与创新。 在可...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS8编译安装MySQL8.0.19
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Hadoop3单机部署,实现最简伪集群
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS7设置SWAP分区,小内存服务器的救世主
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8安装Docker,最新的服务器搭配容器使用
- Docker安装Oracle12C,快速搭建Oracle学习环境