图文详解:DataHub产品概述
云栖号快速入门:【点击查看更多云产品快速入门】
不知道怎么入门?这里分分钟解决新手入门等基础问题,可快速完成产品配置操作!
产品概述
DataHub基本介绍
阿里云流数据处理平台DataHub是流式数据(Streaming Data)的处理平台,提供对流式数据的发布 (Publish),订阅 (Subscribe)和分发功能,让您可以轻松构建基于流式数据的分析和应用。DataHub服务可以对各种移动设备,应用软件,网站服务,传感器等产生的大量流式数据进行持续不断的采集,存储和处理。用户可以编写应用程序或者使用流计算引擎来处理写入到DataHub的流式数据比如实时web访问日志、应用日志、各种事件等,并产出各种实时的数据处理结果比如实时图表、报警信息、实时统计等。
DataHub服务基于阿里云自研的飞天平台,具有高可用,低延迟,高可扩展,高吞吐的特点。DataHub与阿里云流计算引擎StreamCompute无缝连接,用户可以轻松使用SQL进行流数据分析。
DataHub服务也提供分发流式数据到各种云产品的功能,目前支持分发到MaxCompute(原ODPS),OSS等。
系统整体功能图
产品优势
高吞吐
最高支持单shard每日8000万Record级别的写入量。
实时性
通过 DataHub ,您可以实时的收集各种方式生成的数据并进行实时的处理,对您的业务产生快速的响应。
易用性
- DataHub 提供丰富的SDK包,包括C++, JAVA, Pyhon, Ruby, Go等语言。
- DataHub服务也提供Restful API规范,您可以用自己的方式实现访问接口。
- 除了SDK以外,DataHub 还提供一些常用的客户端插件,包括:Fluentd,LogStash,Flume等。您可以使用这些客户端工具往 DataHub 里面写入流式数据。
- DataHub 同时支持强Schema的结构化数据(创建Tuple类型的Topic)和无类型的非结构化数据(创建Blob类型的Topic),您可以自由选择。
高可用
- 服务可用性不低于99.9%。
- 规模自动扩展,不影响对外服务;数据持久性不低于99.999%。
- 数据自动多重冗余备份。
动态伸缩
每个主题(Topic)的数据流吞吐能力可以动态扩展和减少,最高可达到每主题256000 Records/s的吞吐量。
高安全性
- 提供企业级多层次安全防护,多用户资源隔离机制;
- 提供多种鉴权和授权机制及白名单、主子账号功能。
使用场景
DataHub作为一个流式数据处理服务,结合阿里云众多云产品,可以构建一站式的数据处理服务。
流计算StreamCompute
StreamCompute是阿里云提供的流计算引擎,提供使用类SQL的语言来进行流式计算。DataHub 和StreamCompute无缝结合,可以作为StreamCompute的数据源和输出源,具体可参考实时计算文档
流处理应用
用户可以编写应用订阅DataHub中的数据,并进行实时的加工,把加工后的结果输出。用户可以把应用计算产生的结果输出到DataHub中,并使用另外一个应用来处理上一个应用生成的流式数据,来构建数据处理流程的DAG。
流式数据归档
用户的流式数据可以归档到 MaxCompute(原ODPS)中。用户通过创建DataHub Connector,指定相关配置,即可创建将Datahub中流式数据定期归档的同步任务。
本文来自 阿里云文档中心 DataHub 产品概述
【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/zhibo立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
数据库有哪些分类?应该怎样选择?终于有人讲明白了
即将开播:6月19日,互联网银行架构师魏生谈互联网开放银行实施路径的探索与思考 即将开播:4月29日,民生银行郭庆谈商业银行金融科技赋能的探索与实践--> 键值数据库 通常,只需要使用主键甚至是部分键来检索应用程序的数据。键/值数据库可以被看作一个非常大的哈希表,该表在唯一的键下存储了一些值。存储的值可以通过键或者部分键高效地检索到。因为该值对于数据库是不透明的,所以如果需要按值来查找一条记录的话就需要逐条扫描。 键/值数据库中的键可以包含多个元素,甚至可以排序以提高查询效率。一些键/值数据库允许使用键的前缀进行查找,从而可以使用复合键。如果数据可以通过一些简单的键嵌套查询,那键/值数据库会是个不错的选择。 例如,我们将客户xyz的订单存储在键/值数据库中,可以使用客户ID作为键的前缀,结合订单号组成键“xyz-1001”来存储订单。可以使用整个键来检索特定的订单,也可以使用“xyz”前缀检索客户xyz的所有订单。 说明:键/值数据库通常是比较便宜的,且具有高度可伸缩性的数据存储。键/值数据库能够根据键对数据进行分区甚至重分区。使用键/值数据库时,选择键很重要,因为这将对数据存储的规模...
- 下一篇
一文告诉你什么是边缘流数据分析
云栖号快速入门:【点击查看更多云产品快速入门】不知道怎么入门?这里分分钟解决新手入门等基础问题,可快速完成产品配置操作! 流数据分析 是一种使用流的方法快速实时处理数据的计算方式。边缘计算中的 流数据分析 ,继承了物联网平台的 流数据分析 能力。 在物联网平台创建流数据分析任务,并将该任务下发到边缘端,通过边缘设备实时运行。运行结果可以存储在边缘端也可以直接传输至云端。 边缘端流数据分析主要特点如下: 运行在边缘端,不依赖网络,低时延。 对数据进行采集、清洗、加工、聚合之后再上云,大大减少数据传输成本。 提供和阿里云流式计算完全相同的SQL语法。您开发一次SQL,既可以在云上执行、也可以在边缘执行。 提供了内建的字符串处理和时间、统计等各类计算函数。 支持对消息乱序的处理。 提供了流数据分析开发的图形化控制台。 本文来自 阿里云文档中心 物联网边缘计算 什么是边缘流数据分析 【云栖号在线课堂】每天都有产品技术专家分享!课程地址:https://yqh.aliyun.com/zhibo 立即加入社群,与专家面对面,及时了解课程最新动态!【云栖号在线课堂 社群】https://c.tb.c...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS关闭SELinux安全模块
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Red5直播服务器,属于Java语言的直播服务器