首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://my.oschina.net/jiagoushi/blog/5586558

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

特征平台在数禾的建设与应用

本篇文章为数禾科技数据开发专家杨涵冰的演讲内容整理。主要内容包括: 特征平台概览 特征存储服务 流批一体方案 模型策略调用方案 点击查看更多技术内容 一、特征平台概览 首先是特征平台的概览,整个特征平台分成四层,分别是数据服务、存储服务、计算引擎、原始存储。数据服务层提供向外的服务,主要包括四种: 一是传统的 API 点查; 二是圈选查询; 三是事件消息; 四是同步调用计算。 其中同步调用计算服务是即时计算的,相当于现场进行策略运算,而 API 点查服务是预先计算并存储的。为了提供数据服务,提供特征行存和特征列存两种服务方式,分别支撑 API 点查和圈选查询。计算引擎有两个,分别是离线运算引擎和流批一体运算引擎。特征平台的最底层是原始存储,原始存储是为了支持离线运算功能,而事件存储是为了支持流批一体运算。 下面以 MySQL 为例介绍简化的特征平台数据流转过程。 首先是离线部分,通过 Sqoop 或者其他的抽取工具将 MySQL 数库的数据抽取到 EMR,然后经过 Hive 运算,把最终的运算结果存到 HBase 和 ClickHouse 中,分别对应特征行存和特征列存,以提供 API...

基于Delta Lake构建数据湖仓体系

直播回放地址:https://developer.aliyun.com/live/249789 导读: 今天很高兴能与大家分享如何通过 Delta Lake 构建湖仓架构。 全文将围绕以下四个部分展开: Delta Lake 的基本概念和发展历程,以及 2.0 版本的关键特性 Delta Lake 的内核解析以及关键技术 围绕 Delta Lake 湖格式的生态建设 Delta Lake 在数仓领域的经典案例 Delta Lake 及 2.0 特性 关于数据湖,数仓以及数据湖仓的概念已经在很多文章及分享中介绍得比较多了,相信大家也都有所了解,在此就不过多重复了,让我们直接来看由 Databricks 提出的数据湖仓 Lakehouse 的关键特性有哪些。 ACID 事务。一张表可以被多个工作流来读写,事务可以保证数据的正确性。 Schema Enforcement 和数据管理。Schema Enforcement 也可称作 Schema Validation,在数据写入时,检验数据的 schema 是否能被表所接受,从而来保证数据质量。同时,我们还会对表做一些管理运维操作。 支持 BI...

相关文章

发表评论

资源下载

更多资源
Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Eclipse

Eclipse

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。

JDK

JDK

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。