首页 文章 精选 留言 我的
优秀的个人博客,低调大师

微信关注我们

原文链接:https://my.oschina.net/jiagoushi/blog/5586558

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

特征平台在数禾的建设与应用

本篇文章为数禾科技数据开发专家杨涵冰的演讲内容整理。主要内容包括: 特征平台概览 特征存储服务 流批一体方案 模型策略调用方案 点击查看更多技术内容 一、特征平台概览 首先是特征平台的概览,整个特征平台分成四层,分别是数据服务、存储服务、计算引擎、原始存储。数据服务层提供向外的服务,主要包括四种: 一是传统的 API 点查; 二是圈选查询; 三是事件消息; 四是同步调用计算。 其中同步调用计算服务是即时计算的,相当于现场进行策略运算,而 API 点查服务是预先计算并存储的。为了提供数据服务,提供特征行存和特征列存两种服务方式,分别支撑 API 点查和圈选查询。计算引擎有两个,分别是离线运算引擎和流批一体运算引擎。特征平台的最底层是原始存储,原始存储是为了支持离线运算功能,而事件存储是为了支持流批一体运算。 下面以 MySQL 为例介绍简化的特征平台数据流转过程。 首先是离线部分,通过 Sqoop 或者其他的抽取工具将 MySQL 数库的数据抽取到 EMR,然后经过 Hive 运算,把最终的运算结果存到 HBase 和 ClickHouse 中,分别对应特征行存和特征列存,以提供 API...

基于Delta Lake构建数据湖仓体系

直播回放地址:https://developer.aliyun.com/live/249789 导读: 今天很高兴能与大家分享如何通过 Delta Lake 构建湖仓架构。 全文将围绕以下四个部分展开: Delta Lake 的基本概念和发展历程,以及 2.0 版本的关键特性 Delta Lake 的内核解析以及关键技术 围绕 Delta Lake 湖格式的生态建设 Delta Lake 在数仓领域的经典案例 Delta Lake 及 2.0 特性 关于数据湖,数仓以及数据湖仓的概念已经在很多文章及分享中介绍得比较多了,相信大家也都有所了解,在此就不过多重复了,让我们直接来看由 Databricks 提出的数据湖仓 Lakehouse 的关键特性有哪些。 ACID 事务。一张表可以被多个工作流来读写,事务可以保证数据的正确性。 Schema Enforcement 和数据管理。Schema Enforcement 也可称作 Schema Validation,在数据写入时,检验数据的 schema 是否能被表所接受,从而来保证数据质量。同时,我们还会对表做一些管理运维操作。 支持 BI...

相关文章

发表评论

资源下载

更多资源
Mario

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

腾讯云软件源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题,腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构,目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称,一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集,帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。

用户登录
用户注册