基于MaxCompute的媒体大数据开放平台建设
摘要:随着自媒体的发展,传统媒体面临着巨大的压力和挑战,新华智云运用大数据和人工智能技术,致力于为媒体行业赋能。通过媒体大数据开放平台,将媒体行业全网数据汇总起来,借助平台数据处理能力和算法能力,将有价值数据内容和能力开放给用户。本文主要从新华智云数芯平台,媒体行业数据特征,批流处理数据架构,以及通用的媒体大数据平台能力等几个方面介绍了如何基于MaxCompute做媒体大数据开放平台建设。
演讲嘉宾简介:
李金波,新华智云首席数据官。负责阿里巴巴大数据通用计算平台MaxCompute(原ODPS)框架架构。对高可用分布式系统设计开发有多年经验。先后研发过阿里巴巴机器学习平台在线预测系统和通用大数据计算平台框架系统。
本次直播视频精彩回顾,戳这里!https://yq.aliyun.com/live/796
以下内容根据演讲嘉宾视频分享整理

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
MaxCompute SQL随机抽取N行数据
本文将为您介绍如何对数据随机取出数据的前 N 条数据。 示例数据 目前的数据,如下表所示: empno ename job sal 7369 SMITH CLERK 800.0 7876 SMITH CLERK 1100.0 7900 JAMES CLERK 950.0 7934 MILLER CLERK 1300.0 7499 ALLEN SALESMAN 1600.0 7654 MARTIN SALESMAN 1250.0 7844 TURNER SALESMAN 1500.0 7521 WARD SALESMAN 1250.0 实现方法 通过 order by rand ()来实现随机抽取效果。 SELECT empno , ename , sal , job FROM emp order by rand() limit 3
- 下一篇
云HBase Spark分析引擎对接云数据库POLARDB
HBase Spark分析引擎是云数据库HBase版提供的分析引擎,基于Spark提供的复杂分析、流式处理、机器学习的能力。Spark分析引擎可以对接阿里云的多种数据源,例如:云HBase数据库、MongoDB、Phoenix等,同时也支持对接云数据库POLARDB。POLARDB是阿里云自研的下一代关系型云数据库,100%兼容MySQL,性能最高是MySQL的6倍。本文主要介绍HBase Spark分析引擎如何对接云数据库POLARDB。 场景介绍 POLARDB中经常会存储一些维度表信息,例如:用户维度表信息,包含用户的ID,姓名,地址等信息。此类数据的特点是数据量小,不经常改变。Spark 中经常会存在一些海量事实表数据用于数据的分析,例如用户的通话信息、交易信息等。此类数据的特点是数据量大、增量更新。用户需要在这类数据中统计、
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- CentOS7设置SWAP分区,小内存服务器的救世主
- Hadoop3单机部署,实现最简伪集群
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题