导入MaxCompute数据到日志服务实战
简介
日志服务(Log Service,简称 SLS)是针对日志类数据的一站式服务,在阿里巴巴集团经历大量大数据场景锤炼而成。您无需开发就能快捷完成日志数据采集、消费、投递以及查询分析等功能,提升运维、运营效率,建立 DT 时代海量日志处理能力。
将MaxCompute 中的数据导入到日志服务,利用日志服务的查询和可视化功能,对数据进行分析和可视化展示,使用数据加工对数据进一步处理,充分发掘数据的价值。
日志服务提供的数据导入功能,支持从OSS,MaxCompute,Kafka等数据源同步数据。使用数据导入同步数据具备如下的优势:
- 配置简单,用户仅需在日志服务控制台完成简单配置即可实现导入。
- 导入服务完全由日志服务托管,无需运维。
- 支持动态水平扩展,根据用户的数据量自动分配资源,实现快速导入。
日志服务基本概念
- 日志:日志服务中处理的最小数据单元,每行日志包含日志发生时间和一组key-value 均为字符串格式的字段列表。
- 项目(Project):日志服务中的资源管理单元,用于资源隔离和控制,管理着用户的所有日志库等资源。
- 日志库(Logstore):日志数据的采集、存储和查询单元。每个日志库属于一个项目,且每个项目可以创建多个日志库。
MaxCompute 介绍
大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的EB级数据仓库解决方案。
MaxCompute 基本概念
- 项目(Project):类似于传统数据库的Database的概念,是进行多用户隔离和访问控制的主要边界。
- 表(Table):表是MaxCompute的数据存储单元,是由行和列组成的二维结构,每行代表一条记录,每列表示相同数据类型的一个字段,一条记录可以包含一个或多个列。
导入步骤
环境准备
- 准备需要导入的MaxCompute Project和Table,以及能够访问该Table的Access Key。
- 已经开通日志服务,并且已经创建好Project,Logstore和索引。
源数据预览
假设用户数据存储在 access_log 这个表里,其字段包括了String,Int,Double等类型。
配置导入任务
1 进入日志服务控制台首页,接入数据选择 MaxCompute 数据源
2 选择导入目标Project和Logstore
如果还没有创建Project和Logstore,可以从右侧立即创建入口创建。需要确认导入任务开始之前目标Logstore已经配置了合适的索引。
3 配置访问MaxCompute必需的信息,支持预览数据
参数说明
参数 | 说明 |
---|---|
配置名称 | 导入配置的名称。 |
MaxCompute项目 | 待导入数据所在的MaxCompute项目名称。 |
Table | 待导入数据所在的表名称。 |
分区描述 | 如果待导入的表是分区表,需要指定分许描述。分区参考 https://help.aliyun.com/document_detail/27820.html |
AccessKey ID | 访问MaxCompute的AccessKey ID。 |
AccessKey Secret | 访问MaxCompute的AccessKey Secret。 |
Endpoint | 访问MaxCompute的Endpoint。Endpoint配置可以参考文档:https://help.aliyun.com/document_detail/34951.html |
Tunnel Endpoint | 访问MaxCompute的Tunnel Endpoint。 |
3 配置时间解析方式
默认使用系统时间时间作为数据时间,用户也可以使用MaxCompute 表中的字段作为数据的时间
4 配置调度间隔
日式服务根据配置的导入间隔定时执行增量导入任务。
导入结果预览
MaxCompute表中的每行数据自动转化为一行日志数据。每列作为日志中的一个字段,列名作为日志的字段名称。各个字段类型映射为日志类型的规则如下:
MaxCompute类型 | 日志字段类型 |
---|---|
Map,Array,Struct | JSON string |
其他类型 | String |
导入任务管理
创建导入任务后,日志服务自动创建用于存放导入任务诊断日志的Logstore(internal-diagnostic_log)和统计报表。导入异常时可以在诊断Logstore中查看异常原因。
更多资源
MaxCompute介绍:https://help.aliyun.com/document_detail/27800.html
日志服务介绍:https://help.aliyun.com/document_detail/48869.html
MaxCompute导入使用文档:https://help.aliyun.com/document_detail/153354.html
联系我们
如有任何问题也可以钉钉扫码进群联系我们或者关注我们的微信公众号:
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
【云栖号案例 | 物联网&人工智能】AI口语学习平台上云 云分期节省上云成本
云栖号案例库:【点击查看更多上云案例】不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策! 公司介绍 北京才博教育科技有限公司自主开发了一套基于AI技术的口语学习工具,服务与英语教育机构。这套口语学习工具旨在于解决英语培训机构在传统英语教学中存在的会看、会写、不会说的问题,基于自主研发的AI人工智能技术,清晰的分辨学习者在英语学习过程中的薄弱点。发现学生学习过程中的问题,提高学习效率,提升学习成绩。 业务痛点 AI人工智能对GPU的显存和算力有一定要求,主要还是依赖GPU的算力。 对业务的可用性要求较高,需要一套安全机制防止服务器出现故障导致业务不可用的问题。 解决方案 GN6V100,单块显卡16G的显存满足我们的业务需要,同时CPU与内存保持最佳的1:8比例,CPU和内存资源也不会过剩,多台GPU服务器组成AI集群,满足同时处理大量发音的训练需求。 SLB加上多台普通ECS组成业务集群,对外提供服务。满足业务的高可用,避免出现单点故障,业务数据存放在NAS中,保证所有ECS和GPU数据的一致性。 云数据库RDS、MongoDB满足数据的持久化存储需求...
- 下一篇
基于SLS+Blink的实时计算最佳实践
日志服务简介 阿里云的日志服务(SLS)是针对日志类数据的一站式服务,无需开发就能快捷完成海量日志数据的采集、消费、投递以及查询分析等功能,提升运维、运营效率。在采集端支持30多种写入方式,包括自研的客户端Logtail,开源软件如Logstash、Fluent,Flume,Beats等,各种语言的SDK/Producer,无论是嵌入式设备、网页、服务器、程序等都能轻松接入。在消费端,支持与Storm、Spark Streaming、Flink/Blink等大数据系统无缝对接。 阿里云实时计算(Blink) 阿里云实时计算是基于Apache Flink构建的一站式、高性能实时大数据处理平台,广泛适用于流式数据处理、离线数据处理等场景。阿里云实时计算提供了如下两种数据处理API: Flink SQL:通过DDL的方式定义Source和Sink,用SQL来实现数据的处理。 Flink Datastream: 在程序中使用各个Source和Sink的SDK,通过提交jar的方式运行托管的Flink Job。 通过这两种API,既可以把SLS作为数据源(Source),实现日志端到端的实时采集...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
-
Docker使用Oracle官方镜像安装(12C,18C,19C)
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- CentOS8编译安装MySQL8.0.19
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- MySQL8.0.19开启GTID主从同步CentOS8
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- CentOS6,CentOS7官方镜像安装Oracle11G
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- 设置Eclipse缩进为4个空格,增强代码规范
- CentOS7,8上快速安装Gitea,搭建Git服务器
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Docker安装Oracle12C,快速搭建Oracle学习环境