导入MaxCompute数据到日志服务实战-低调大师

导入MaxCompute数据到日志服务实战

2020-04-18 673

简介

日志服务（Log Service，简称 SLS）是针对日志类数据的一站式服务，在阿里巴巴集团经历大量大数据场景锤炼而成。您无需开发就能快捷完成日志数据采集、消费、投递以及查询分析等功能，提升运维、运营效率，建立 DT 时代海量日志处理能力。
将MaxCompute 中的数据导入到日志服务，利用日志服务的查询和可视化功能，对数据进行分析和可视化展示，使用数据加工对数据进一步处理，充分发掘数据的价值。

日志服务提供的数据导入功能，支持从OSS，MaxCompute，Kafka等数据源同步数据。使用数据导入同步数据具备如下的优势：

配置简单，用户仅需在日志服务控制台完成简单配置即可实现导入。
导入服务完全由日志服务托管，无需运维。
支持动态水平扩展，根据用户的数据量自动分配资源，实现快速导入。

日志服务基本概念

日志：日志服务中处理的最小数据单元，每行日志包含日志发生时间和一组key-value 均为字符串格式的字段列表。
项目（Project）：日志服务中的资源管理单元，用于资源隔离和控制，管理着用户的所有日志库等资源。
日志库（Logstore）：日志数据的采集、存储和查询单元。每个日志库属于一个项目，且每个项目可以创建多个日志库。

MaxCompute 介绍

大数据计算服务（MaxCompute，原名ODPS）是一种快速、完全托管的EB级数据仓库解决方案。

MaxCompute 基本概念

项目（Project）：类似于传统数据库的Database的概念，是进行多用户隔离和访问控制的主要边界。
表（Table）：表是MaxCompute的数据存储单元，是由行和列组成的二维结构，每行代表一条记录，每列表示相同数据类型的一个字段，一条记录可以包含一个或多个列。

导入步骤

环境准备

准备需要导入的MaxCompute Project和Table，以及能够访问该Table的Access Key。
已经开通日志服务，并且已经创建好Project，Logstore和索引。

源数据预览

假设用户数据存储在 access_log 这个表里，其字段包括了String，Int，Double等类型。

配置导入任务

1 进入日志服务控制台首页，接入数据选择 MaxCompute 数据源

2 选择导入目标Project和Logstore
如果还没有创建Project和Logstore，可以从右侧立即创建入口创建。需要确认导入任务开始之前目标Logstore已经配置了合适的索引。

3 配置访问MaxCompute必需的信息，支持预览数据

参数说明

参数	说明
配置名称	导入配置的名称。
MaxCompute项目	待导入数据所在的MaxCompute项目名称。
Table	待导入数据所在的表名称。
分区描述	如果待导入的表是分区表，需要指定分许描述。分区参考 https://help.aliyun.com/document_detail/27820.html
AccessKey ID	访问MaxCompute的AccessKey ID。
AccessKey Secret	访问MaxCompute的AccessKey Secret。
Endpoint	访问MaxCompute的Endpoint。Endpoint配置可以参考文档：https://help.aliyun.com/document_detail/34951.html
Tunnel Endpoint	访问MaxCompute的Tunnel Endpoint。

3 配置时间解析方式
默认使用系统时间时间作为数据时间，用户也可以使用MaxCompute 表中的字段作为数据的时间

4 配置调度间隔

日式服务根据配置的导入间隔定时执行增量导入任务。

导入结果预览

MaxCompute表中的每行数据自动转化为一行日志数据。每列作为日志中的一个字段，列名作为日志的字段名称。各个字段类型映射为日志类型的规则如下：

MaxCompute类型	日志字段类型
Map,Array,Struct	JSON string
其他类型	String

导入任务管理

创建导入任务后，日志服务自动创建用于存放导入任务诊断日志的Logstore（internal-diagnostic_log）和统计报表。导入异常时可以在诊断Logstore中查看异常原因。

【云栖号案例 | 物联网&人工智能】AI口语学习平台上云云分期节省上云成本

云栖号案例库：【点击查看更多上云案例】不知道怎么上云？看云栖号案例库，了解不同行业不同发展阶段的上云方案，助力你上云决策！公司介绍北京才博教育科技有限公司自主开发了一套基于AI技术的口语学习工具，服务与英语教育机构。这套口语学习工具旨在于解决英语培训机构在传统英语教学中存在的会看、会写、不会说的问题，基于自主研发的AI人工智能技术，清晰的分辨学习者在英语学习过程中的薄弱点。发现学生学习过程中的问题，提高学习效率，提升学习成绩。业务痛点 AI人工智能对GPU的显存和算力有一定要求，主要还是依赖GPU的算力。对业务的可用性要求较高，需要一套安全机制防止服务器出现故障导致业务不可用的问题。解决方案 GN6V100，单块显卡16G的显存满足我们的业务需要，同时CPU与内存保持最佳的1:8比例，CPU和内存资源也不会过剩，多台GPU服务器组成AI集群，满足同时处理大量发音的训练需求。 SLB加上多台普通ECS组成业务集群，对外提供服务。满足业务的高可用，避免出现单点故障，业务数据存放在NAS中，保证所有ECS和GPU数据的一致性。云数据库RDS、MongoDB满足数据的持久化存储需求...

2020-04-25

660

日志服务简介阿里云的日志服务（SLS）是针对日志类数据的一站式服务，无需开发就能快捷完成海量日志数据的采集、消费、投递以及查询分析等功能，提升运维、运营效率。在采集端支持30多种写入方式，包括自研的客户端Logtail，开源软件如Logstash、Fluent，Flume，Beats等，各种语言的SDK/Producer，无论是嵌入式设备、网页、服务器、程序等都能轻松接入。在消费端，支持与Storm、Spark Streaming、Flink/Blink等大数据系统无缝对接。阿里云实时计算（Blink）阿里云实时计算是基于Apache Flink构建的一站式、高性能实时大数据处理平台，广泛适用于流式数据处理、离线数据处理等场景。阿里云实时计算提供了如下两种数据处理API： Flink SQL：通过DDL的方式定义Source和Sink，用SQL来实现数据的处理。 Flink Datastream: 在程序中使用各个Source和Sink的SDK，通过提交jar的方式运行托管的Flink Job。通过这两种API，既可以把SLS作为数据源（Source），实现日志端到端的实时采集...

2020-04-24

818

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。