MaxCompute UDTF 实现日志解析-低调大师

MaxCompute UDTF 实现日志解析

2019-01-04 835

开发环境:

1. InteliJ IDEA COMMUNITY
2. 阿里云 MaxCompute Studio
3. 阿里云 DataWorks

4. apache-maven-3.5.4

MaxCompute Studio 是阿里云 MaxCompute 平台提供的安装在开发者客户端的大数据集成开发环境工具，是一套基于流行的集成开发平台 IntelliJ IDEA 的开发插件，可以帮助您方便地进行数据开发。

认识 MaxComputeStudio

依赖包：

lombok.Data: 自动填充 getter, setter 方法

com.alibaba.fastjson.JSONObject: JSON 对象解析

实验：

1. IDEA 创建 MaxCompute Java 项目

【Create New Project】->【MaxCompute Java】->输入项目名，例如：“udtf_test”

5442afaa887ab4a916d3c984fd45921609db9c9c

b27c3807f5ed5fed248ce6a2d5f7a1b74059526b

6aa90434d573515ab2c7e53f19318b81246e0543

2. 创建日志 model（Log.java）

a. （可选）创建 Package
b. 在该 Package 中创建 Log.java

513913337adaae07655a9cebb6f1ecedc64e8ecb

5c5371d73d7a0d8df0748a7ab064fcd396b5cfb3

3. 创建 UDTF

a. 【New】->【Maxcompute Java】

b. Name: 输入类名，例如：“LogParser”

c. Kind: 选择【UDTF】

482e6cdd3dd4a88507610ad410b443f30d228670

1c0580e93a6ef9c1774bca8e180272077c78fa80

d. 最终的项目结构如图所示：

454ebe0631418c9e46563f1407f98aa46d3abd21

4. 代码开发

pom.xml

上文中提到的两个依赖，添加到 pom 文件中

<dependency>
    <groupId>org.projectlombok</groupId>
    <artifactId>lombok</artifactId>
    <version>1.16.10</version>
</dependency>
<dependency>
    <groupId>com.alibaba</groupId>
    <artifactId>fastjson</artifactId>
    <version>1.2.47</version>
</dependency>

Log.java

日志 JSON 文件的字段定义，可以根据具体的日志字段来定义，引入 lombok.Data，省去了 getter, setter 方法的定义。

package model;

import lombok.Data;

/**
 * @author: garygao
 * @version: 1.0 2019/1/5
 * @since 1.0
 */
@Data
public class Log {

    private String type;
    private Integer platform;
    private String logTime;
}

LogParser.java（UDTF）

import com.aliyun.odps.udf.ExecutionContext;
import com.aliyun.odps.udf.UDFException;
import com.aliyun.odps.udf.UDTF;
import com.aliyun.odps.udf.annotation.Resolve;

import model.Log;
import com.alibaba.fastjson.JSONObject;

/**
 * @author: garygao
 * @version: 1.0 2019/1/5
 * @since 1.0
 */
// TODO define input and output types, e.g. "string,string->string,bigint".
@Resolve({"string -> string,int,string"})
public class LogParser extends UDTF {

    @Override
    public void process(Object[] args) throws UDFException {

        String s = args[0].toString();
        String log = s.substring(s.indexOf("{"));
        Log accessLog = JSONObject.parseObject(log, Log.class);
       forward(accessLog.getType(),accessLog.getPlatform(),accessLog.getLogTime());
    }
}

特别注意：@Resolve 注解中，输入输出的数据类型定义，Java 数据类型与 MaxCompute 类型的映射，请参考： Java数据类型与MaxCompute数据类型的对应关系

3ebaebf5e5e0bec542dc5a89a5119028fab3db60

6078d46347c0bf9bc944f1230c872cc05ee49771

5. 导出 Jar 文件

进入到该项目的根目录，使用 maven 打包，导出 Jar 文件。
mvn clean package

6. 第三方依赖单独下载

本例中使用到 fastjson，下载地址：fastjson

7. 进入 DataWorks 工作空间使用该 UDTF 函数

a. 创建业务流程，本例命名：“test_udtf”

b. 新建资源，UDTF 与第三方依赖都要上传！！

c. 提交资源，UDTF 与第三方依赖都要提交！！

d. 注册函数

资源列表：两个 Jar 文件都要手工输入，记得保存、提交！！

最终的业务流程如下：2个资源 + 1个函数

e. 创建 SQL 节点，测试 UDTF

测试成功！JSON 数据解析为三个字段。
set odps.sql.type.system.odps2=true;

SELECT  log_parser('
            {"type": "i am a type"
            ,"platform": 105
            ,"logTime": "2019-01-05 11:06:32"}
        ') AS (type, platform, logTime)
;
注意：Int 为 MaxCompute 2.0 支持的新数据类型，需要设置 odps.sql.type.system.odps2=true，运行时，两个语句全部选中，再执行。

微信关注我们

原文链接：https://yq.aliyun.com/articles/684417

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hbase-Observer

HBase的协处理器涵盖了两种类似关系型数据库中的应用场景:存储过程和触发器,所以协处理器也分为两种:用来实现存储过程功能的终端程序EndPoint和用来实现触发器功能的观察者Observers Observer 在hbase2.x的时候,按照之前的继承BaseRegionObserver 是不起作用的,经过我的测试,这个类好像是被移除了,我使用的版本是2.1.1 新的实现可以查看接口Coprocessor来查看,我们来看一下 /** * Base interface for the 4 coprocessors - MasterCoprocessor, RegionCoprocessor, * RegionServerCoprocessor, and WALCoprocessor. * Do NOT implement this interface directly. Unless an implementation implements one (or more) of * the above mentioned 4 coprocessors, it'll fail to be ...

2019-01-03

754

文 | 史中顶灯闪烁，笛声响彻。救护车载着病人，冲向茫茫车海，在时间的赛道上狂奔。高德地图、GPS 卫星导航、路面磁感线圈、1300 个路口摄像头同时开动，为这辆救护车勘探最快路线； GPS 传回实时数据，后台根据辅助数据纠偏，锚定救护车每一刻的精确位置；救护车将要经过的沿途，车辆情况被实时计算。确保路口绿灯提前亮起，在救护车通过之前，刚好所有社会车辆已经行驶一空。这不是演习，这是杭州城市大脑每天都在执行的任务。依靠计算，一辆救护车到达医院的速度，平均缩短了 50%。在这座城市，靠鸣笛和闯红灯开道的悲壮彻底成为历史。说人同蝼蚁，其实并不为过。两百多万辆车奔跑在城市里，他们的行踪像风里的落叶一样叵测。但通过对 1300个路口的摄像头的实时计算，城市大脑就可以精确地预测出未来十五分钟、未来半小时那哪个路段将会拥堵，从而第一时间指挥路口信

2019-01-04

704

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。