0016-Avro序列化&反序列化和Spark读取Avro数据-低调大师

0016-Avro序列化&反序列化和Spark读取Avro数据

2018-11-17 764

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。

1.简介

本篇文章主要讲如何使用java生成Avro格式数据以及如何通过spark将Avro数据文件转换成DataSet和DataFrame进行操作。

1.1Apache Arvo是什么？

Apache Avro 是一个数据序列化系统，Avro提供Java、Python、C、C++、C#等语言API接口，下面我们通过java的一个实例来说明Avro序列化和反序列化数据。

支持丰富的数据结构
快速可压缩的二进制数据格式
存储持久数据的文件容器
远程过程调用（RPC）
动态语言的简单集成

2.Avro数据生成

2.1定义Schema文件

1.下载avro-tools-1.8.1.jar

Avro官网：http://avro.apache.org/ Avro版本：1.8.1 下载Avro相关jar包：avro-tools-1.8.1.jar 该jar包主要用户将定义好的schema文件生成对应的java文件

2.定义一个schema文件，命名为CustomerAdress.avsc

{

"namespace":"com.peach.arvo",

"type": "record",

"name": "CustomerAddress",

"fields": [

{"name":"ca_address_sk","type":"long"},

{"name":"ca_address_id","type":"string"},

{"name":"ca_street_number","type":"string"},

{"name":"ca_street_name","type":"string"},

{"name":"ca_street_type","type":"string"},

{"name":"ca_suite_number","type":"string"},

{"name":"ca_city","type":"string"},

{"name":"ca_county","type":"string"},

{"name":"ca_state","type":"string"},

{"name":"ca_zip","type":"string"},

{"name":"ca_country","type":"string"},

{"name":"ca_gmt_offset","type":"double"},

{"name":"ca_location_type","type":"string"}

]

}

Schema说明：

namespace：在生成java文件时import包路径
type：omplex types（record, enum,array, map, union, and fixed）
name：生成java文件时的类名
fileds：schema中定义的字段及类型

3.生成java代码文件

使用第1步下载的avro-tools-1.8.1.jar包，生成java code

java -jar avro-tools-1.8.1.jar compile schema CustomerAddress.avsc .

末尾的"."代表java code 生成在当前目录，命令执行成功后显示：

2.2使用Java生成Avro文件

1.使用Maven创建java工程

在pom.xml文件中添加如下依赖

org.apache.avro

avro

1.8.1

2.新建java类GenerateDataApp，代码如下

动态生成avro文件，通过将数据封装为GenericRecord对象，动态的写入avro文件，以下代码片段：

3. Spark读Avro文件

1.使用Maven创建一个scala工程

在pom.xml文件中增加如下依赖

2.Scala事例代码片段

3.Spark运行结果

源码地址：

https://github.com/javaxsky/avrotospark

醉酒鞭名马，少年多浮夸！岭南浣溪沙，呕吐酒肆下！挚友不肯放，数据玩的花！
温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。

微信关注我们

原文链接：https://yq.aliyun.com/articles/670690

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

0015-如何使用Sentry管理Hive外部表权限

温馨提示：要看高清无码套图，请使用手机打开并单击图片放大查看。 1.文档编写目的本文档主要讲述如何使用Sentry对Hive外部表权限管理，并基于以下假设： 1.操作系统版本：RedHat6.5 2.CM版本：CM 5.11.1 3.集群已启用Kerberos和Sentry 4.采用具有sudo权限的ec2-user用户进行操作 2.前置准备 2.1创建外部表数据父目录 1.使用hive用户登录Kerberos [root@ip-172-31-8-141 1874-hive-HIVESERVER2]# kinit -kt hive.keytab hive/ip-172-31-8-141.ap-southeast-1.compute.internal@CLOUDERA.COM [root@ip-172-31-8-141 1874-hive-HIVESERVER2]# klist Ticket cache: FILE:/tmp/krb5cc_0 Default principal: hive/ip-172-31-8-141.ap-southeast-1.compute.internal@...

2018-11-16

561

背景一般大公司的机器学习团队，才会尝试构建大规模机器学习模型，如果去看百度、头条、阿里等分享，都有提到过这类模型。当然，大家现在都在说深度学习，但在推荐、搜索的场景，据我所知，ROI并没有很高，大家还是参考wide&deep的套路做，其中的deep并不是很deep。而大规模模型，是非常通用的一套框架，这套模型的优点是一种非常容易加特征，所以本质是拼特征的质和量，比如百度、头条号称特征到千亿规模。可能有些朋友不太了解大规模特征是怎么来的，举个简单的例子，假设你有百万的商品，然后你有几百个用户侧的profile，二者做个交叉特征，很容易规模就过10亿。特征规模大了之后，需要PS才能训练，这块非常感谢腾讯开源了Angel，拯救了我们这种没有足够资源的小公司，我们的实践效果非常好。网上有非常多介绍大规模机器学习的资料，大部分的内容都集中在为何要做大规模机器学习模型以及Parameter Server相关的资料，但我们在实际实践中，发现大规模的特征预处理也有很多问题需要解决。有一次和明风（以前在阿里，后来去了腾讯做了开源的PS：angel）交流过这部分的工作为何没有人开源，结论大致是...

2018-11-18

734

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。