SparkSQL与Hive metastore Parquet转换-低调大师

SparkSQL与Hive metastore Parquet转换

2020-05-19 1073

本文转载自公众号：大数据学习与分享

Spark SQL为了更好的性能，在读写Hive metastore parquet格式的表时，会默认使用自己的Parquet SerDe，而不是采用Hive的SerDe进行序列化和反序列化。该行为可以通过配置参数spark.sql.hive.convertMetastoreParquet进行控制，默认true。

这里从表schema的处理角度而言，就必须注意Hive和Parquet兼容性，主要有两个区别：

1.Hive是大小写敏感的，但Parquet相反

2.Hive会将所有列视为nullable，但是nullability在parquet里有独特的意义

由于上面的原因，在将Hive metastore parquet转化为Spark SQL parquet时，需要兼容处理一下Hive和Parquet的

微信关注我们

原文链接：https://yq.aliyun.com/articles/761701

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

如何在基于云计算的协作应用程序中保护企业数据

云栖号资讯：【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！云计算的采用率如今以惊人的速度增长，使组织可以自由地在满足其特定业务需求的众多云应用程序中存储数据。此外，迁移到云平台使员工能够随时随地访问工作资料。通过允许员工与GSuite、Office365、Salesforce和Slack(仅举几例)等应用程序进行远程协作，从而提高了生产率。利用这些云计算应用程序不仅可以提供灵活性和成本节约，还可以允许暴露敏感数据。尽管有许多可用的云计算应用程序，但可以探究GSuite、Office365、Salesforce和Slack，以及组织如何利用这些应用程序来获得好处，同时保持数据安全。谨慎行事企业都可能每天与员工、客户或合作伙伴共享文档。这些文件可以包括提案、合同、财务记录、人力资源文书以及其他机密文件。尽管这些应用程序使共享变得更容易，但是文档和文件非常敏感，如果网络攻击者进行攻击，可能会造成非常严重的破坏。 600多万个企业正在为使用GSuite付费，该套件可从任何位置访问任何设备的企业数据，从而提高了IT灵活性和员工生产力。同样，Mi...

2020-05-19

547

分布式一致性分布式场景下，多个服务同时对服务一个流程，比如电商下单场景，需要支付服务进行支付、库存服务扣减库存、订单服务进行订单生成、物流服务更新物流信息等。如果某一个服务执行失败，或者网络不通引起的请求丢失，那么整个系统可能出现数据不一致的原因。上述场景就是分布式一致性问题，追根到底，分布式一致性的根本原因在于数据的分布式操作，引起的本地事务无法保障数据的原子性引起。分布式一致性问题的解决思路有两种，一种是分布式事务，一种是尽量通过业务流程避免分布式事务。分布式事务是直接解决问题，而业务规避其实通过解决出问题的地方(解决提问题的人)。其实在真实业务场景中，如果业务规避不是很麻烦的前提，最优雅的解决方案就是业务规避。事务分类分布式事务实现方案从类型上去分刚性事务、柔型事务。刚性事务：通常无业务改造，强一致性，原生支持回滚/隔离性，低并发，适合短事务。柔性事务：有业务改造，最终一致性，实现补偿接口，实现资源锁定接口，高并发，适合长事务。刚性事务：XA 协议（2PC、JTA、JTS）、3PC 柔型事务：TCC/FMT、Saga（状态机模式、Aop模式）、本地事务消息、消息事务（...

2020-05-19

623

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。