SparkSQL与Hive metastore Parquet转换
本文转载自公众号:大数据学习与分享
Spark SQL为了更好的性能,在读写Hive metastore parquet格式的表时,会默认使用自己的Parquet SerDe,而不是采用Hive的SerDe进行序列化和反序列化。该行为可以通过配置参数spark.sql.hive.convertMetastoreParquet进行控制,默认true。
这里从表schema的处理角度而言,就必须注意Hive和Parquet兼容性,主要有两个区别:
1.Hive是大小写敏感的,但Parquet相反
2.Hive会将所有列视为nullable,但是nullability在parquet里有独特的意义
由于上面的原因,在将Hive metastore parquet转化为Spark SQL parquet时,需要兼容处理一下Hive和Parquet的
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
如何在基于云计算的协作应用程序中保护企业数据
云栖号资讯:【点击查看更多行业资讯】在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来! 云计算的采用率如今以惊人的速度增长,使组织可以自由地在满足其特定业务需求的众多云应用程序中存储数据。此外,迁移到云平台使员工能够随时随地访问工作资料。 通过允许员工与GSuite、Office365、Salesforce和Slack(仅举几例)等应用程序进行远程协作,从而提高了生产率。利用这些云计算应用程序不仅可以提供灵活性和成本节约,还可以允许暴露敏感数据。 尽管有许多可用的云计算应用程序,但可以探究GSuite、Office365、Salesforce和Slack,以及组织如何利用这些应用程序来获得好处,同时保持数据安全。 谨慎行事 企业都可能每天与员工、客户或合作伙伴共享文档。这些文件可以包括提案、合同、财务记录、人力资源文书以及其他机密文件。尽管这些应用程序使共享变得更容易,但是文档和文件非常敏感,如果网络攻击者进行攻击,可能会造成非常严重的破坏。 600多万个企业正在为使用GSuite付费,该套件可从任何位置访问任何设备的企业数据,从而提高了IT灵活性和员工生产力。 同样,Mi...
- 下一篇
干货分享:分布式场景之刚性事务-2PC详解
分布式一致性 分布式场景下,多个服务同时对服务一个流程,比如电商下单场景,需要支付服务进行支付、库存服务扣减库存、订单服务进行订单生成、物流服务更新物流信息等。如果某一个服务执行失败,或者网络不通引起的请求丢失,那么整个系统可能出现数据不一致的原因。 上述场景就是分布式一致性问题,追根到底,分布式一致性的根本原因在于数据的分布式操作,引起的本地事务无法保障数据的原子性引起。 分布式一致性问题的解决思路有两种,一种是分布式事务,一种是尽量通过业务流程避免分布式事务。分布式事务是直接解决问题,而业务规避其实通过解决出问题的地方(解决提问题的人)。其实在真实业务场景中,如果业务规避不是很麻烦的前提,最优雅的解决方案就是业务规避。 事务分类 分布式事务实现方案从类型上去分刚性事务、柔型事务。刚性事务:通常无业务改造,强一致性,原生支持回滚/隔离性,低并发,适合短事务。柔性事务:有业务改造,最终一致性,实现补偿接口,实现资源锁定接口,高并发,适合长事务。 刚性事务:XA 协议(2PC、JTA、JTS)、3PC 柔型事务:TCC/FMT、Saga(状态机模式、Aop模式)、本地事务消息、消息事务(...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Red5直播服务器,属于Java语言的直播服务器
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程
- Linux系统CentOS6、CentOS7手动修改IP地址
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8编译安装MySQL8.0.19
- CentOS7,CentOS8安装Elasticsearch6.8.6
- SpringBoot2整合Redis,开启缓存,提高访问速度
- CentOS6,CentOS7官方镜像安装Oracle11G
- Windows10,CentOS7,CentOS8安装Nodejs环境
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池