大批量处理excel文件到ODPS中方案
-
大批量处理excel文件到ODPS中方案
前言
-
最近所做的项目需要将近五千个excel文件导入到ODPS,并且excel文件内容格式全部不一样。
刚接到需求时特别的懵,不过工作还是要做的,首先通过查询dataworks中文档来看怎么实现该需求,通过文档了解到只支持csv、txt等格式进行单个上传,然后就开始着手做。
方案一
-
1 、首先按照excel文件内容创建表(下图序号1中),然后将excel文件进行处理,删除一些不必要的数据(序号2中的一些空格),然后另存为逗号分隔的csv格式文档,然后在dataworks数据开发中上传csv文件,达到将excel文件上传。(具体的可以参照官网上步骤,非常的详细,我就不啰嗦了)。
-
备注: 该方式可以实现excel文件转换成csv文件进行上云。但是由于格式不统一,需要逐个的创建表进行上传,一天只上传一百来个excel文件,效率是非常慢的。
方案二
-
通过查找发现dataworks支持RDS整库迁移的方式,于是就在想是否可以将这些excel文件批量的上传到RDS中,购买了一个RDS实例,通过半天的学习配置等,发现也无法批量的上传excel文件。
-
于是就寻找别的方式,最终通过在本机电脑上自建mysql数据库,然后用navicat连接上,通过navicat批量的上传数据到mysql 中,
-
- 接着将上传的数据整库的导出成SQL文件,由于RDS的mysql支持上传sql文件,并且最大支持100M内的文件上传,然后执行。
-
将转储SQL文件结构和数据文件上传到RDS中执行,数据便到RDS中,然后在dataworks中整库迁移数据即可全部同步完成,整个批量上传过程一下午即将五千多个excel文件全部上云。
方案三
-
由于考虑到在本机自建mysql毕竟不稳定,就打算购买ECS,然后在上边自建mysql,然后同步数据,不过该方式最终同步成功,但是不建议使用,该方式不支持整库迁移,并且只能写脚本,还要两台以上的ECS,其中一台作为代理,故不推荐该方式。
以上只是自己在使用中摸索的方法,相信还有更好更完善的方法,希望大家多多分享。
总的来说dataworks升级到2.0功能是十分强大的,数据保护伞、智能监控、数据服务、任务发布等新功能。
-
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
UBuntu 16.04下安装Docker(亲测)
一、环境 因工作需要,要使用Docker,参考网上(BigManing和阿里云易立的博客Docker学习路线图 (持续更新中))的安装方法并记录下安装过程。 安装环境:Ubuntu 16.04 1、查看系统信息 1)Ubuntu查看版本信息 输入lsb_release -a命令查看版本信息 lsb_release -a 当前系统的信息如下: No LSB modules are available. Distributor ID: Ubuntu Description: Ubuntu 16.04.5 LTS Release: 16.04 // 官方16.04LTS系统版本 Codename: xenial // 16.04版本系统对应的代号 2)查看当前系统相关信息 命令为: uname [参数] 示例如下: $ uname -a//显示所有信息 Linux BigManing 4.4.0-83-generic #106-Ubuntu SMP Mon Jun 26 17:54:43 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux $ uname -s...
- 下一篇
云主机如何保证信息安全?
云计算要用到云主机才能支撑起效果。但要开展这方面的相关业务,首先保证安全问题的万无一失,因为切实可行的安全性云主机的首要考虑因素。最近这些年以来,IDC行业有关主流的云计算服务提供的云主机,确保了云计算应用以及其实际可行的可用性,另外在保证内容安全以及在额外重要的隐私保护方面。消除各类安全隐患是云主机的主要考虑内容。思考如何做好安全运营工作是每一个服务商与应用者必须做好的事情,而以下几个方面可以有效提高云主机的安全保证效果。 安全风险分析 作为一种新型的计算模式,云计算的运营有别于传统IT业务,面临新的安全风险,主要包括技术风险和管理风险。从技术角度来看,云主机系统和传统IT系统类似,传统IT系统中各个层次存在的安全问题在云主机环境中仍然存在,如系统的物理安全、主机、网络等基础设施安全、应用安全等。 风险的甄别 资源虚拟化共享风险是主要风险之一,源自云主机中,硬件平台通过虚拟化为多个应用共享。由于传统安全策略主要适用于物理设备,如物理主机、网络设备、磁盘阵列等,而无法管理到每个虚拟机、虚拟网络等,使得传统的基于物理安全边界的防护机制难以有效保护共享虚拟化环境下的用户应用及信息安全。 平...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- Mario游戏-低调大师作品
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- Eclipse初始化配置,告别卡顿、闪退、编译时间过长