大批量处理excel文件到ODPS中方案-阿里云开发者社区

开发者社区> zhangyadong> 正文

大批量处理excel文件到ODPS中方案

简介: 大批量处理excel文件到ODPS中方案 前言 最近所做的项目需要将近五千个excel文件导入到ODPS,并且excel文件内容格式全部不一样。 刚接到需求时特别的懵,不过工作还是要做的,首先通过查询dataworks中文档来看怎么实现该需求,通过文档了解到只支持csv、txt等格式进行单个上传,然后就开始着手做。
+关注继续查看
  • 大批量处理excel文件到ODPS中方案

    前言

    • 最近所做的项目需要将近五千个excel文件导入到ODPS,并且excel文件内容格式全部不一样。

      刚接到需求时特别的懵,不过工作还是要做的,首先通过查询dataworks中文档来看怎么实现该需求,通过文档了解到只支持csv、txt等格式进行单个上传,然后就开始着手做。

    方案一

    • 1 、首先按照excel文件内容创建表(下图序号1中),然后将excel文件进行处理,删除一些不必要的数据(序号2中的一些空格),然后另存为逗号分隔的csv格式文档,然后在dataworks数据开发中上传csv文件,达到将excel文件上传。(具体的可以参照官网上步骤,非常的详细,我就不啰嗦了)。

    • bc8841b8f2e3b80f075dc1f5ebd3b7630711edd6
    • 备注: 该方式可以实现excel文件转换成csv文件进行上云。但是由于格式不统一,需要逐个的创建表进行上传,一天只上传一百来个excel文件,效率是非常慢的。

    方案二

    • 通过查找发现dataworks支持RDS整库迁移的方式,于是就在想是否可以将这些excel文件批量的上传到RDS中,购买了一个RDS实例,通过半天的学习配置等,发现也无法批量的上传excel文件。

    • 于是就寻找别的方式,最终通过在本机电脑上自建mysql数据库,然后用navicat连接上,通过navicat批量的上传数据到mysql 中,

    07842f9a9537958cc4c6dc554dd6a76e26d4110f

    • d222eae708df1a48e87f4a8d9769239f50b5d299
    • 接着将上传的数据整库的导出成SQL文件,由于RDS的mysql支持上传sql文件,并且最大支持100M内的文件上传,然后执行。
    • 将转储SQL文件结构和数据文件上传到RDS中执行,数据便到RDS中,然后在dataworks中整库迁移数据即可全部同步完成,整个批量上传过程一下午即将五千多个excel文件全部上云。

    方案三

    • 由于考虑到在本机自建mysql毕竟不稳定,就打算购买ECS,然后在上边自建mysql,然后同步数据,不过该方式最终同步成功,但是不建议使用,该方式不支持整库迁移,并且只能写脚本,还要两台以上的ECS,其中一台作为代理,故不推荐该方式。

      以上只是自己在使用中摸索的方法,相信还有更好更完善的方法,希望大家多多分享。

    总的来说dataworks升级到2.0功能是十分强大的,数据保护伞、智能监控、数据服务、任务发布等新功能。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
OAF_文件系列8_实现OAF处理Excel的JXL包详解
  写入/读取Excle,设置打印样式排版,锁定列与行,设置打印标题,给Excle加密。 http://www.blogjava.net/xing5156/archive/2011/11/18/364221.
773 0
MaxComputer-Pyodps之mysql ddl 批量生成odps ddl
批量将mysql 的DDL语句转化为odps ddl,潦草之作,可用即可。。。
2438 0
批处理创建文件夹
原文:批处理创建文件夹 @echo off ::关闭回显 set date=%~1 :: 设置一个变量传参数 if not exist %date% ( md %date%) else (rd /s /Q %date% && md %date%) cd %date% :: 如果文件夹不存在则创建,如果存在则删除掉并重建 ::rd是删除目录 ,/Q 就是安静删除.不提示 ,/S就是删除子文件夹及所有文件  脚本如上,我放在D:\BATDEMO这个路径下面。
780 0
Excel 处理跨表处理
VLOOKUP(lookup_value,table_array,col_index_num,range_lookup) Lookup_value为需要在数据表第一列中进行查找的数值。
745 0
MaxCompute客户端(odpscmd)在windows命令行下查询中文乱码问题处理实践
MaxCompute客户端工具是阿里云大数据计算服务MaxCompue产品官方客户端工具,通过客户端工具可以连接MaxCompute项目,完成包括数据管理、数据上下传、作业执行、用户及授权管理等各项操作。
5314 0
大话存储系列7——文件系统和IO处理流程
1、文件系统 在早期的计算机系统中,每个程序都必须自己管理磁盘,在磁盘中放自己的数据,程序需要直接和磁盘控制器打交道。有多少个程序要利用磁盘,就有多少个磁盘交互启动接口。
1059 0
excel文件内容导入数据库的问题及解决
今天需要导一些数据,从excel导入到数据库中。 没有装现成的plsqldev,只能用sql*loader来弄了。 首先我把excel文件的内容转换成csv文件,以逗号分隔,在另存外excel文件的时候有那个选项。
1098 0
[20180319]windows批处理文件大小比较.txt
[20180319]windows批处理文件大小比较.txt --//我使用eDiary写日志,有时候为了安全期间,我在U盘保留一份备份. --//需要同步,但是eDiary有一个"问题"就是如果打开日记本,没有任何操作,都会修改文件的时间戳.
989 0
+关注
1
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载