大批量处理excel文件到ODPS中方案

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云数据库 RDS PostgreSQL,集群系列 2核4GB
简介: 大批量处理excel文件到ODPS中方案 前言 最近所做的项目需要将近五千个excel文件导入到ODPS,并且excel文件内容格式全部不一样。 刚接到需求时特别的懵,不过工作还是要做的,首先通过查询dataworks中文档来看怎么实现该需求,通过文档了解到只支持csv、txt等格式进行单个上传,然后就开始着手做。
  • 大批量处理excel文件到ODPS中方案

    前言

    • 最近所做的项目需要将近五千个excel文件导入到ODPS,并且excel文件内容格式全部不一样。

      刚接到需求时特别的懵,不过工作还是要做的,首先通过查询dataworks中文档来看怎么实现该需求,通过文档了解到只支持csv、txt等格式进行单个上传,然后就开始着手做。

    方案一

    • 1 、首先按照excel文件内容创建表(下图序号1中),然后将excel文件进行处理,删除一些不必要的数据(序号2中的一些空格),然后另存为逗号分隔的csv格式文档,然后在dataworks数据开发中上传csv文件,达到将excel文件上传。(具体的可以参照官网上步骤,非常的详细,我就不啰嗦了)。

    • bc8841b8f2e3b80f075dc1f5ebd3b7630711edd6
    • 备注: 该方式可以实现excel文件转换成csv文件进行上云。但是由于格式不统一,需要逐个的创建表进行上传,一天只上传一百来个excel文件,效率是非常慢的。

    方案二

    • 通过查找发现dataworks支持RDS整库迁移的方式,于是就在想是否可以将这些excel文件批量的上传到RDS中,购买了一个RDS实例,通过半天的学习配置等,发现也无法批量的上传excel文件。

    • 于是就寻找别的方式,最终通过在本机电脑上自建mysql数据库,然后用navicat连接上,通过navicat批量的上传数据到mysql 中,

    07842f9a9537958cc4c6dc554dd6a76e26d4110f

    • d222eae708df1a48e87f4a8d9769239f50b5d299
    • 接着将上传的数据整库的导出成SQL文件,由于RDS的mysql支持上传sql文件,并且最大支持100M内的文件上传,然后执行。
    • 将转储SQL文件结构和数据文件上传到RDS中执行,数据便到RDS中,然后在dataworks中整库迁移数据即可全部同步完成,整个批量上传过程一下午即将五千多个excel文件全部上云。

    方案三

    • 由于考虑到在本机自建mysql毕竟不稳定,就打算购买ECS,然后在上边自建mysql,然后同步数据,不过该方式最终同步成功,但是不建议使用,该方式不支持整库迁移,并且只能写脚本,还要两台以上的ECS,其中一台作为代理,故不推荐该方式。

      以上只是自己在使用中摸索的方法,相信还有更好更完善的方法,希望大家多多分享。

    总的来说dataworks升级到2.0功能是十分强大的,数据保护伞、智能监控、数据服务、任务发布等新功能。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
8天前
|
数据处理 Python
Python 高级技巧:深入解析读取 Excel 文件的多种方法
在数据分析中,从 Excel 文件读取数据是常见需求。本文介绍了使用 Python 的三个库:`pandas`、`openpyxl` 和 `xlrd` 来高效处理 Excel 文件的方法。`pandas` 提供了简洁的接口,而 `openpyxl` 和 `xlrd` 则针对不同版本的 Excel 文件格式提供了详细的数据读取和处理功能。此外,还介绍了如何处理复杂格式(如合并单元格)和进行性能优化(如分块读取)。通过这些技巧,可以轻松应对各种 Excel 数据处理任务。
36 16
|
2天前
|
JSON 数据格式
LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索
LangChain-20 Document Loader 文件加载 加载MD DOCX EXCEL PPT PDF HTML JSON 等多种文件格式 后续可通过FAISS向量化 增强检索
10 2
|
3天前
|
IDE 开发工具 数据安全/隐私保护
Python编程--实现用户注册信息写入excel文件
Python编程--实现用户注册信息写入excel文件
|
25天前
R Excel 文件
Excel 格式的文件主要是 xls 或 xlsx,这两种文件可以在 R 语言中导入 xlsx 库来实现直接的读取。
53 23
|
4天前
|
iOS开发 MacOS Python
Python编程-macOS系统数学符号快捷键录入并生成csv文件转换为excel文件
Python编程-macOS系统数学符号快捷键录入并生成csv文件转换为excel文件
13 0
|
16天前
5-22|pywintypes.com_error: (-2147352567, '发生意外。', (0, 'Microsoft Office Excel', 'Excel 无法打开文件“
5-22|pywintypes.com_error: (-2147352567, '发生意外。', (0, 'Microsoft Office Excel', 'Excel 无法打开文件“
|
25天前
|
存储 数据挖掘 测试技术
Python接口自动化中操作Excel文件的技术方法
通过上述方法和库,Python接口自动化中的Excel操作变得既简单又高效,有助于提升自动化测试的整体质量和效率。
22 0
|
2月前
|
DataWorks Kubernetes 大数据
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
|
2月前
|
SQL DataWorks 安全
DataWorks产品使用合集之如何实现分钟级调度
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
2月前
|
运维 DataWorks 监控
DataWorks产品使用合集之如何自定义UDTF
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。