阿里云 adb postgress 数据导入踩坑

简介: 阿里云 adb postgress 数据导入踩坑

前言


写在前头:避免使用掌控不了的工具。

最近我们在做数据库性能比对测试,使用的测试集是TPC-H 数据集。数据集已经生成了,就剩下导入的工作。现在记录一下最近的踩坑。


正文


1. 数据结构要求不一致


使用 adb postgres 的 COPY 命令从对象存储导入数据,老是报错 extra data after last expected column ,意思就是表的列,和数据的列没对上。

查找其他教程后发现:导入 TPC-H 数据 postgres 数据库时,需要把每一行最后的分隔符给去了。


13.webp.jpg

最后的分隔符需要去了


2. SQL 执行时间太长会被自动 kill 掉


导入 tpch1000 数据集,最大的 lineitem 表又 1000G 大小的数据,一天执行不完。好家伙,adb pg,默认SQL执行 3 小时不出结果,就变成 timeout 了。

可以在设置一下对应的参数


15.webp.jpg

timeout时间设置


3. 所使用的的账号没有对象存储上传文件的权限


我们适合阿里合作的,结果他们给我分配测试账号时,没分配上传完文件的权限。我这又不准备导入 tpch1000 数据了,准备生成 100G 的数据上传上去测,结果没权限上传。

(最后要到权限了)


4. 对象存储通过网页上传文件,文件最大只能是 5G 大小


我费劲巴力的生成了 100G 的tpch数据,切片设置的是 10,结果最大文件是 7.5G。没办法,重新将切片改大,重新生成吧。


5. 上传之后查询到的数据,比实际的数据要多(致命)


我再次费劲巴力把所有数据上传到了 adb pg上,结果一查询:

select count(*) from tpch100.lineitem;

结果是:9亿条多数据!(正确的数据应该是 6亿多条数据 )


17.webp.jpg

这多的 3000 多万怎么来的?

我以为是我多上传了重复数据。结果我把数据清空,一个分片一个分片传,好家伙:


18.webp.jpg


结果,还是比实际的要多。(查询是3300万,应该是3000万)

我去!!!!!!!!!!!!!!!!!!!

不玩了,还是使用简简单单的 jdbc 导入数据吧,不搞的这复杂了。

相关实践学习
使用CLup和iSCSI共享盘快速体验PolarDB for PostgtreSQL
在Clup云管控平台中快速体验创建与管理在iSCSI共享盘上的PolarDB for PostgtreSQL。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
2月前
|
关系型数据库 MySQL Apache
**ADB MySQL湖仓版能够平滑迁移到湖仓**,阿里云提供了相应的迁移工具和服务来简化这一过程。
**ADB MySQL湖仓版能够平滑迁移到湖仓**,阿里云提供了相应的迁移工具和服务来简化这一过程。
19 2
|
5月前
|
分布式计算 关系型数据库 MySQL
阿里云ADB MySQL X Intel联合推出训练营,参营完成任务即可获100元话费卡!
AnalyticDB MySQL和Intel联合推出基于ADB Spark的训练营,ADB新用户参营完成任务即可获得价值100元的话费卡权益包!下图可扫码参加,也可直接点击链接前往 https://edu.aliyun.com/trainingcamp/355118
阿里云ADB MySQL X Intel联合推出训练营,参营完成任务即可获100元话费卡!
|
12月前
|
新零售
重磅发布 | 阿里云发布《数据中台交付标准化》白皮书,促进数据中台高效高质量履约 原创 肖剑 阿里云研究院
编者按: 企业进行数字化建设是实现精细化运营和数字化创新发展的关键所在,数据中台建设是企业实现数智化转型的必经之路。在数据中台建设与交付过程中,存在专业度要求高、交付过程管控难、交付协同难等挑战,为应对这些挑战并实现数据中台交付,需要有一套数据中台交付的方法论、交付标准、交付工具和数字化交付工作台来指导、帮助企业和数据中台服务商来建设好数据中台,为企业的数字化转型提供数据咨询规划服务、数据资产建设服务和数据应用建设服务等,提升数据中台交付的效率和质量,降低规模化交付成本。
584 0
重磅发布 | 阿里云发布《数据中台交付标准化》白皮书,促进数据中台高效高质量履约 原创 肖剑 阿里云研究院
|
10月前
|
人工智能 Cloud Native 关系型数据库
阿里云数据库国际峰会首度在印尼召开,AnalyticDB向量引擎支持定制AIGC应用
阿里云瑶池数据库面向海外市场正式升级云原生一站式数据管理与服务平台
|
11月前
|
存储 机器学习/深度学习 人工智能
基于 阿里云 ACK 搭建开源向量数据库 Milvus
生成式 AI(Generative AI)引爆了向量数据库(Vector Database)市场,基于大模型的各种应用场景会需要使用到向量数据库。 其中,Milvus 是一个高度灵活、可靠且速度极快的云原生开源向量数据库。它为 embedding 相似性搜索和 AI 应用程序提供支持,并努力使每个组织都可以访问向量数据库。 Milvus 可以存储、索引和管理由深度神经网络和其他机器学习(ML)模型生成的十亿级别以上的 embedding 向量。 本文介绍在阿里云ACK上部署Milvus并且通过attu访问的步骤。
2966 0
|
BI
《阿里云数据中台2021产品年鉴》电子版地址
本年鉴梳理数据中台架构中多款产品的定位与作用,并对 Dataphin、Quick BI、Quick Audience 三款重点产品的核心能力进行解析详述,推出目前最为完善的产品能力大图。
112 0
《阿里云数据中台2021产品年鉴》电子版地址
|
BI
《阿里云数据中台2021产品年鉴》电子版下载地址
本年鉴梳理数据中台架构中多款产品的定位与作用,并对 Dataphin、Quick BI、Quick Audience 三款重点产品的核心能力进行解析详述,推出目前最为完善的产品能力大图。
156 0
《阿里云数据中台2021产品年鉴》电子版下载地址
|
4天前
|
弹性计算 运维 监控
解密阿里云弹性计算:探索云服务器ECS的核心功能
阿里云ECS是核心计算服务,提供弹性云服务器资源,支持实例按需配置、集群管理和监控,集成安全防护,确保服务稳定、安全,助力高效业务运营。
30 0
|
13天前
|
存储 弹性计算 固态存储
阿里云服务器CPU内存配置详细指南,如何选择合适云服务器配置?
阿里云服务器配置选择涉及CPU、内存、公网带宽和磁盘。个人开发者或中小企业推荐使用轻量应用服务器或ECS经济型e实例,如2核2G3M配置,适合低流量网站。企业用户则应选择企业级独享型ECS,如通用算力型u1、计算型c7或通用型g7,至少2核4G配置,公网带宽建议5M,系统盘可选SSD或ESSD云盘。选择时考虑实际应用需求和性能稳定性。
124 6
|
15天前
|
域名解析 弹性计算 Linux
阿里云购买云服务器、注册域名、备案及绑定图文教程参考
本文为大家介绍了2024年购买阿里云服务器和注册域名,绑定以及备案的教程,适合需要在阿里云购买云服务器、注册域名并备案的用户参考,新手用户可通过此文您了解在从购买云服务器到完成备案的流程。
阿里云购买云服务器、注册域名、备案及绑定图文教程参考