阿里云 adb postgress 数据导入踩坑

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 阿里云 adb postgress 数据导入踩坑

前言


写在前头:避免使用掌控不了的工具。

最近我们在做数据库性能比对测试,使用的测试集是TPC-H 数据集。数据集已经生成了,就剩下导入的工作。现在记录一下最近的踩坑。


正文


1. 数据结构要求不一致


使用 adb postgres 的 COPY 命令从对象存储导入数据,老是报错 extra data after last expected column ,意思就是表的列,和数据的列没对上。

查找其他教程后发现:导入 TPC-H 数据 postgres 数据库时,需要把每一行最后的分隔符给去了。


13.webp.jpg

最后的分隔符需要去了


2. SQL 执行时间太长会被自动 kill 掉


导入 tpch1000 数据集,最大的 lineitem 表又 1000G 大小的数据,一天执行不完。好家伙,adb pg,默认SQL执行 3 小时不出结果,就变成 timeout 了。

可以在设置一下对应的参数


15.webp.jpg

timeout时间设置


3. 所使用的的账号没有对象存储上传文件的权限


我们适合阿里合作的,结果他们给我分配测试账号时,没分配上传完文件的权限。我这又不准备导入 tpch1000 数据了,准备生成 100G 的数据上传上去测,结果没权限上传。

(最后要到权限了)


4. 对象存储通过网页上传文件,文件最大只能是 5G 大小


我费劲巴力的生成了 100G 的tpch数据,切片设置的是 10,结果最大文件是 7.5G。没办法,重新将切片改大,重新生成吧。


5. 上传之后查询到的数据,比实际的数据要多(致命)


我再次费劲巴力把所有数据上传到了 adb pg上,结果一查询:

select count(*) from tpch100.lineitem;

结果是:9亿条多数据!(正确的数据应该是 6亿多条数据 )


17.webp.jpg

这多的 3000 多万怎么来的?

我以为是我多上传了重复数据。结果我把数据清空,一个分片一个分片传,好家伙:


18.webp.jpg


结果,还是比实际的要多。(查询是3300万,应该是3000万)

我去!!!!!!!!!!!!!!!!!!!

不玩了,还是使用简简单单的 jdbc 导入数据吧,不搞的这复杂了。

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
2月前
|
SQL 存储 OLAP
数据外置提速革命:轻量级开源SPL如何用文件存储实现MPP级性能?
传统交易型数据库在分析计算中常遇性能瓶颈,将数据迁至OLAP数据仓库虽可缓解,但成本高、架构复杂。SPL通过轻量级列存文件存储历史数据,提供强大计算能力,大幅简化架构并提升性能。它优化了列式存储、数据压缩与多线程并行处理,在常规及复杂计算场景中均表现优异,甚至单机性能超越集群。实际案例中,SPL在250亿行数据的时空碰撞问题上,仅用6分钟完成ClickHouse集群30分钟的任务。
数据外置提速革命:轻量级开源SPL如何用文件存储实现MPP级性能?
|
10月前
|
机器学习/深度学习 敏捷开发 存储
数据飞轮:激活数据中台的数据驱动引擎
数据飞轮:激活数据中台的数据驱动引擎
|
4月前
|
存储 SQL 监控
【亲测有用】数据中台数据服务管理能力演示
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
5月前
|
存储 数据采集 人工智能
AllData数据中台架构全览:数据时代的智慧中枢
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
AllData数据中台架构全览:数据时代的智慧中枢
|
4月前
|
存储 消息中间件 NoSQL
【亲测有用】数据中台数据模型管理能力演示
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
|
4月前
|
存储 分布式计算 DataWorks
阿里云助力富友数据中台革新,创新引擎赋能商户数字化经营
在电子商务和跨境交易蓬勃发展的背景下,第三方支付行业迎来爆发式增长,但也面临数据量激增、实时性瓶颈、高并发压力及成本效率失衡等挑战。富友支付通过引入MaxCompute、Hologres和DataWorks等技术,重构新一代数据仓库体系,实现高性能、高稳定性和降本增效,助力商户数字化经营,推动支付行业生态的可持续发展。
|
11月前
|
存储 监控 安全
阿里云数据库(ADB)的多租户秘籍:资源隔离的魔法如何施展?
【8月更文挑战第27天】多租户系统在云计算与大数据领域日益重要,它让不同用户或组织能在共享基础设施上独立运行应用和服务,同时确保资源隔离与安全。ADB(如阿里云数据库)通过资源组及标签实现高效多租户隔离。资源组作为一种软隔离策略,允许为不同租户分配独立的计算和存储资源,并设置资源上限;资源标签则支持更细粒度的硬隔离,可为每个数据库表或查询指定特定标签,确保资源有效分配。此外,ADB还提供了资源监控与告警功能,帮助管理员实时监控并调整资源分配,避免性能瓶颈。这种灵活且高效的资源隔离方案为多租户环境下的数据处理提供了强大支持。
443 0
|
7月前
|
弹性计算 自然语言处理 数据库
通过阿里云Milvus和LangChain快速构建LLM问答系统
本文介绍如何通过整合阿里云Milvus、阿里云DashScope Embedding模型与阿里云PAI(EAS)模型服务,构建一个由LLM(大型语言模型)驱动的问题解答应用,并着重演示了如何搭建基于这些技术的RAG对话系统。
|
10月前
|
机器学习/深度学习 数据可视化 数据挖掘
唤醒数据中台潜力:加速数据飞轮转动,实现数据驱动的秘籍
本文探讨了如何通过数据飞轮激活数据中台的潜力,实现数据驱动的创新。文章分析了数据中台面临的挑战,如数据孤岛和工具复杂性,并提出了建立统一数据治理架构、引入自动化数据管道和强化数据与业务融合等策略。通过实际案例和技术示例,展示了如何利用数据飞轮实现业务增长,强调了数据可视化和文化建设的重要性。旨在帮助企业充分挖掘数据价值,提升决策效率。
272 1
唤醒数据中台潜力:加速数据飞轮转动,实现数据驱动的秘籍
|
10月前
|
存储 机器学习/深度学习 数据管理
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
数据技术的进化史:从数据仓库到数据中台再到数据飞轮