阿里云 adb postgress 数据导入踩坑

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 阿里云 adb postgress 数据导入踩坑

前言


写在前头:避免使用掌控不了的工具。

最近我们在做数据库性能比对测试,使用的测试集是TPC-H 数据集。数据集已经生成了,就剩下导入的工作。现在记录一下最近的踩坑。


正文


1. 数据结构要求不一致


使用 adb postgres 的 COPY 命令从对象存储导入数据,老是报错 extra data after last expected column ,意思就是表的列,和数据的列没对上。

查找其他教程后发现:导入 TPC-H 数据 postgres 数据库时,需要把每一行最后的分隔符给去了。


13.webp.jpg

最后的分隔符需要去了


2. SQL 执行时间太长会被自动 kill 掉


导入 tpch1000 数据集,最大的 lineitem 表又 1000G 大小的数据,一天执行不完。好家伙,adb pg,默认SQL执行 3 小时不出结果,就变成 timeout 了。

可以在设置一下对应的参数


15.webp.jpg

timeout时间设置


3. 所使用的的账号没有对象存储上传文件的权限


我们适合阿里合作的,结果他们给我分配测试账号时,没分配上传完文件的权限。我这又不准备导入 tpch1000 数据了,准备生成 100G 的数据上传上去测,结果没权限上传。

(最后要到权限了)


4. 对象存储通过网页上传文件,文件最大只能是 5G 大小


我费劲巴力的生成了 100G 的tpch数据,切片设置的是 10,结果最大文件是 7.5G。没办法,重新将切片改大,重新生成吧。


5. 上传之后查询到的数据,比实际的数据要多(致命)


我再次费劲巴力把所有数据上传到了 adb pg上,结果一查询:

select count(*) from tpch100.lineitem;

结果是:9亿条多数据!(正确的数据应该是 6亿多条数据 )


17.webp.jpg

这多的 3000 多万怎么来的?

我以为是我多上传了重复数据。结果我把数据清空,一个分片一个分片传,好家伙:


18.webp.jpg


结果,还是比实际的要多。(查询是3300万,应该是3000万)

我去!!!!!!!!!!!!!!!!!!!

不玩了,还是使用简简单单的 jdbc 导入数据吧,不搞的这复杂了。

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
27天前
|
机器学习/深度学习 敏捷开发 存储
数据飞轮:激活数据中台的数据驱动引擎
数据飞轮:激活数据中台的数据驱动引擎
|
3月前
|
数据采集 存储 监控
从零到一建设数据中台 - 数据治理路径
从零到一建设数据中台 - 数据治理路径
108 6
|
2月前
|
存储 监控 安全
阿里云数据库(ADB)的多租户秘籍:资源隔离的魔法如何施展?
【8月更文挑战第27天】多租户系统在云计算与大数据领域日益重要,它让不同用户或组织能在共享基础设施上独立运行应用和服务,同时确保资源隔离与安全。ADB(如阿里云数据库)通过资源组及标签实现高效多租户隔离。资源组作为一种软隔离策略,允许为不同租户分配独立的计算和存储资源,并设置资源上限;资源标签则支持更细粒度的硬隔离,可为每个数据库表或查询指定特定标签,确保资源有效分配。此外,ADB还提供了资源监控与告警功能,帮助管理员实时监控并调整资源分配,避免性能瓶颈。这种灵活且高效的资源隔离方案为多租户环境下的数据处理提供了强大支持。
92 0
|
2月前
|
SQL 运维 Oracle
【迁移秘籍揭晓】ADB如何助你一臂之力,轻松玩转Oracle至ADB的数据大转移?
【8月更文挑战第27天】ADB(Autonomous Database)是由甲骨文公司推出的自动化的数据库服务,它极大简化了数据库的运维工作。在从传统Oracle数据库升级至ADB的过程中,数据迁移至关重要。
44 0
|
13天前
|
机器学习/深度学习 数据可视化 数据挖掘
唤醒数据中台潜力:加速数据飞轮转动,实现数据驱动的秘籍
本文探讨了如何通过数据飞轮激活数据中台的潜力,实现数据驱动的创新。文章分析了数据中台面临的挑战,如数据孤岛和工具复杂性,并提出了建立统一数据治理架构、引入自动化数据管道和强化数据与业务融合等策略。通过实际案例和技术示例,展示了如何利用数据飞轮实现业务增长,强调了数据可视化和文化建设的重要性。旨在帮助企业充分挖掘数据价值,提升决策效率。
27 1
唤醒数据中台潜力:加速数据飞轮转动,实现数据驱动的秘籍
|
27天前
|
存储 机器学习/深度学习 数据管理
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
数据技术的进化史:从数据仓库到数据中台再到数据飞轮
|
13天前
|
机器学习/深度学习 消息中间件 搜索推荐
【数据飞轮】驱动业务增长的高效引擎 —从数据仓库到数据中台的技术进化与实战
在数据驱动时代,企业逐渐从数据仓库过渡到数据中台,并进一步发展为数据飞轮。本文详细介绍了这一演进路径,涵盖数据仓库的基础存储与查询、数据中台的集成与实时决策,以及数据飞轮的自动化增长机制。通过代码示例展示如何在实际业务中运用数据技术,实现数据的最大价值,推动业务持续优化与增长。
36 4
|
26天前
|
机器学习/深度学习 搜索推荐 算法
从数据中台到数据飞轮:企业升级的必然之路
在探讨是否需从数据中台升级至数据飞轮前,我们应先理解两者之间的关系。数据中台作为数据集成、清洗及治理的强大平台,是数据飞轮的基础;而要实现数据飞轮,则需进一步增强数据自动化处理与智能化利用能力。借助机器学习与人工智能技术,“转动”数据并创建反馈机制,使数据在循环中不断优化,如改进产品推荐系统,进而形成数据飞轮。此外,为了适应市场变化,企业还需提高数据基础设施的敏捷性和灵活性,这可通过采用微服务架构和云计算技术来达成,从而确保数据系统的快速扩展与调整,支持数据飞轮高效运转。综上所述,数据中台虽为基础,但全面升级至数据飞轮则需在数据自动化处理、反馈机制及系统敏捷性方面进行全面提升。
84 14
|
1天前
|
机器学习/深度学习 JSON JavaScript
LangChain-21 Text Splitters 内容切分器 支持多种格式 HTML JSON md Code(JS/Py/TS/etc) 进行切分并输出 方便将数据进行结构化后检索
LangChain-21 Text Splitters 内容切分器 支持多种格式 HTML JSON md Code(JS/Py/TS/etc) 进行切分并输出 方便将数据进行结构化后检索
7 0
|
5天前
|
数据管理 数据挖掘 大数据
数据飞轮崛起:数据中台真的过时了吗?
数据飞轮崛起:数据中台真的过时了吗?