阿里云 adb postgress 数据导入踩坑

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
简介: 阿里云 adb postgress 数据导入踩坑

前言


写在前头:避免使用掌控不了的工具。

最近我们在做数据库性能比对测试,使用的测试集是TPC-H 数据集。数据集已经生成了,就剩下导入的工作。现在记录一下最近的踩坑。


正文


1. 数据结构要求不一致


使用 adb postgres 的 COPY 命令从对象存储导入数据,老是报错 extra data after last expected column ,意思就是表的列,和数据的列没对上。

查找其他教程后发现:导入 TPC-H 数据 postgres 数据库时,需要把每一行最后的分隔符给去了。


13.webp.jpg

最后的分隔符需要去了


2. SQL 执行时间太长会被自动 kill 掉


导入 tpch1000 数据集,最大的 lineitem 表又 1000G 大小的数据,一天执行不完。好家伙,adb pg,默认SQL执行 3 小时不出结果,就变成 timeout 了。

可以在设置一下对应的参数


15.webp.jpg

timeout时间设置


3. 所使用的的账号没有对象存储上传文件的权限


我们适合阿里合作的,结果他们给我分配测试账号时,没分配上传完文件的权限。我这又不准备导入 tpch1000 数据了,准备生成 100G 的数据上传上去测,结果没权限上传。

(最后要到权限了)


4. 对象存储通过网页上传文件,文件最大只能是 5G 大小


我费劲巴力的生成了 100G 的tpch数据,切片设置的是 10,结果最大文件是 7.5G。没办法,重新将切片改大,重新生成吧。


5. 上传之后查询到的数据,比实际的数据要多(致命)


我再次费劲巴力把所有数据上传到了 adb pg上,结果一查询:

select count(*) from tpch100.lineitem;

结果是:9亿条多数据!(正确的数据应该是 6亿多条数据 )


17.webp.jpg

这多的 3000 多万怎么来的?

我以为是我多上传了重复数据。结果我把数据清空,一个分片一个分片传,好家伙:


18.webp.jpg


结果,还是比实际的要多。(查询是3300万,应该是3000万)

我去!!!!!!!!!!!!!!!!!!!

不玩了,还是使用简简单单的 jdbc 导入数据吧,不搞的这复杂了。

相关实践学习
阿里云百炼xAnalyticDB PostgreSQL构建AIGC应用
通过该实验体验在阿里云百炼中构建企业专属知识库构建及应用全流程。同时体验使用ADB-PG向量检索引擎提供专属安全存储,保障企业数据隐私安全。
AnalyticDB PostgreSQL 企业智能数据中台:一站式管理数据服务资产
企业在数据仓库之上可构建丰富的数据服务用以支持数据应用及业务场景;ADB PG推出全新企业智能数据平台,用以帮助用户一站式的管理企业数据服务资产,包括创建, 管理,探索, 监控等; 助力企业在现有平台之上快速构建起数据服务资产体系
目录
相关文章
|
3月前
|
关系型数据库 MySQL Apache
**ADB MySQL湖仓版能够平滑迁移到湖仓**,阿里云提供了相应的迁移工具和服务来简化这一过程。
**ADB MySQL湖仓版能够平滑迁移到湖仓**,阿里云提供了相应的迁移工具和服务来简化这一过程。
311 2
|
20天前
|
数据采集 存储 监控
从零到一建设数据中台 - 数据治理路径
从零到一建设数据中台 - 数据治理路径
62 6
|
30天前
|
存储 JSON Cloud Native
数据库ADB-PG问题之数据源处理如何解决
数据库ADB-PG问题之数据源处理如何解决
|
3月前
|
弹性计算 自然语言处理 开发工具
通过阿里云 Milvus 和 LangChain 快速构建 LLM 问答系统
本文介绍如何通过整合阿里云Milvus、阿里云DashScope Embedding模型与阿里云PAI(EAS)模型服务,构建一个由LLM(大型语言模型)驱动的问题解答应用,并着重演示了如何搭建基于这些技术的RAG对话系统。
通过阿里云 Milvus 和 LangChain 快速构建 LLM 问答系统
|
3天前
|
存储 机器学习/深度学习 数据采集
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
深入解析大数据核心概念:数据平台、数据中台、数据湖与数据仓库的异同与应用
|
13天前
|
存储 自然语言处理 算法
【LangChain】如何本地部署基于chatGPT的实时文档和表格数据的助手,在自己的数据上构建chatGPT?
本文介绍了如何使用LangChain库和FAISS工具在本地部署一个基于chatGPT的实时文档和表格数据助手,详细阐述了项目原理、搭建步骤、环境配置、代码修改和运行流程,以及如何在自己的数据上构建和使用chatGPT。
26 1
|
1月前
结合LangChain实现网页数据爬取
LangChain框架简化了数据爬取和处理,如信息检索任务。在示例中,它结合Playwright抓取ceshiren论坛页面,使用BeautifulSoup处理HTML,然后应用LangChain的提取链获取帖子标题和URL。代码中定义了提取函数,通过`ChatOpenAI`模型和特定模式抽取数据。此示例展示了LangChain如何降低复杂性,便于快速实现网页内容的自动化提取。
48 6
|
20天前
|
数据采集 机器学习/深度学习 数据可视化
从零到一建设数据中台 - 数据服务开发
从零到一建设数据中台 - 数据服务开发
28 0
|
22天前
|
Cloud Native 关系型数据库 MySQL
云原生数据仓库使用问题之如何将ADB中的数据导出到自建的MySQL数据库
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
30天前
|
存储 数据库 数据库管理
微服务数据问题之向量数据库如何解决
微服务数据问题之向量数据库如何解决

热门文章

最新文章