批量操作进阶:百万行级数据导入的性能极限

本文涉及的产品
RDS AI 助手,专业版
PolarDB Agent Flow,2核4GB
PolarDB Agent Express,2核4GB
简介: 本文分享百万行数据导入四大进阶技巧:分区表减少锁竞争、禁用索引加速写入、并行LOAD DATA榨干多核性能、金仓kdb_load专用工具再提速。实测100万行最快<1秒,助你从分钟级跃升秒级!

大家好,我是小耶,写功课只是为了我踩过的坑,你们别再踩了!

上周讲了批量插入一万行的优化方法,有朋友问:百万行怎么办?确实,数据量再上一个台阶,之前的多行INSERT和LOAD DATA又会碰到新瓶颈。今天分享四个进阶技巧。

1 名词解释

  • 分区表​:将一张大表按某个键(如日期)拆分成多个物理分区,查询时可只扫描相关分区,导入时数据自动落入对应分区,减少锁竞争。
  • 禁用索引​:导入前关闭索引维护(ALTER TABLE t DISABLE KEYS),导入后重建(ENABLE KEYS),可大幅提升写入速度。
  • 并行导入​:将数据文件拆分成多份,同时运行多个导入进程,利用多核CPU和磁盘并行能力。
  • 批量加载工具​:某些数据库自带专用导入工具(如MySQL的mysqlimport),比通用LOAD DATA更高效。

2 实际运用

2.1 分区表

按日期范围分区示例:

CREATE TABLE orders (
    id INT,
    order_date DATE,
    amount DECIMAL(10,2)
) PARTITION BY RANGE (YEAR(order_date)) (
    PARTITION p2022 VALUES LESS THAN (2023),
    PARTITION p2023 VALUES LESS THAN (2024),
    PARTITION p2024 VALUES LESS THAN (2025)
);

导入时数据自动落入对应分区,减少锁竞争。

2.2 禁用索引

ALTER TABLE orders DISABLE KEYS;
-- 执行批量导入(如 LOAD DATA)
ALTER TABLE orders ENABLE KEYS;

注意:DISABLE KEYS对非唯一索引有效,唯一索引无法禁用。

2.3 并行导入

将1000万行CSV拆成10个100万行的文件,同时运行10个LOAD DATA会话。示例(shell脚本):

for i in {1..10}; do
    mysql -e "LOAD DATA LOCAL INFILE 'data_$i.csv' INTO TABLE orders" &
done
wait

需确保主键不冲突(如使用不同的id范围)。

2.4 专用工具:金仓 kdb_load

金仓数据库(KingbaseES)提供的 kdb_load 工具,用法类似 LOAD DATA,但针对大数据量做了更深度的优化,支持自动拆分、并行加载。

kdb_load -h localhost -d mydb -U myuser -p 54321 -c data.csv -t mytable

主要参数:

  • -h / -p:数据库主机和端口
  • -d:数据库名
  • -U:用户名
  • -c:源数据文件
  • -t:目标表名

相比通用 LOAD DATAkdb_load 在处理100万行以上的数据时,速度可以再快一截,尤其适合批量数据入仓和跨库迁移场景。

3 实测数据(100万行)

方法 耗时 说明
多行INSERT(1000行/批) 25秒 默认配置
LOAD DATA 8秒 基础
禁用索引 + LOAD DATA 4秒 索引重建额外+2秒
并行LOAD DATA(4线程) 1.2秒 需拆分文件
金仓 kdb_load <1秒 专用工具加速更明显

4 价值总结

  • 分区表、禁用索引、并行导入、专用工具这四招,足以把百万行导入从分钟级压到秒级。
  • 不同方法对应不同量级:十万级可用多行INSERT + LOAD DATA,百万级必须上并行 + 禁用索引,千万级以上建议直接用 kdb_load 类专用工具。
  • 实际落地时,可以先小数据量压测,再按实际耗时决定要不要开并行、要不要上专用工具。

小耶在手,SQL不愁。

还有什么想了解的,欢迎留言!小耶一定知无不言言无不尽……我们下次见~

相关文章
|
1月前
|
SQL 关系型数据库 MySQL
一张5000万行的表,加索引从45秒到0.02秒——索引设计你真的会吗
本文实测5000万订单表:无索引查询45秒,加索引后仅0.02秒(提升2250倍)。详解索引原理、建索引时机、联合索引最左前缀、覆盖索引及隐式转换陷阱,干货不啰嗦!
|
2月前
|
缓存 NoSQL 网络协议
如何为我的网站或应用集成IP归属地查询功能?
本文为网站/应用集成IP归属地查询的落地指南:强调“取对IP”是前提(仅信可信上游、严滤私网),采用“本地+Redis缓存+在线API+硬超时熔断”架构,失败自动降级至省/国家;区分展示型与风控型模型,确保可解释、可审计、可回滚,并严守隐私合规红线。(239字)
238 13
|
23天前
|
人工智能 Java API
多端CRM客户关系管理系统源码下载(PHP/Java/Python)完整开源版
本文深度解析PHP、Java、Python三大技术栈的开源CRM方案,涵盖多端协同架构、RBAC权限控制、客户公海回收、RESTful API设计及AI智能化演进,助成长型企业以低成本实现私有化、可定制、高扩展的CRM自主建设。
|
19天前
|
人工智能 弹性计算 自然语言处理
2026年阿里云最新活动:云服务器抢购与特惠、云产品免费试用、AI产品活动
2026年,阿里云持续深化普惠战略,围绕云服务器、免费试用与AI产品三大板块推出系列优惠。云服务器方面,轻量应用服务器低至38元/年,ECS经济型e实例99元/年、u1实例199元/年,新购续费同价,活动有效期至2027年3月。免费试用覆盖160+云产品及多款解决方案,新客最高可领12个月试用权益。AI产品方面,阿里云百炼Token Plan提供多模型灵活订阅,按量达标最高返200元优惠券;HappyHorse视频生成模型限时8折;OpenClaw AI助理9.9元/月起即可部署。无论个人开发者还是企业用户,均可借助上述活动实现低成本上云与智能化升级。
|
19天前
|
运维 容灾 关系型数据库
数据库容灾配置全攻略:同城容灾vs两地三中心,RPO、RTO一篇讲透
数据库小学妹带你轻松搞懂容灾核心概念!本文用通俗语言解析同城容灾、两地三中心、高可用集群,厘清RPO(数据丢失容忍)与RTO(恢复时效)关键指标,对比方案选型要点,并揭秘同步/异步复制、自动切换、读写分离等实战技术,附避坑指南与演练建议。
|
7天前
|
存储 运维 监控
《告别日志排查:OpenClaw如何修复工具错误指南》
传统工具调用系统依赖预先枚举的错误码,面对异构工具的指数级参数组合和隐蔽语义错误时彻底失效,只能靠人工排查海量日志救火。本文深入拆解OpenClaw的革命性设计,它彻底抛弃被动防御思路,构建了语法校验、语义验证、目标对齐三层递进的语义自愈体系。通过异常语义化建模、工具间协同纠错、动态粒度控制和自学习闭环,将异常转化为系统进化的养分,实现95%以上常见异常的自主修复。这套机制为通用智能体的鲁棒性提供了全新技术路径,重新定义了工具调用的可靠性标准。
160 9
|
13天前
|
存储 人工智能 运维
千亿级 AI 搜索的效能实战:从混合检索到 Agentic RAG 的三年实战
本文为2026 Elastic中国大会演讲实录,直击千亿级AI搜索三大挑战:搜索融合(关键词+向量+稀疏检索原生一体)、极致效能(冷热分层、硬件降级、自研FalconSeek引擎)与Agentic RAG演进(结构化知识图谱+智能体自主推理),揭示企业级AI搜索从“能用”到“好用”再到“自进化”的实战路径。
230 8
|
2月前
|
缓存 监控 前端开发
《爱企查商品详情页前端性能优化实战》
爱企查企业详情页前端性能优化实战:针对数据量大、接口多、渲染复杂等痛点,通过接口聚合与优先级调度、虚拟滚动/懒加载、智能缓存(IndexedDB)、资源瘦身及HTTP/2推送等分层策略,实现FCP↓62%、LCP↓69%、资源减56%,兼顾实时性与体验。
|
12天前
|
人工智能 分布式计算 关系型数据库
2026阿里云服务器价格解析:最低38元1年起,热门实例活动价格与选购指南参考
2026年阿里云服务器价格参考:轻量应用服务器2核2G抢购价低至38元/年,2核4G为9.9元/月起;经济型e实例99元/年、u1实例199元/年,均支持新购续费同价;通用算力型u2i实例包年3折起,第九代企业级实例(c9i/g9i/r9i)低至6.4折。本文还按业务场景给出选购建议:轻量级应用选轻量/e实例,成长型企业选u2i,高性能计算选九代实例,并强调通过领券、抢购活动等可进一步降低成本。
|
23天前
|
弹性计算 运维 测试技术
阿里云服务器2核2G怎么选?轻量应用服务器38元与云服务器99元,产品定位、适用场景区别与选择指南
本文针对阿里云2核2G配置的两款热门产品——轻量应用服务器(38元/年)与经济型e实例ECS(99元/年)进行深度对比。轻量应用服务器主打"简单省心",预置WordPress、OpenClaw等镜像,200M峰值带宽,适合新手快速建站,但仅限新用户且续费可能涨价。经济型e实例则主打"灵活可控",提供3M固定带宽、企业级SLA保障,新老用户同享且续费同价,适合长期运行的企业官网和开发环境。