数据导入速度是云数仓的基础能力,在 TPC-DS 中对导入有着极致的性能要求,我们的第一个优化思路是轻量级 build(把实时数据转换为全量分区数据称之为 build),AnalyticDB MySQL 3.0 实现了轻量化的全内存单副本 local build,相比之前版本的类 MR 作业的全量 build 大幅减少了读写 DFS 和落盘开销,并且可以充分通过本地化向量指令有效利用 CPU 提升性能。 第二个思路是 IO 和网络优化,在导入链路上,我们采用 DirectIO、Binary 化、全流式、异步化、零拷贝等技术大幅提升导入性能。 第三个思路是减少数据量,通过 Raft 2+1 技术(2 份数据 + 1 份日志)在保证数据高可靠的前提下将数据量减少 1/3, 再通过高性能 lz4 压缩算法将数据进一步压缩,整体下来数据的读写 IO 和网络传输开销都得到大幅优化。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。