文档备案控制台

开发者社区云存储正文

表格存储中用SQL写入，不知道为什么读写数量大小有差异，而且差那么大呀？

表格存储中用SQL写入，1600W数据，330M大小，耗时也得12分钟。读入是330M,但是输出是64.22G，就是select insert into from，不知道为什么读写数量大小有差异，而且差那么大呀？

lQLPJxbn-6zgJZ7M5s0DGLDf6TVh00sBdAN9Jb1xQJsA_792_230.png

MAP跟REDUCE两个阶段，我们各set了64的并行度，加到128也没写入速度提升。

展开

收起

fuxixi 2022-11-28 15:31:08 449 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

在您的问题中，您提到了使用表格存储执行SQL写入操作时遇到的两个主要问题：一是数据读写大小存在巨大差异，二是即使增加了并行度，写入速度也没有得到提升。针对这两个问题，我们可以从以下几个方面进行分析和解答：

数据读写大小差异

可能原因分析：

数据膨胀：在执行SELECT INSERT INTO FROM这类操作时，如果涉及到的数据处理逻辑（如转换、计算或连接其他表）导致了数据体积的增加，这可能是输出数据远大于输入数据的原因之一。例如，数据重复插入、字段计算生成新数据等。
编码或格式变化：数据在写入过程中可能会因为编码格式的不同（如压缩与非压缩状态）而导致占用空间的变化。虽然原始数据为330M，但在数据库内部处理或存储时，因格式转换、字符编码等因素，实际占用空间可能增大。

并行度调整未见提速

可能原因分析：

数据分布不均：尽管您设置了较高的并行度，但如果数据本身分布不均匀，部分分区数据密集而其他分区空闲，那么增加并行度可能无法有效利用所有资源。确保数据在写入前充分打散，以利于并行处理。
系统瓶颈：除了并行度，还需考虑是否存在其他系统瓶颈，比如网络延迟、磁盘I/O限制或CPU利用率不足等，这些都可能限制了整体写入速度的提升。
SQL优化：复杂的SQL查询可能导致大量的数据扫描和处理，即使并行执行，也可能受限于查询本身的效率。检查SQL语句，避免全表扫描，合理利用索引可以减少处理时间。

解决建议

审查SQL逻辑：详细检查您的SQL语句，确认是否有导致数据膨胀的操作，如不必要的JOIN、数据复制等，并尝试优化逻辑以减少输出数据量。
数据预处理：在导入大量数据前，先进行必要的数据清洗和预处理，确保数据格式和结构最优化，减少不必要的数据冗余。
优化并行策略：根据数据的实际分布情况，调整数据切分策略，确保并行任务能够均衡地分配到各个分区上，充分利用每个分区的预留吞吐量。
监控与调优：利用表格存储提供的监控工具，监控写入过程中的各项性能指标，如读写吞吐量、CPU使用率等，根据监控结果进一步微调参数。
考虑数据压缩：如果数据在传输或存储过程中有显著的膨胀，探索是否可以在不影响业务逻辑的前提下对数据进行压缩处理，减少存储和处理开销。

综上所述，解决您遇到的问题需要综合考虑数据处理逻辑、系统配置以及并行处理策略等多个方面，通过细致的排查和优化来提升数据处理效率。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

存储 SQL 表格存储

问答标签：

SQL差异 SQL读写表格存储sql SQL表格存储表格存储读写

问答地址：

开发者社区 > 云存储 > 问答

相关问答

使用表格存储SQL查询功能时如何排除大小写敏感

188

1

0

表格存储设置ttl后删除已过期的数据是否会影响读写性能

179

1

0

ads-mysql版 sql中子查询和等号执行效率差异巨大

373

1

0

我们的表格存储扩展到了1000列，但通过SQL无法查询500列之后的数据？

271

3

0

OTS sql查询返回201是为什么？

290

1

0

在表格存储中请问sdk的sql查询，可以查时序模型吗？

195

1

0

在表格存储中spark dataframe读写OTS的话使用如下会报错，如何解决?

227

0

0

在表格存储中ots支持odps spark进行读写吗？

177

1

0

Maxcompute DATETIME类型数据SQL的计算显示结果和Tunnel传输数据有差异

158

1

0

表格存储是否支持SQL方式访问

127

1

0

云存储

阿里云存储基于飞天盘古2.0分布式存储系统，产品多种多样，充分满足用户数据存储和迁移上云需求。

我要提问

收录在圈子:

阿里云存储服务

194041

+ 订阅

阿里云存储基于飞天盘古2.0分布式存储系统，产品包括对象存储OSS、块存储Block Storage、共享文件存储NAS、表格存储、日志存储与分析、归档存储及混合云存储等，充分满足用户数据存储和迁移上云需求，连续三年跻身全球云存储魔力象限四强。

相关文章

阿里云服务器ECS收费包含哪些项目？哪些费用是必须支付的？

阿里云 ECS 计费拆解：三大核心费用项（计算 / 存储 / 网络）完整说明

阿里云 AgentTeams 解读：当 Agent 开始真正在企业里干活

基于 YOLO11 的工业厂区泄漏隐患检测：从数据标注到云上训练工程实践

银行风控AI化：104个Skill如何覆盖全业务链

热门讨论

热门文章

https://amp-message.alicdn.com/upload/ 如何存文件到这里

对象存储oss免费存储空间，免费流量和免费访问量是多少

aHR0cHM6Ly9odWFkb25nMTIzNDUub3NzLWNuLWhhb是什么情况？

访问oss报错Request aborted

总是提示错误：NoSuchBucket，麻烦哪位大侠解决一下！

开发者为了省钱，都使用过哪些小妙招？

The OSS Access Key Id you provided does not...错误

阿里云网盘与相册客户端和APP的下载方式，英文版的文档有吗？

云盘同步文件夹不能同步删除操作

大家好，请教个事情。 HBR混合云备份的数据库备份与 DBS 有什么不同？

展开全部

OSS PostObject错误及排查

日志客户端（Logstash,Fluentd, Logtail）横评

OSS跨域资源共享(CORS)错误及排除

使用阿里云极速型NAS构建高可用的GitLab

现代IM系统中消息推送和存储架构的实现

日志服务（原SLS）新功能发布(9)--Logtail配置支持主题（Topic）设置功能

使用日志服务LogHub替换Kafka

解密OpenTSDB的表存储优化

日志服务与SIEM集成方案实战（二）：syslog篇

OSS重磅推出OSS Select——使用SQL选取文件的内容

展开全部

还有其他疑问?