备案控制台

开发者社区大数据与机器学习开源大数据平台 E-MapReduce 正文

各位大佬， StarRocks 如果写入数据速度过快，容易将 StarRocks 写挂。有对这个

各位大佬， StarRocks 如果写入数据速度过快，容易将 StarRocks 写挂。有对这个写入速度有了解的大佬么？速度达到多少的时候， StarRocks 容易挂掉？

展开

收起

游客3oewgrzrf6o5c 2022-07-12 15:47:55 876 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

在处理StarRocks数据写入速度过快可能导致服务不稳定的问题时，可以从以下几个方面进行理解和优化：

1. 默认配置与可调整性

sink.buffer-flush.max-bytes：默认值为157,286,400字节（约150MB），表示在内存中缓存的最大数据量。当此缓冲区满时，会触发数据写入操作。
sink.buffer-flush.max-rows：默认值为500,000行，指定了内存中最多能缓存的行数上限。
sink.buffer-flush.interval-ms：默认值为300,000毫秒（5分钟），控制连续两次Flush之间的间隔时间。

2. 调整的代价与成本

业务连续性：适当增加这些缓冲区参数的值可以提高吞吐量，但可能会增加导入时的延迟，并且如果设置得过高，可能导致内存使用激增，影响系统稳定性。
时间与费用：调整这些配置通常即时生效，不会产生额外费用，但需注意资源使用情况，避免超出实例规格限制导致额外的云资源费用。

3. 操作步骤

控制台/CLI操作：具体调整方法需通过修改连接StarRocks的数据源或作业配置实现，例如在Flink、Kafka Connect等工具中调整对应的sink配置项。
示例：
- 增加最大缓存字节数：sink.buffer-flush.max-bytes=200000000（将缓存大小增加到200MB）。
- 减少Flush间隔：sink.buffer-flush.interval-ms=180000（缩短至3分钟）。

4. 注意事项

监控与调优：密切监控写入速率、内存使用率及系统负载，根据实际压力测试结果逐步调整。
资源评估：确保StarRocks集群有足够的资源（CPU、内存、网络带宽）来应对高并发写入。
异常处理：合理设置sink.max-retries(默认3次)以应对写入失败的情况，避免因频繁重试加重系统负担。

5. 最佳实践与优化建议

分批写入：尽量采用分批写入策略，避免短时间内大量数据涌入。
性能测试：在生产环境调整前，先在测试环境中模拟预期的最大写入速率，观察系统表现，逐步逼近极限而不引起服务挂起。
硬件与架构优化：考虑升级硬件配置或采用更高级别的实例类型，以及利用StarRocks的存储计算分离特性进行资源解耦和弹性伸缩。

结论

StarRocks写入速度的具体阈值依赖于多因素，包括但不限于集群配置、数据结构、查询模式等。没有固定的“速度上限”，关键在于平衡写入速率与系统稳定性的最佳配置点。通过上述参数调整和最佳实践的应用，可以在保证数据写入效率的同时，维护系统的稳定运行。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

开源大数据平台 E-MapReduce

问答地址：

开发者社区 > 大数据与机器学习 > 开源大数据平台 E-MapReduce > 问答

相关问答

购买阿里国外的云服务器是否可以访问谷歌？

84038

47

0

请问下我访问接口不通什么原因 Provisional headers are shown

3956

1

0

重启Docker后报错：Error response from daemon

2450

0

0

this xml file does not appear to have any style in

52059

10

0

LoRa的网络覆盖能力范围是怎么样的？

3238

1

0

sql server的用户名和密码怎么查啊？

37630

21

0

域名在腾讯云备案成功，解析到阿里云服务器，提示仍需备案？

61055

32

0

OSS的endpoint如何查看

37598

6

0

域名在阿里买的，服务器在百度买的，域名备案在百度云也通过备案了，现在怎么将阿里云的域名解析到百度

3755

1

0

阿里云服务器如何重置系统？

24804

4

0

大数据与机器学习

开源大数据平台 E-MapReduce

阿里云EMR是云原生开源大数据平台，为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks、Delta、Hudi等开源大数据计算和存储引擎，计算资源可以根据业务的需要调整。EMR可以部署在阿里云公有云的ECS和ACK平台。

我要提问

收录在圈子:

阿里云E-MapReduce

2323

+ 订阅

相关文章

如何建设网站，网站制作的6个步骤

鹰角网络基于阿里云EMR Serverless StarRocks的实时分析工程实践

0 基础建站？PageAdmin CMS 10 分钟搞定，源码免费拿！

「直播预告」Streaming Lakehouse Meetup EP.2｜Paimon × StarRocks 共话实时湖仓

活动报名 | Apache Spark Meetup · 上海站，助力企业构建高效数据平台

热门讨论

热门文章

阿里云E-MapReduce jindodistcp迁移hdfs到oss的时候会忽略正在写入的块么？

我想问一下阿里云E-MapReduce，为什么会报错这个信息呢？

StarRocks有字符集的概念吗？有utf8和utf8mb4吗？有字符集的概念吗？有utf8和ut

starrocks通过DLF2.0建立外部表，可以进行delete或者update表数据的操作吗？

Databricks 和 Dataworks 都是一站式的数据分析平台，两者的区别是什么？

spark sql 使用row_number 出现oom

E-MapReduce和MaxCompute的区别是什么？

Databricks公司的定位是什么？

咨询个问题，starrocks，如何像mysql一样，查询有无锁以及造成锁的sql？

各位大佬， StarRocks 如果写入数据速度过快，容易将 StarRocks 写挂。有对这个

展开全部

阿里封神谈hadoop生态学习之路

分布式快照算法: Chandy-Lamport

如何使用Kafka Connect实现同步RDS binlog数据

JindoFS: 云上大数据的高性能数据湖存储方案

梨视频：基于阿里云E-MapReduce搭建视频推荐系统的实践

基于Alluxio系统的Spark DataFrame高效存储管理技术

如何在Aliyun E-MapReduce集群上使用Zeppelin和Hue

HIVE MapJoin异常问题处理总结

漫谈分布式计算框架

首次揭秘|为6.4亿人次出行提供无线网络的技术架构

展开全部

还有其他疑问?