dataworks界面配置的最大并发度是默认的2，为啥会打到业务库里这么多查询SQL呢？

问题1：离线抽mysql库数据，dataworks界面配置的最大并发度是默认的2，为啥会打到业务库里这么多查询SQL呢？问题2：这个*5是固定的吗？

展开

收起

三分钟热度的鱼 2023-07-04 18:50:07 235 版权

4 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

在DataWorks中，最大并发度是用于控制任务的并行度，即同时执行任务的实例数量。最大并发度的默认值为2，意味着同一时间只能执行2个任务实例。如果任务的数据量比较大，或者任务所需的计算资源比较多，可能需要增加最大并发度，以提高任务的执行效率。

最大并发度设置过大可能导致对数据库的负载过高，从而产生大量的查询SQL。这是由于如果任务的最大并发度设置过大，可能会导致同时有多个任务实例在执行，对数据库进行大量的查询和写入操作，从而产生大量的查询SQL。

为了避免产生大量的查询SQL，建议调整任务的最大并发度，避免设置过大。同时，也需要注意任务的数据量和计算资源需求，避免任务对

2023-07-30 22:43:50

赞同展开评论
Star时光
如果DataWorks界面配置的最大并发度是默认的2，但在实际情况下有更多的查询SQL打到业务库中，可能有以下原因：
1. 并行度配置错误：请确认在DataWorks任务配置页面中是否正确设置了最大并发度为2。如果配置错误或未生效，系统将使用默认值或之前的配置。
2. 调度策略问题：检查任务的调度策略，确保它们按照预期执行。有时候，任务可能被延迟或错过了调度时间，而在后续重试时导致一次性执行多个任务。
3. 依赖关系和约束条件：如果这些查询任务之间存在依赖关系或约束条件，系统会根据依赖关系进行顺序调度。但如果依赖关系配置不正确或发生了变化，可能会导致任务出现堆积或同时执行的情况。
4. 数据流水线设计问题：如果你的数据流水线中包含多个数据处理节点，每个节点都会生成相应的查询任务。在这种情况下，数据流水线的设计可能导致了较多的查询SQL。
5. 并发请求或高负载情况：如果业务库在同一时间收到了大量的查询请求，可能会导致数据库出现高负载状态，进而影响性能和查询的并发度。
针对以上问题，建议进行如下操作：
- 检查并修复任务配置和调度策略的问题。
- 检查并修复任务之间的依赖关系和约束条件。
- 优化数据流水线的设计，减少查询任务的数量。
- 增加业务库的处理能力，以应对并发请求或高负载情况。
如果问题持续存在或有其他疑问，请联系DataWorks的技术支持团队，他们将能够提供更详细和具体的解答。
2023-07-08 17:57:27

赞同展开评论
圆不溜秋的小猫猫

针对问题1的回答：splitpk 是拆分的条件，根据对应的列拆分成多少个分片，公式：并发数 * 5 + 1 所以2并发切分了11个task。针对问题2的回答：是的。此回答整理自钉群“DataWorks0群已满，新群请看群公告”

2023-07-04 20:42:12

赞同展开评论
游客mahexp74d6pzw

DataWorks界面配置的最大并发度是默认的2，这意味着在同一时间内，最多只有2个查询任务可以并发执行。如果您的业务库中存在大量的查询SQL，可能有以下几种原因：

查询任务数量过多：如果您的业务库中有大量的查询任务，并且这些任务都需要并发执行，那么即使最大并发度为2，仍然会有多个查询任务同时到达业务库。这种情况下，您可以尝试减少查询任务的数量，或者通过合理地安排任务的执行顺序来控制并发度。查询任务执行时间过长：如果某个查询任务的执行时间过长，可能会导致其他查询任务因为最大并发度的限制而无法同时执行。这种情况下，您可以尝试优化查询任务的执行效率，例如优化SQL语句、使用更高效的数据处理方式等。并发度限制不合理：如果您的业务库中存在大量的查询SQL，并且最大并发度为2的限制过于严格，可能会导致查询任务因为并发度限制而无法及时执行。您可以尝试调整最大并发度的值，以适应您的业务需求。总之，要解决这个问题，您需要根据具体情况进行排查和调整。可以尝试减少查询任务的数量、优化查询任务的执行效率、调整最大并发度的值等方法来解决问题。同时，您也可以考虑使用其他技术手段来优化查询任务的执行效率，例如分库分表、缓存等。

2023-07-04 20:30:15

赞同展开评论

dataworks界面配置的最大并发度是默认的2，为啥会打到业务库里这么多查询SQL呢？

大数据开发治理DataWorks

相关文章

热门讨论

热门文章