文档备案控制台

开发者社区问答正文

Spark如何统计多个MySQL的数据？

1、日志数据分布在多个MySQL上，每台物理主机承载一个或多个MySQL。
2、每个MySQL的username、password不一样。
3、每个MySQL承载日志数据的数据库名称也不一样。
4、每个MySQL所承载的日志数据，各不相同，合起来才是总集。
5、唯一相同的就是数据库的格式一样，表格一样。
QQ_20180129111253

在这种情况下，如何执行一个查询任务？比如：select sum(x) from xxx where .....

展开

收起

吃馒头黑洞 2018-01-29 11:20:08 4916 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

2 条回答

写回答

取消提交回答

5679620557985193

分别取出全部数据的DataFrame，然后用union方法union到一个DataFrame. 然后把这个DataFrame注册临时表。最后就是用SQL按一般方法检索了。

2019-07-17 21:56:49

赞同展开评论
弘锐66

夯实

从数据仓库的角度来看，建议将mysql数据全部同步到hdfs中后，统计做计算。
否则单就mysql分布在不同机器来说，计算时的网络io成本太大。

2019-07-17 21:56:49

赞同展开评论

问答分类：

分布式计算关系型数据库 MySQL 数据库 Spark 云数据库 RDS MySQL 版日志服务

问答标签：

云数据库 RDS MySQL 版数据 apache spark数据云数据库 RDS MySQL 版统计 apache spark MySQL 云数据库 RDS MySQL 版spark

问答地址：

开发者社区 > 数据库 > 问答

相关问答

AnalyticDB MySQL查询耗时统计信息无法查看

146

1

0

PolarDB表统计信息收集和社区版MySQL是否存在差异

532

1

0

RDS如何通过API统计百万级别数据的表名

181

1

0

使用DMS中PolarDB MySQL数据空间统计的大小和实际表大小出入很大

253

1

0

云数据仓库ADB通过DMS调度AnalyticDB MySQL Spark任务-操作步骤

205

1

0

RDS使用量统计未改变但备份大小一直在增加

150

1

0

RDS可以定时将慢查询日志统计信息发送到自定义的webhook上吗

174

0

0

spark任务想完整的部署，发布，执行调度，仅仅maxcompute组件权限够么，还需要datawo

987

1

0

Spark 读取Maxcompute 中的表进行处理，怎么弄？

1055

1

0

maxcompute的底层引擎我用的都是mr，他是可以切换成spark吗？

2070

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

这个社区版的订阅套餐是怎么回事？既没有积分，也没有免费的千问。听说别人还有什么免费的 Pro 领取

Credits消耗问题

据更新公告Qoder CN哪里提供了每日免费用量，在哪里显示

现在这个token太贵了。买了个人专业版才2000用量，感觉一下用完了

Qoder CN VSCode插件突然提示：您已达到配额使用上限，请升级订阅计划，以获得更多使用资源

相关文章

PolarDB MySQL 版V2.0：100% 兼容 MySQL的国产自研数据库介绍

Python的多进程居然把我坑惨了！别踩这个坑

阿里云新用户2026年购买云服务器优惠解析：优惠、实例与决策指南

阿里云数据库Agentic DB Day，本周六深圳见

网站制作实战-OpenCms 模板开发与 JSP 动态标签应用

相关解决方案

更多

数据护航：数据库敏感数据防护

基于数据闪回，快速恢复数据

通过 RocketMQ 实现分布式事务

云上高可用架构

快速集成分布式任务调度

还有其他疑问?