文档备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

流式计算 Spark Streaming 如何应treaming 如何应用？

已解决

流式计算 Spark Streaming 如何应用？

展开

收起

游客lmkkns5ck6auu 2022-08-17 10:41:24 967 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客c3gxxcx6cqeyo

推荐回答

流式计算 Spark Streaming 主要用于实现实时的报表以及实时特征的计算。因为业务的主要要求是必须稳定并且能够实现 7*24 小时的可用。可以接受秒级延迟，比如广告投出去了，晚 10 秒钟展现在报表里也是没问题的。可根据吞吐量横向扩展，比如突然新接了几家 SSP，突然变得流量很大，不能在个时候让系统挂掉。

此外，因为业务在全球都有，所以需要全球的聚合任务，需要通过一个平台看到各个国家的数据。Nox 选择的方案就是：Spark Streaming 能够将上面几项需求全部满足，另外就是配合 Kafka、RDS 以及 Redis 做输出。在部署上面，需要实现小集群独占，这里所用到的就是阿里云 EMR，其可以帮助客户托管集群，Nox 只需要在阿里云EMR 上面申请一个小集群，比如三到五台机器，这些机器申请之后就不再释放掉了，会一直独占着，并且 7*24 小时地跑流式计算任务。

原始日志压缩流式回传，这个是因为 Nox 在各个数据中心都有 Bidder 或者 Pixel 的服务，会产生很多数据，之前的一种方案是在每个中心先将数据计算成半成品，之后在进行回传，这样所用的带宽就会比较小，但是如果采用这样方案，那么所有的功能都需要开发两套，在本地先计算，之后传回来再进行聚合计算，这样就会比较复杂，因此最终决定将日志进行压缩，以流式方式进行回传，这样的方案在验证之后发现所占的带宽不是很大，而因为是流式传输，因此带宽也比较平稳，虽然这里所用的带宽属于高速通道带宽，因此成本也可以接受。而压缩则使用了 Kafka，其是能够支持压缩协议的。此外，中心节点部署能够方便开发。

以上内容摘自《5天入门视觉AI》电子书，点击https://developer.aliyun.com/topic/download?id=31可下载完整版

2022-08-17 15:52:18

赞同展开评论

问答分类：

分布式计算流计算 Spark 云原生大数据计算服务 MaxCompute

问答标签：

apache spark应用 apache spark streaming 计算apache spark 流式计算apache spark apache spark流式计算

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

大数据计算MaxCompute的Maxcompute Spark 任务，开启动态资源调度，怎么报错？

345

3

0

大数据计算MaxCompute中maxcompute spark如何读取 oss 上面的文件？

692

3

0

Spark提供了哪些主要参数来调整计算存储资源的使用情况？

163

1

0

要在DataWorks上同时使用EMR Spark和Flink应用，应该怎么选择技术架构？

254

0

0

在 Spark Structured Streaming 中，水印是如何计算和使用的？

309

1

0

Spark计算框架的官网地址是什么？

395

2

0

大数据计算MaxCompute怎么看到每个spark任务的具体花费，只能看到每种类型任务的总花费吗？

176

1

0

大数据计算MaxCompute spark任务的费用是按照运行成功的任务的资源消耗计费么？

223

1

0

问怎么使用flink做批计算？尝试使用flink做批计算，感觉怎么也没有spark方便。

207

1

0

你好，请问大数据计算MaxCompute我这边在dataworks中建了ODPS Spark

213

3

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

收录在圈子:

阿里巴巴大数据计算

347743

+ 订阅

MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库，以 Serverless 架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析，将数据高效转换为业务洞察。

相关文章

阿里云 EMR Serverless Spark 全托管 Ray 再进化：加速构建全模态数据处理新基建

阿里云智能决策平台对接使用完全指南：从架构解析到生产级集成实战

StarRocks x Fluss x Paimon 湖流一体方案：构建秒级响应、湖流一体的实时数据引擎

阿里云账号：计算型/通用型/内存型价格与场景区别

EMR Serverless Daft 如何简化多模态数据处理：视频抽帧、清洗、标注全流程与具身智能实践

相关解决方案

更多

高效编排与管理容器化应用

构建面向应用日志的实时监控

基于 Supabase 高效构建轻量级应用

支付宝MCP，让您的AI应用自动收款

高效搭建 AI 智能体与工作流应用

热门讨论

热门文章

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

大数据计算MaxCompute该字段类型从tinyint改为Int,怎么修改?

MaxCompute中下面图片是什么意思？

请问下大数据计算MaxCompute dataworks是否有全局变量？

大数据计算MaxCompute用kettle的转换功能去进行odps的同步数据可行吗？

大数据计算MaxCompute这种mapjoin构建hash table时间很长，有什么优化方向吗?

关于MaxCompute 中的CU为什么设置CPU和内存的比例是1:4

今天用实时同步同步了 RDS 数据到 MaxCompute，任务运维上显示成功，看日志也没有问

datetime 类型是大数据计算MaxCompute特有的吗？

在大数据计算MaxCompute中，这种多久能查询到？

展开全部

odps是什么?

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

阿里云MaxCompute 2019-5月刊

标签分类理论

Mars——基于张量的统一分布式计算框架

读透《阿里巴巴数据中台实践》，其到底有什么高明之处？

北京云栖大会MaxCompute又出大招，Python UDF抢先体验!

漫谈阿里大数据

展开全部

还有其他疑问?