文档备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

流式计算 Spark Streaming 如何应treaming 如何应用？

已解决

流式计算 Spark Streaming 如何应用？

展开

收起

游客lmkkns5ck6auu 2022-08-17 10:41:24 967 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客c3gxxcx6cqeyo

推荐回答

流式计算 Spark Streaming 主要用于实现实时的报表以及实时特征的计算。因为业务的主要要求是必须稳定并且能够实现 7*24 小时的可用。可以接受秒级延迟，比如广告投出去了，晚 10 秒钟展现在报表里也是没问题的。可根据吞吐量横向扩展，比如突然新接了几家 SSP，突然变得流量很大，不能在个时候让系统挂掉。

此外，因为业务在全球都有，所以需要全球的聚合任务，需要通过一个平台看到各个国家的数据。Nox 选择的方案就是：Spark Streaming 能够将上面几项需求全部满足，另外就是配合 Kafka、RDS 以及 Redis 做输出。在部署上面，需要实现小集群独占，这里所用到的就是阿里云 EMR，其可以帮助客户托管集群，Nox 只需要在阿里云EMR 上面申请一个小集群，比如三到五台机器，这些机器申请之后就不再释放掉了，会一直独占着，并且 7*24 小时地跑流式计算任务。

原始日志压缩流式回传，这个是因为 Nox 在各个数据中心都有 Bidder 或者 Pixel 的服务，会产生很多数据，之前的一种方案是在每个中心先将数据计算成半成品，之后在进行回传，这样所用的带宽就会比较小，但是如果采用这样方案，那么所有的功能都需要开发两套，在本地先计算，之后传回来再进行聚合计算，这样就会比较复杂，因此最终决定将日志进行压缩，以流式方式进行回传，这样的方案在验证之后发现所占的带宽不是很大，而因为是流式传输，因此带宽也比较平稳，虽然这里所用的带宽属于高速通道带宽，因此成本也可以接受。而压缩则使用了 Kafka，其是能够支持压缩协议的。此外，中心节点部署能够方便开发。

以上内容摘自《5天入门视觉AI》电子书，点击https://developer.aliyun.com/topic/download?id=31可下载完整版

2022-08-17 15:52:18

赞同展开评论

问答分类：

分布式计算流计算 Spark 云原生大数据计算服务 MaxCompute

问答标签：

apache spark应用 apache spark streaming 计算apache spark 流式计算apache spark apache spark流式计算

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

大数据计算MaxCompute的Maxcompute Spark 任务，开启动态资源调度，怎么报错？

345

3

0

大数据计算MaxCompute中maxcompute spark如何读取 oss 上面的文件？

692

3

0

Spark提供了哪些主要参数来调整计算存储资源的使用情况？

163

1

0

要在DataWorks上同时使用EMR Spark和Flink应用，应该怎么选择技术架构？

255

0

0

在 Spark Structured Streaming 中，水印是如何计算和使用的？

309

1

0

Spark计算框架的官网地址是什么？

395

2

0

大数据计算MaxCompute怎么看到每个spark任务的具体花费，只能看到每种类型任务的总花费吗？

177

1

0

大数据计算MaxCompute spark任务的费用是按照运行成功的任务的资源消耗计费么？

223

1

0

问怎么使用flink做批计算？尝试使用flink做批计算，感觉怎么也没有spark方便。

207

1

0

你好，请问大数据计算MaxCompute我这边在dataworks中建了ODPS Spark

213

3

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

收录在圈子:

阿里巴巴大数据计算

347743

+ 订阅

MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库，以 Serverless 架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析，将数据高效转换为业务洞察。

相关文章

StarRocks x Fluss x Paimon 湖流一体方案：构建秒级响应、湖流一体的实时数据引擎

阿里云账号：计算型/通用型/内存型价格与场景区别

EMR Serverless Daft 如何简化多模态数据处理：视频抽帧、清洗、标注全流程与具身智能实践

为什么你的物联网平台总是“掉链子”？真正的问题，不是设备，而是数据平台！

【赵渝强老师】Hadoop HDFS的回收站和快照

相关解决方案

更多

高效编排与管理容器化应用

构建面向应用日志的实时监控

基于 Supabase 高效构建轻量级应用

支付宝MCP，让您的AI应用自动收款

高效搭建 AI 智能体与工作流应用

热门讨论

热门文章

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

大数据计算MaxCompute该字段类型从tinyint改为Int,怎么修改?

MaxCompute中下面图片是什么意思？

大数据计算MaxCompute用kettle的转换功能去进行odps的同步数据可行吗？

请问下大数据计算MaxCompute dataworks是否有全局变量？

大数据计算MaxCompute这种mapjoin构建hash table时间很长，有什么优化方向吗?

关于MaxCompute 中的CU为什么设置CPU和内存的比例是1:4

今天用实时同步同步了 RDS 数据到 MaxCompute，任务运维上显示成功，看日志也没有问

datetime 类型是大数据计算MaxCompute特有的吗？

在大数据计算MaxCompute中，这种多久能查询到？

展开全部

大数据环境下该如何优雅地设计数据分层

odps是什么?

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

Python+大数据计算平台，PyODPS架构手把手教你搭建

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

干货：解码OneData，阿里的数仓之路。

阿里云MaxCompute 2019-5月刊

混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

大数据workshop：《云数据·大计算：海量日志数据分析与应用》之《数据加工：用户画像》篇

展开全部

还有其他疑问?