备案控制台

开发者社区问答正文

E-MapReduce Spark + MNS是什么?

Spark + MNS

Spark 接入 MNS

下面这个例子演示了 Spark Streaming 如何消费 MNS 中的数据，统计每个 batch 内的单词个数。

val conf = new SparkConf().setAppName("Test MNS Streaming")
val batchInterval = Seconds(10)
val ssc = new StreamingContext(conf, batchInterval)
val queuename = "queuename"
val accessKeyId = "<accessKeyId>"
val accessKeySecret = "<accessKeySecret>"
val endpoint = "http://xxx.yyy.zzzz/abc"
val mnsStream = MnsUtils.createPullingStreamAsRawBytes(ssc, queuename, accessKeyId, accessKeySecret, endpoint,
StorageLevel.MEMORY_ONLY)
mnsStream.foreachRDD( rdd => {
rdd.map(bytes => new String(bytes)).flatMap(line => line.split(" "))
.map(word => (word, 1))
.reduceByKey(_ + _).collect().foreach(e => println(s"word: ${e._1}, cnt: ${e._2}"))
})
ssc.start()
ssc.awaitTermination()

支持MetaService

上面的例子中，我们都是显式地将AK传入到接口中。不过从E-MapReduce SDK 1.3.2版本开始，SparkStreaming可以基于MetaService实现免AK处理MNS数据。具体可以参考E-MapReduce SDK中的MnsUtils类说明：

MnsUtils.createPullingStreamAsBytes(ssc, queueName, endpoint, storageLevel)
MnsUtils.createPullingStreamAsRawBytes(ssc, queueName, endpoint, storageLevel)

附录

完整示例代码请看:

Spark接入 MNS

展开

收起

nicenelly 2017-10-30 16:04:00 1722 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

在您提供的示例中，展示了如何使用Apache Spark Streaming与阿里云消息服务（MNS）集成，以实现从MNS队列中消费数据并进行处理的功能。下面是对这段代码的解析以及提及的MetaService支持的简要说明：

Spark Streaming接入MNS

配置Spark环境: 首先，通过SparkConf设置应用名称和批处理时间间隔（例如，每10秒处理一次数据）。这创建了Spark Streaming上下文的基础配置。
创建MNS数据流: 使用自定义方法MnsUtils.createPullingStreamAsRawBytes来创建一个DStream（离散化流），该DStream直接从指定的MNS队列中拉取原始字节数据。此方法需要提供以下参数：
- ssc: Spark Streaming上下文。
- queuename: MNS队列的名称。
- accessKeyId, accessKeySecret: 访问MNS服务所需的阿里云Access Key ID和Access Key Secret。
- endpoint: MNS服务的访问地址。
- storageLevel: RDD的存储级别，这里设置为MEMORY_ONLY，表示数据只存储在内存中。
处理数据: 对于每个batch interval内接收到的数据，通过一系列转换操作（如map、flatMap、map和reduceByKey）来统计单词出现次数，并打印结果。这是典型的Word Count任务应用于实时数据流。

MetaService支持

免AK处理: 从E-MapReduce SDK 1.3.2版本开始，引入了对MetaService的支持，允许在特定环境下免去显式传递Access Key ID和Access Key Secret的步骤。MetaService通常用于内部自动管理凭证，简化安全性和权限管理。
简化接口: 提供了简化版的MnsUtils.createPullingStreamAsBytes和MnsUtils.createPullingStreamAsRawBytes方法，仅需提供队列名、端点和存储级别即可。在这种模式下，SDK会自动从MetaService获取必要的认证信息。

完整示例代码

虽然您提到“完整示例代码请看: Spark接入 MNS”，但未直接提供链接或代码段。根据描述，假设您希望查看或了解更多关于如何实际实施这一过程的代码细节，建议直接参考阿里云官方文档或E-MapReduce SDK的示例代码库。这些资源通常包含详细的步骤说明和完整的示例代码，帮助开发者快速上手并实现类似功能。

总之，通过上述方法，Spark Streaming能够高效地与MNS集成，实现数据的实时处理和分析，而MetaService的集成进一步优化了安全性与便捷性。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

消息中间件分布式计算 Scala 开发工具 Spark 流计算轻量消息队列（原 MNS）云消息队列 MQ

问答标签：

mapreduce spark mapreduce apache spark apache spark e-mapreduce e-mapreduce apache spark e-mapreduce apache spark mns

问答地址：

开发者社区 > 大数据 > 问答

相关问答

E-MapReduce怎么修改hue集成的spark sql使用thrift进行权限控制

82

1

0

阿里云E-MapReduce如何讓 spark 任務的 dataframe可以出現在日志之內?

163

0

0

Spark相比MapReduce在编程友好性上有哪些优势？

111

1

0

E-MapReduce Serverless Spark 版开发是使用dataworks的吗？

107

0

0

阿里云E-MapReduce在 SPARK 任務在不知道 EMR master ip addres

165

2

0

E-MapReduce集群使用notebook连接spark-sql报错The request...

135

1

0

spark任务想完整的部署，发布，执行调度，仅仅maxcompute组件权限够么，还需要datawo

916

1

0

Spark 读取Maxcompute 中的表进行处理，怎么弄？

945

1

0

maxcompute的底层引擎我用的都是mr，他是可以切换成spark吗？

1991

1

0

我想咨询下，我们的maxcompute spark程序需要访问redis，开发环境和生产环境redi

911

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

PolarDB这个PXD部署这个端口可以指定吗？

通义灵码启动异常，可点击按钮进行一键修复，如仍无法解决，请参考[问题排查指南](https://he

关于idea lingma欺骗的对话。请开发者尽快修复

怎么搭建本地文生图工作流

通义灵码提示看起来我们今天已经有了很多的对话，我很感谢你的热情，但我现在需要稍微休息一下。提前抱

相关文章

一句话生成全栈应用？阿里云「应用管理灵构（Lingo）」来了！

2025 Java 开发者选型指南，谁更懂企业级工程？

Flink + Fluss 实战: Delta Join 原理解析与操作指南

定义 AI 时代消息引擎，ApacheRocketMQ 荣获 InfoQ“2025 AI 开源明星项目”

CNFANS模式淘宝1688代购系统搭建指南

还有其他疑问?