备案控制台

开发者社区问答正文

E-MapReduce Spark + MNS是什么?

Spark + MNS

Spark 接入 MNS

下面这个例子演示了 Spark Streaming 如何消费 MNS 中的数据，统计每个 batch 内的单词个数。

val conf = new SparkConf().setAppName("Test MNS Streaming")
val batchInterval = Seconds(10)
val ssc = new StreamingContext(conf, batchInterval)
val queuename = "queuename"
val accessKeyId = "<accessKeyId>"
val accessKeySecret = "<accessKeySecret>"
val endpoint = "http://xxx.yyy.zzzz/abc"
val mnsStream = MnsUtils.createPullingStreamAsRawBytes(ssc, queuename, accessKeyId, accessKeySecret, endpoint,
StorageLevel.MEMORY_ONLY)
mnsStream.foreachRDD( rdd => {
rdd.map(bytes => new String(bytes)).flatMap(line => line.split(" "))
.map(word => (word, 1))
.reduceByKey(_ + _).collect().foreach(e => println(s"word: ${e._1}, cnt: ${e._2}"))
})
ssc.start()
ssc.awaitTermination()

支持MetaService

上面的例子中，我们都是显式地将AK传入到接口中。不过从E-MapReduce SDK 1.3.2版本开始，SparkStreaming可以基于MetaService实现免AK处理MNS数据。具体可以参考E-MapReduce SDK中的MnsUtils类说明：

MnsUtils.createPullingStreamAsBytes(ssc, queueName, endpoint, storageLevel)
MnsUtils.createPullingStreamAsRawBytes(ssc, queueName, endpoint, storageLevel)

附录

完整示例代码请看:

Spark接入 MNS

展开

收起

nicenelly 2017-10-30 16:04:00 1715 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

在您提供的示例中，展示了如何使用Apache Spark Streaming与阿里云消息服务（MNS）集成，以实现从MNS队列中消费数据并进行处理的功能。下面是对这段代码的解析以及提及的MetaService支持的简要说明：

Spark Streaming接入MNS

配置Spark环境: 首先，通过SparkConf设置应用名称和批处理时间间隔（例如，每10秒处理一次数据）。这创建了Spark Streaming上下文的基础配置。
创建MNS数据流: 使用自定义方法MnsUtils.createPullingStreamAsRawBytes来创建一个DStream（离散化流），该DStream直接从指定的MNS队列中拉取原始字节数据。此方法需要提供以下参数：
- ssc: Spark Streaming上下文。
- queuename: MNS队列的名称。
- accessKeyId, accessKeySecret: 访问MNS服务所需的阿里云Access Key ID和Access Key Secret。
- endpoint: MNS服务的访问地址。
- storageLevel: RDD的存储级别，这里设置为MEMORY_ONLY，表示数据只存储在内存中。
处理数据: 对于每个batch interval内接收到的数据，通过一系列转换操作（如map、flatMap、map和reduceByKey）来统计单词出现次数，并打印结果。这是典型的Word Count任务应用于实时数据流。

MetaService支持

免AK处理: 从E-MapReduce SDK 1.3.2版本开始，引入了对MetaService的支持，允许在特定环境下免去显式传递Access Key ID和Access Key Secret的步骤。MetaService通常用于内部自动管理凭证，简化安全性和权限管理。
简化接口: 提供了简化版的MnsUtils.createPullingStreamAsBytes和MnsUtils.createPullingStreamAsRawBytes方法，仅需提供队列名、端点和存储级别即可。在这种模式下，SDK会自动从MetaService获取必要的认证信息。

完整示例代码

虽然您提到“完整示例代码请看: Spark接入 MNS”，但未直接提供链接或代码段。根据描述，假设您希望查看或了解更多关于如何实际实施这一过程的代码细节，建议直接参考阿里云官方文档或E-MapReduce SDK的示例代码库。这些资源通常包含详细的步骤说明和完整的示例代码，帮助开发者快速上手并实现类似功能。

总之，通过上述方法，Spark Streaming能够高效地与MNS集成，实现数据的实时处理和分析，而MetaService的集成进一步优化了安全性与便捷性。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

消息中间件分布式计算 Scala 开发工具 Spark 流计算轻量消息队列（原 MNS）云消息队列 MQ

问答标签：

mapreduce spark mapreduce apache spark apache spark e-mapreduce e-mapreduce apache spark e-mapreduce apache spark mns

问答地址：

开发者社区 > 大数据 > 问答

相关问答

E-MapReduce怎么修改hue集成的spark sql使用thrift进行权限控制

78

1

0

阿里云E-MapReduce如何讓 spark 任務的 dataframe可以出現在日志之內?

129

0

0

Spark相比MapReduce在编程友好性上有哪些优势？

93

1

0

E-MapReduce Serverless Spark 版开发是使用dataworks的吗？

94

0

0

阿里云E-MapReduce在 SPARK 任務在不知道 EMR master ip addres

144

2

0

E-MapReduce集群使用notebook连接spark-sql报错The request...

117

1

0

Spark Streaming作业已经结束，但是E-MapReduce控制台显示作业还处于“运行中”

912

1

0

spark任务想完整的部署，发布，执行调度，仅仅maxcompute组件权限够么，还需要datawo

907

1

0

Spark 读取Maxcompute 中的表进行处理，怎么弄？

926

1

0

maxcompute的底层引擎我用的都是mr，他是可以切换成spark吗？

1984

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

钉钉:因安全管控限制,16位参与人无法直接添加到日程

如何训练属于自己的AI大模型呢？有没有大佬有相关文档参考学习下

当Supabase遇上RDS——如何高效构建轻量级应用？

万小智官网链接在哪？

阿里云服务器4核8G配置多少钱？一年、1个月或1小时收费明细

相关文章

静态规则解析与动态行为分析结合的混合抽取框架

Unity3D 2023 游戏开发软件完整部署指南：安装步骤、激活方法及安装包

阿里云渠道商：如何快速使用阿里云ECS？

1688拍立淘API实战指南：以图搜货解锁B2B采购新效率

HTTP 与 SOCKS5 代理协议：企业级选型指南与工程化实践

还有其他疑问?