备案控制台

开发者社区问答正文

E-MapReduce Spark + ONS是什么?

Spark + ONS

Spark 接入 ONS

下面这个例子演示了 Spark Streaming 如何消费 ONS 中的数据，统计每个 batch 内的单词个数。

val Array(cId, topic, subExpression, parallelism, interval) = args
val accessKeyId = "<accessKeyId>"
val accessKeySecret = "<accessKeySecret>"
val numStreams = parallelism.toInt
val batchInterval = Milliseconds(interval.toInt)
val conf = new SparkConf().setAppName("Test ONS Streaming")
val ssc = new StreamingContext(conf, batchInterval)
def func: Message => Array[Byte] = msg => msg.getBody
val onsStreams = (0 until numStreams).map { i =>
println(s"starting stream $i")
OnsUtils.createStream(
ssc,
cId,
topic,
subExpression,
accessKeyId,
accessKeySecret,
StorageLevel.MEMORY_AND_DISK_2,
func)
}
val unionStreams = ssc.union(onsStreams)
unionStreams.foreachRDD(rdd => {
rdd.map(bytes => new String(bytes)).flatMap(line => line.split(" "))
.map(word => (word, 1))
.reduceByKey(_ + _).collect().foreach(e => println(s"word: ${e._1}, cnt: ${e._2}"))
})
ssc.start()
ssc.awaitTermination()

附录

示例代码请看:

Spark接入ONS

展开

收起

nicenelly 2017-10-30 16:00:06 1667 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

阿里云 AI 助理回答

这段示例代码展示了如何使用Apache Spark Streaming与阿里云的消息服务ONS（Open Notification Service）集成，以实现实时数据处理。下面是对代码关键部分的解析：

导入必要的参数:
- args数组包含了从命令行传入的参数，包括ONS消费者ID(cId)、主题名(topic)、订阅表达式(subExpression)、并行度(parallelism)和处理时间间隔(interval)。
- accessKeyId和accessKeySecret是访问阿里云ONS服务所需的认证信息，这里需要根据实际情况填写。
Spark配置与Streaming上下文创建:
- 使用SparkConf设置应用名称，并通过batchInterval定义处理批次的时间间隔。
- 创建一个StreamingContext实例ssc，它是Spark Streaming的基础，管理数据的接收和处理。
消息处理函数定义:
- 定义了一个函数func，用于将接收到的ONS消息体转换为字节数组。
创建ONS数据流:
- 通过循环创建多个数据流（基于numStreams），每个数据流都通过调用OnsUtils.createStream方法来初始化，该方法内部会连接到ONS并消费指定主题的数据。
- 消费者配置了存储级别为MEMORY_AND_DISK_2，意味着数据在内存中保留两份副本，如果内存不足则溢写到磁盘。
合并数据流并处理数据:
- 使用ssc.union(onsStreams)将所有数据流合并成一个统一的DStream。
- 对合并后的DStream应用一系列转换操作：将字节数组转换为字符串，分割单词，统计每个单词出现的次数，最后通过reduceByKey聚合相同单词的计数。
- 使用foreachRDD对每个处理批次的结果进行打印输出。
启动Spark Streaming应用:
- 调用ssc.start()启动流处理作业，然后通过ssc.awaitTermination()等待作业结束或异常终止。

附录提到的“示例代码请看: Spark接入ONS”可能是指向更详细的文档或教程链接，但在这里没有直接给出。要获取完整示例代码及其运行环境要求，建议参考阿里云官方文档或相关开源项目库，确保正确配置依赖项（如ONS客户端库）以及Spark与ONS服务的网络连通性。

有帮助

无帮助

AI 助理回答生成答案可能存在不准确，仅供参考

0 条回答

写回答

取消提交回答

问答分类：

分布式计算 Scala Spark 流计算开源大数据平台 E-MapReduce

问答标签：

mapreduce spark mapreduce apache spark apache spark e-mapreduce e-mapreduce apache spark e-mapreduce apache spark ons

问答地址：

开发者社区 > 大数据 > 问答

相关问答

E-MapReduce怎么修改hue集成的spark sql使用thrift进行权限控制

78

1

0

阿里云E-MapReduce如何讓 spark 任務的 dataframe可以出現在日志之內?

131

0

0

Spark相比MapReduce在编程友好性上有哪些优势？

93

1

0

E-MapReduce Serverless Spark 版开发是使用dataworks的吗？

95

0

0

阿里云E-MapReduce在 SPARK 任務在不知道 EMR master ip addres

145

2

0

E-MapReduce集群使用notebook连接spark-sql报错The request...

117

1

0

spark任务想完整的部署，发布，执行调度，仅仅maxcompute组件权限够么，还需要datawo

907

1

0

Spark 读取Maxcompute 中的表进行处理，怎么弄？

927

1

0

maxcompute的底层引擎我用的都是mr，他是可以切换成spark吗？

1984

1

0

我想咨询下，我们的maxcompute spark程序需要访问redis，开发环境和生产环境redi

899

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

阿里云双十一优惠活动开始了？2025年的是这个吗？

钉钉:因安全管控限制,16位参与人无法直接添加到日程

阿里云PAI是什么？怎么用？

如何训练属于自己的AI大模型呢？有没有大佬有相关文档参考学习下

阿里云2核2G3M适合搭建个人博客或小型项目吗？

相关文章

阿里云大数据AI产品月刊-2025年10月

EMR StarRocks Stella 内核正式发布，登顶 TPC 榜单全球第一

EMR AI助手开启公测：用AI重塑大数据运维，更简单、更智能

IntelliJ IDEA 2025.1 完整安装指南：激活 + 中文设置 + 全程丝滑附安装包

前端的同学，终于要起飞啦，Github 6.3k star + ，免费可商用的UI元素库！！！

还有其他疑问?