文档备案控制台

开发者社区问答正文

E-mapreduce中用spark streaming 读取Loghub的问题

已解决

大家好。我在测试使用E-mapreduce中的spark streaming来采集Loghub的数据时，遇到点问题。
我用Loghub监控一个文本文件，采用的是极简模式。该文本文件，每隔三秒生成一个1到10的随机数，如下图所示。

我修改了EMR集群提供的Loghubsample.scala去采集，batch interval设置为1秒，代码如下所示。

    loghubStream.foreachRDD { rdd =>
      val num = rdd.count()
      println("this round received: " + num + " data lines.")
      if (num > 0){
        rdd.foreach { x:Array[Byte] =>
          for (y <- x){
            println("result is "+ y)
          }
        }
      }
    }

但是现在每次打印出的并不是我想要的1到10的随机数，而是一串数字。请问这是因为我的调用方法不对吗？能否给我些帮助，感谢大家。

展开

收起

jimmywalker 2017-03-14 10:40:57 4731 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

3 条回答

写回答

取消提交回答

jimmywalker

采纳回答

后来咨询了工单的技术人员，得到了提示：先取出来rdd是一个byte对象，把它转成string，这个string是一个json对象，因为日志服务的数据是json格式的。然后用json的工具类转一下，最后取里面的key就能拿到value了。
终于解决了问题。
非常感谢帮助。

2019-07-17 20:55:04

赞同展开评论
梅熙

emr专业问题，可以在emr客户交钉钉流群里面讨论，响应速度会更快。

2019-07-17 20:55:04

赞同 1 展开评论
开源大数据EMR

你可以先去logstore看下收到的究竟是些什么内容，然后再对比下spark streaming消费到的数据。

2019-07-17 20:55:04

赞同展开评论

问答分类：

分布式计算监控 Scala 流计算 Spark 开源大数据平台 E-MapReduce

问答标签：

apache spark streaming mapreduce spark mapreduce apache spark e-mapreduce apache spark apache spark e-mapreduce

问答地址：

开发者社区 > 大数据 > 问答

相关问答

E-MapReduce怎么修改hue集成的spark sql使用thrift进行权限控制

102

1

0

E-MapReduce集群上跑spark任务时报错This timeout is contro...

225

1

0

阿里云E-MapReduce如何讓 spark 任務的 dataframe可以出現在日志之內?

331

0

0

Spark相比MapReduce在编程友好性上有哪些优势？

135

1

0

E-MapReduce Serverless Spark 版开发是使用dataworks的吗？

143

0

0

阿里云E-MapReduce在 SPARK 任務在不知道 EMR master ip addres

442

2

0

E-MapReduce集群使用notebook连接spark-sql报错The request...

148

1

0

E-MapReduce streaming sql同步数据到delta失败报错为The dir...

132

1

0

E-MapReduce的3.46.0集群spark报错CLassNotFoundFoundEx...

105

1

0

阿里云E-MapReduce调度资源组绑集群，选不到集群，怎么办呢？

197

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

OpenClaw Gateway Token 获取？

阿里云千问Token价格怎么收费？

内存被通义灵码吃光了。我电脑总共48G的内存，被通义灵码吃掉了30几G，你们搞什么飞机？

我下载的gguf文件，最新的LMSTUDIO仍然无法识别什么问题

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

相关文章

好用的电商API接口推荐（技术员实操版）

2026年阿里云最新个人360元，企业用户1728元优惠券领取和使用介绍

只会写Prompt已经不够了：2026年，AI Skill正在成为新能力

IP查询服务SLA监控怎么做？延迟、错误率、命中率指标设计指南

【小龙虾Ai🦞保姆级】OpenClaw零基础阿里云/本地部署+多Agent开发集群搭建+免费API配置及避坑指南

还有其他疑问?