文档备案控制台

开发者社区问答正文

E-mapreduce中用spark streaming 读取Loghub的问题

已解决

大家好。我在测试使用E-mapreduce中的spark streaming来采集Loghub的数据时，遇到点问题。
我用Loghub监控一个文本文件，采用的是极简模式。该文本文件，每隔三秒生成一个1到10的随机数，如下图所示。

我修改了EMR集群提供的Loghubsample.scala去采集，batch interval设置为1秒，代码如下所示。

    loghubStream.foreachRDD { rdd =>
      val num = rdd.count()
      println("this round received: " + num + " data lines.")
      if (num > 0){
        rdd.foreach { x:Array[Byte] =>
          for (y <- x){
            println("result is "+ y)
          }
        }
      }
    }

但是现在每次打印出的并不是我想要的1到10的随机数，而是一串数字。请问这是因为我的调用方法不对吗？能否给我些帮助，感谢大家。

展开

收起

jimmywalker 2017-03-14 10:40:57 4726 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

3 条回答

写回答

取消提交回答

jimmywalker

采纳回答

后来咨询了工单的技术人员，得到了提示：先取出来rdd是一个byte对象，把它转成string，这个string是一个json对象，因为日志服务的数据是json格式的。然后用json的工具类转一下，最后取里面的key就能拿到value了。
终于解决了问题。
非常感谢帮助。

2019-07-17 20:55:04

赞同展开评论
梅熙

emr专业问题，可以在emr客户交钉钉流群里面讨论，响应速度会更快。

2019-07-17 20:55:04

赞同 1 展开评论
开源大数据EMR

你可以先去logstore看下收到的究竟是些什么内容，然后再对比下spark streaming消费到的数据。

2019-07-17 20:55:04

赞同展开评论

问答分类：

分布式计算监控 Scala 流计算 Spark 开源大数据平台 E-MapReduce

问答标签：

apache spark streaming mapreduce spark mapreduce apache spark e-mapreduce apache spark apache spark e-mapreduce

问答地址：

开发者社区 > 大数据 > 问答

相关问答

E-MapReduce怎么修改hue集成的spark sql使用thrift进行权限控制

100

1

0

阿里云E-MapReduce如何讓 spark 任務的 dataframe可以出現在日志之內?

328

0

0

Spark相比MapReduce在编程友好性上有哪些优势？

134

1

0

E-MapReduce Serverless Spark 版开发是使用dataworks的吗？

141

0

0

阿里云E-MapReduce在 SPARK 任務在不知道 EMR master ip addres

434

2

0

E-MapReduce集群使用notebook连接spark-sql报错The request...

147

1

0

阿里云E-MapReduce调度资源组绑集群，选不到集群，怎么办呢？

197

1

0

E-MapReduce Hadoop类型集群的ranger-plugin中没有enablehi...

172

1

0

E-MapReduce集群的Flink指标详解

130

1

0

E-MapReduce集群StarRocks执行SQL报错:Execute again aft...

192

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

copaw安装后，出现这个情况，在设置模型的过程中出现这个问题，如何解决

Qwen OpenAI-Responses 兼容模式有问题

copaw安装后选择ollma为啥报错不能安装相关模型？

建议通义灵码参考字节的trae ，可以自主选择一些开源的模型

相关文章

断网、断电，不断数据——LoongCollector 极限边缘场景可靠采集方案

基于IP地址的企业网络故障快速定位方法

漏洞扫描海量告警与极低修复率，我们究竟该找谁打破僵局

面向工业 AI 的设备数据采集：标准与实践路径

阿里云百炼知识库如何计费？标准版 / 旗舰版 + Token 收费实例全算清

还有其他疑问?