备案控制台

开发者社区问答正文

Pyspark - 打印来自Kafka的消息

我建立了一个带有生产者和消费者的kafka系统，作为消息流式传输json文件的行。

使用pyspark，我需要分析不同流媒体窗口的数据。为此，我需要查看pyspark流式传输的数据......我该怎么做？

要运行代码，我使用了Yannael的Docker容器。这是我的python代码：

Add dependencies and load modules
import os
os.environ['PYSPARK_SUBMIT_ARGS'] = '--conf spark.ui.port=4040 --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.0.0,com.datastax.spark:spark-cassandra-connector_2.11:2.0.0-M3 pyspark-shell'

from kafka import KafkaConsumer
from random import randint
from time import sleep

Load modules and start SparkContext
from pyspark import SparkContext, SparkConf
from pyspark.sql import SQLContext, Row
conf = SparkConf() \

.setAppName("Streaming test") \
.setMaster("local[2]") \
.set("spark.cassandra.connection.host", "127.0.0.1")

try:

sc.stop()

except:

pass

sc = SparkContext(conf=conf)
sqlContext=SQLContext(sc)
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils

Create streaming task
ssc = StreamingContext(sc, 0.60)
kafkaStream = KafkaUtils.createStream(ssc, "127.0.0.1:2181", "spark-streaming-consumer", {'test': 1})
ssc.start()

展开

收起

社区小助手 2018-12-12 14:04:32 2781 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。
可以调试kafkaStream.pprint()或了解有关结构化流媒体的更多信息，您也可以这样写

query = kafkaStream \
```
.writeStream \
.outputMode("complete") \
.format("console") \
.start()
```
query.awaitTermination()
我看到你有cassandra端点，所以假设你写入Cassandra，你可以使用Kafka Connect而不是为此编写Spark代码
2019-07-17 23:20:10

赞同展开评论

问答分类：

消息中间件 JSON Kafka 流计算数据格式 Docker Python 容器云消息队列 Kafka 版

问答标签：

pyspark云消息队列 Kafka 版云消息队列 Kafka 版消息

问答地址：

开发者社区 > 大数据 > 问答

相关问答

mysql实时同步kafka，在payload中before和after能同时一个消息里传递出来吗？

211

1

0

调整完kafka消息大小max.message.bytes之后依然报错消息过大的情况咋办？

1385

1

0

各位大佬，你们在使用upsert-kafka的时候，在update操作会产生俩条消息到kafka，一

648

1

0

请问下当flink集群重启之后 kafka消息还是重复有什么办法解决吗 kafka sink 已设

1115

4

0

kafka可以持久化传递消息吗？

1647

1

0

请问MongoShake 如何确认是否拿到了一条消息并推送给了kafka？

559

1

0

请问如何优化写入kafka sink的消息分布？

411

1

0

有个问题，我现在需要清洗Kafka数据，通过etl服务调用fc来处理！因为我的Kafka消息非常多，

719

1

0

请教个问题： flink一任务节点处理时间很长，处理完成后，kafka的消息就直接不消费了（最开始

650

1

0

请教个问题： flink一任务节点处理时间很长，处理完成后，kafka的消息就直接不消费了（最开始

656

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

阿里云开放端口权限

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

lmstudio拉起qwq-32b-q3_k_m.gguf模型报错？

工作中，拥有什么样的“软技能”可以跨越周期、终身成长？

关于wan2.1显存占用的问题

一键生成讲解视频，AI的理解和生成能力到底有多强？

在工作中如何成为一个“不纠结”的人？

相关文章

《DeepSeek牵手云原生，流量管理玩出新高度》

《DeepSeek成本“瘦身”秘籍：云原生技术全解析》

使用 Python 合并微信与支付宝账单，生成财务报告

kubectl exec 遇到 unable to upgrade connection Forbidden 的解决办法

php怎么解决高并发的问题

还有其他疑问?