开发者社区> 问答> 正文

spark streaming对接kafka,出现延迟,如何处理?

请问spark streaming对接kafka,出现三个批次的延迟,这个在程序中可以判断吗?应该调用哪个接口

展开
收起
hbase小助手 2018-11-16 19:28:22 4417 0
1 条回答
写回答
取消 提交回答
  • 首先监控是延迟的,关于监控报警,开源的spark做的还是不够好的。主要通过以下两种方式进行
    1、struct Streaming可以直接在driver端通过接口,获取监控信息
    eg:query.recentProgress // an array of the most recent progress updates for this query
    2、spark streaming(DStream)
    除了UI,另外的方法配置StreamingSource把监控信息输出到ganglia、文件、或者开发下输出到你自己的某个监控系统

    在其他文章中也有使用 Prometheus 和 Grafana 监控 Spark 应用,参考资料如下:
    https://blog.csdn.net/lsshlsw/article/details/82670508

    Grafana主要还是展示,spark服务端数据怎么吐出来目前社区版本还是需要加强的。只是监控不报警的话用ganglia就好。
    目前阿里云HBase支持的Spark服务是把streaming的核心指标对接到云监控,然后用户可以对指标订阅报警,比如latency超过了40ms,就会发钉钉、短信、电话等

    https://help.aliyun.com/document_detail/95995.html?spm=a2c4g.11186623.6.605.489b2fc04QZj4E
    http://spark.apache.org/releases/spark-release-2-4-0.html#core-and-spark-sql

    2019-07-17 23:15:02
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
Hybrid Cloud and Apache Spark 立即下载
Scalable Deep Learning on Spark 立即下载
Comparison of Spark SQL with Hive 立即下载