01. Spark Streaming实时流处理学习——初识实时流处理

简介:

1. 初识实时流处理

1.1. 业务现状分析

统计主站每个(指定)课程访问的客户、地域信息分布
地域:ip转换
客户端:useragent获取
如上两个操作:采用离线(Spark/MapReduce)的方式进行统计

实现步骤
课程编号、IP信息、useragent
进行相应的统计分析操作:MapReduce/Spark

项目架构
日志收集:Flume
离线分析:MapReduce/Spark
统计结果图形化展示

问题
1小时级别
10分钟
5分钟
1分钟
秒级别

基于Hadoop的实现方案
存在的问题?
如何解决????===> 实时流处理框架

1.2. 业务现状分析

实时流处理产生背景

时效性高
数据量大

实时流处理概述

实时计算
流式计算
实时流式计算

离线计算与实时计算对比

  • 数据来源
    离线:HDFS 历史数据 数据量比较大

实时:消息队列(Kafka),实时新增/修改记录过来的某一笔数据

  • 处理过程
    离线:MapReduce:map + reduce

实时:Spark(DStream/SS)

  • 处理速度
    离线:慢

实时:快速

  • 进程
    离线:启动+销毁

实时:7*24

实时流处理框架对比

  • Apache Storm
    image.png
  • Apache Spark Streaming
    微批处理框架
  • IBM Stream
  • Yahoo! S4
  • Linkin Kafka
  • Flink

实时流处理架构与技术选型
image.png

实时流处理在企业中的应用

  • 电信行业

    短信发布用户流量使用情况,通话计费等场景(需要实时,流式处理)。
    流量陷阱监控软件,实时流式监控流氓流量盗取软件。
  • 电商行业

    电商平台中的实时推荐系统,根据用户目前正在访问的资料,实时推荐相关产品链接,或者推广方案。
    
相关文章
|
2月前
|
分布式计算 Kubernetes 调度
Kubeflow-Spark-Operator-架构学习指南
本指南系统解析 Spark Operator 架构,涵盖 Kubebuilder 开发、控制器设计与云原生集成。通过四阶段学习路径,助你从部署到贡献,掌握 Kubernetes Operator 核心原理与实战技能。
154 0
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
3 秒音频也能克隆?拆解 Spark-TTS 架构的极致小样本学习
本文深入解析了 Spark-TTS 模型的架构与原理,该模型仅需 3 秒语音样本即可实现高质量的零样本语音克隆。其核心创新在于 BiCodec 单流语音编码架构,将语音信号分解为语义 Token 和全局 Token,实现内容与音色解耦。结合大型语言模型(如 Qwen 2.5),Spark-TTS 能直接生成语义 Token 并还原波形,简化推理流程。实验表明,它不仅能克隆音色、语速和语调,还支持跨语言朗读及情感调整。尽管面临相似度提升、样本鲁棒性等挑战,但其技术突破为定制化 AI 声音提供了全新可能。
546 35
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
242 0
|
消息中间件 分布式计算 NoSQL
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
239 0
|
消息中间件 存储 分布式计算
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
286 0
|
分布式计算 流计算 Spark
【赵渝强老师】Spark Streaming中的DStream
本文介绍了Spark Streaming的核心概念DStream,即离散流。DStream通过时间间隔将连续的数据流转换为一系列不连续的RDD,再通过Transformation进行转换,实现流式数据的处理。文中以MyNetworkWordCount程序为例,展示了DStream生成RDD的过程,并附有视频讲解。
268 0
|
分布式计算 算法 Spark
spark学习之 GraphX—预测社交圈子
spark学习之 GraphX—预测社交圈子
341 0
|
分布式计算 Scala Spark
educoder的spark算子学习
educoder的spark算子学习
198 0
|
消息中间件 分布式计算 Kafka
大数据-102 Spark Streaming Kafka ReceiveApproach DirectApproach 附带Producer、DStream代码案例
大数据-102 Spark Streaming Kafka ReceiveApproach DirectApproach 附带Producer、DStream代码案例
189 0
|
6月前
|
人工智能 分布式计算 大数据
大数据≠大样本:基于Spark的特征降维实战(提升10倍训练效率)
本文探讨了大数据场景下降维的核心问题与解决方案,重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例,揭示高维空间中样本稀疏性问题,并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用,包括数据准备、核心实现与效果评估,同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外,还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应,为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则,展望未来发展方向。
310 0

热门文章

最新文章