什么是spark?通俗易懂,一文读懂

简介: 什么是spark?通俗易懂,一文读懂

Spark是什么

官方定义: 定义:*Apache Spark是用于**大规模数据(large-scala data)**处理的**统一(unified)**分析引擎。*

分析引擎(计算引擎): 我们目前接触的引擎有:

    • MapReduce 分布式计算引擎
    • Spark 分布式内存计算引擎

    计算引擎: 通用的 可以执行开发人员提供的业务代码的一种框架.

    image.gif编辑

    Spark框架中有一个核心的数据结构: RDD

    Pandas中的数据结构是DataFrame, 多数API都是针对DF对象来进行的.

    同样, Spark的数据结构是RDD对象, 多数API都是针对RDD对象来进行的

    RDD对象是一个真正的分布式对象, Pandas的DataFrame则是一个单机的对象.

    拓展阅读 Hadoop 和 Spark 对比

    Hadoop Spark
    类型 基础平台, 包含计算, 存储, 调度 分布式计算工具
    场景 大规模数据集上的批处理 迭代计算, 交互式计算, 流计算
    价格 对机器要求低, 便宜 对内存有要求, 相对较贵
    编程范式 Map+Reduce, API 较为底层, 算法适应性差 RDD组成DAG有向无环图, API 较为顶层, 方便使用
    数据存储结构 MapReduce中间计算结果在HDFS磁盘上, 延迟大 RDD中间运算结果在内存中 , 延迟小
    运行方式 Task以进程方式维护, 任务启动慢 Task以线程方式维护, 任务启动快

    Spark四大特点

      • 速度贼快: 比MapReduce 快100倍以上( 基于内存计算 )
      • 易于使用: API 写起来很简单, 和pandas差不多(比pandas还简单)
      • 通用性强: 可用于离线批处理\ SQL处理\ 流计算 \ 机器学习计算\ 图计算
        • 离线批处理(Core)     SQL处理(SparkSQL)
          • 运行方式很多: 可以运行在 YARN \ 可以独立运行(StandAlone) \ 可以运行在云平台上 \ 可以运行在容器集群上 \ 等等等.

          Spark框架模块 - 了解



            • image.gif编辑
            • SparkCore : Spark的核心模块, 一切Spark的功能最底层由它提供
            • SparkSQL: Spark的结构化数据处理模块, 基于Core
            • SparkStreaming: Spark的流计算模块 基于Core
            • Spark MLib: 机器学习模块. 基于Core
            • Spark GraphX: 图计算模块 基于Core
            • StructuredStreaming: 结构化, 基于SparkSQL模块
            目录
            相关文章
            |
            Kubernetes Cloud Native 数据可视化
            【云原生】Rancher部署k8s集群流程—2023.03
            【云原生】Rancher部署k8s集群流程—2023.03
            1958 0
            |
            存储 分布式计算 资源调度
            Hadoop系列之一:MAC安装Hadoop大数据框架
            Hadoop是一个用Java开发的开源框架,它允许使用简单的编程模型在跨计算机集群的分布式环境中存储和处理大数据。它的设计是从单个服务器扩展到数千个机器,每个都提供本地计算和存储。特别适合写一次,读多次的场景。
            Hadoop系列之一:MAC安装Hadoop大数据框架
            |
            2月前
            |
            人工智能 自然语言处理 监控
            阿里云JVS Claw是什么?JVS Claw“养虾”功能与优势,免费体验版和最新包年包月优惠
            阿里云JVS Claw是“云上养虾神器”,可简化大模型使用流程,支持零门槛创建、管理和优化AI智能体。其核心功能包括一键接入OpenClaw、多端协同操作、提供安全隔离环境及自进化技能体系,满足企业及个人智能化需求。新用户可享7天免费体验,首月39元起,且提供包月包年优惠。此外,用户也可选用轻量云服务器部署OpenClaw,有多个规格的云服务器可供选择。
            Threejs制作窗户透亮效果
            这篇文章讲解了如何在Three.js中制作窗户的透亮效果,包括设置透明材质和光照以实现逼真的窗户渲染效果的技术细节。
            531 1
            |
            11月前
            |
            缓存 安全 前端开发
            3个月GMV破5000万:揭秘某家居品牌靠API接口逆袭的底层逻辑
            本文详解如何利用电商API从零搭建定制化商城,涵盖需求分析、技术选型、开发流程与安全优化,并结合实战案例,助力中小商家突破竞争,实现高效电商转型。
            |
            SQL 分布式计算 Hadoop
            Hadoop生态系统:从小白到老司机的入门指南
            Hadoop生态系统:从小白到老司机的入门指南
            666 13
            |
            中间件 Java 调度
            Seata两阶段提交AT模式详解
            Seata两阶段提交AT模式详解
            1102 0
            Seata两阶段提交AT模式详解
            |
            存储 安全 搜索推荐
            【JavaWeb 秘籍】Cookie vs Session:揭秘 Web 会话管理的奥秘与实战指南!
            【8月更文挑战第24天】本文以问答形式深入探讨了Web开发中关键的会话管理技术——Cookie与Session。首先解释了两者的基本概念及工作原理,随后对比分析了它们在存储位置、安全性及容量上的差异。接着,通过示例代码详细介绍了如何在JavaWeb环境中实现Cookie与Session的操作,包括创建与读取过程。最后,针对不同应用场景提供了选择使用Cookie或Session的指导建议,并提出了保障二者安全性的措施。阅读本文可帮助开发者更好地理解并应用这两种技术。
            405 1
            |
            XML 分布式计算 资源调度
            大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
            大数据-02-Hadoop集群 XML配置 超详细 core-site.xml hdfs-site.xml 3节点云服务器 2C4G HDFS Yarn MapRedece(一)
            660 5
            |
            人工智能 开发框架 自然语言处理
            ModelScope-Agent,助力每一位开发者搭建AI智能体
            ModelScope-Agent,助力每一位开发者搭建AI智能体
            2915 0