超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察 产品链接:https://www.aliyun.com/product/bigdata/spark(当前产品提供¥599首购试用活动,欢迎试用!)

开源大数据社区 & 阿里云 EMR 系列直播 第四期

主题:Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析
讲师:棕泽,阿里云技术专家,计算平台事业部开放平台-生态企业团队负责人
内容框架:

  • Databricks 数据洞察产品介绍
  • 功能介绍
  • 典型场景
  • 客户案例
  • 产品Demo

直播回放:扫描文章底部二维码加入钉群观看回放


一、Databricks 数据洞察产品介绍

1、 Databricks 公司简介
2、 什么是阿里云 Databricks 数据洞察产品

01\ Databricks 公司简介

640 (11).png

① ApacheSpark 创始公司,也是 Spark 的最大代码贡献者,Spark 技术生态背后的商业公司。

在2013年,由加州大学伯克利分校 AMPLab 的创始团队 ApacheSpark 的创建者所成立。

② 核心产品和技术,主导和推进 Spark 开源生态

ApacheSpark、DeltaLake、Koalas 、MLFlow、OneLakehousePlatform

③ 公司定位
  • Databricksis the Data + AI company,为客户提供数据分析、数据工程、数据科学和人工智能方面的服务,一体化的 Lakehouse 架构
  • 开源版本 VS 商业版本:公司绝大部分技术研发资源投入在商业化产品
  • 多云策略,与顶级云服务商合作,提供数据开发、数据分析、机器学习等产品,Data+AI 一体化分析平台
④ 市场地位
  • 科技独角兽,行业标杆,领导Spark整体技术生态的走向及风向标
  • 2021年最受期待的科技上市公司

02\ Databricks 公司估值及融资历史

(来源 Databricks 官网)
① 2019年10月G轮,估值 $ 6.2 Billion
② 2021年2月初F轮,估值 $ 28 Billion
  • 本轮融资,三大云服务商 AWS、GCP、MSAzure 以及 Salesforce 都进行了跟投——足以看到云厂商对 Databricks 的发展的重视
  • 上市预期:计划 IPO 在2021年——多方预测 Databricks 上市之时其估值可能达到350亿美元,甚至是高达500亿美元

640.png

03\ Databricks 和阿里云联手打造的高品质 Spark 大数据分析平台

640 (1).png

  • Apache Spark 背后的商业公司,Spark 创始团队,美国科技独角兽
  • 在全球拥有5,000多个客户和450多个合作伙伴,品牌认知强
  • 2020年,在 Gartner 发布的数据科学和机器学习(DSML)平台魔力象限报告中,位于领导者象限

640 (2).png
640 (3).png

04\ Databricks + 阿里云 = Databricks 数据洞察

Dingtalk_20210524160041.jpg

产品核心:
  • 基于商业版 Spark 的全托管大数据分析& AI 平台
  • 内置商业版 Spark 引擎 Databricks Runtime ,在计算层面提供高效、稳定的保障
  • 与阿里云产品集成互通,提供数据安全、动态扩容、监控告警等企业级特性
产品引擎与服务:
  • 100% 兼容开源 Spark,经阿里云与 Databricks 联合研发性能优化
  • 提供商业化 SLA 保障与7*24小时 Databricks 专家支持服务

640 (4).png

DDI 产品能力核心构件

640 (5).png

产品关键信息与优势

640 (6).png

二、DDI 产品功能介绍

1、整体架构
2、引擎能力
3、性能
4、功能
5、成本

01\ 阿里云 Databricks 数据洞察 (DDI) 架构

640 (7).png

02\ 引擎:企业级性能优化,提升计算引擎效率和数据读写效率

企业级高性能、稳定性、可靠性

640 (8).png

03\ 企业级 Databricks Runtime vs 社区版 Open Source Spark

640 (9).png

04\ 基于计算存储分离的架构,HDFS vs OSS 成本的对比

640 (10).png

05\ 基于 JindoFS 进行 OSS 访问优化加速,优化数据访问性能

640 (12).png

06\ 交互式分析 Notebook ,聚集数据

优化的 Apache Zeppelin

  • 多语言支持
  • Scala、Python、Spark SQL、R
  • 交互式分析
  • 数据可视化
  • 集成调度能力
  • 一站式开发平台
  • 多用户协作开发

640 (13).png

07\ 数据开发作业提交 & 工作流调度

  • 支持 jar 包提交作业及作业调度能力
  • 支持 Spark/Spark Streaming/Notebook
  • 不同作业类型工作流混合调度
  • 支持调度运维、审计日志、版本控制等

640 (14).png

08\ 丰富的数据源支持

640 (15).png

09\ 元数据管理

三种元数据选择的方式

640 (16).png

三、典型场景

1、客户存在的痛点问题及 DDI 如何解决
2、Lambda 架构到批流一体架构
3、Lakehouse 架构的演进
4、DDI 在阿里云中产品的组合

01\ 开源大数据平台客户普遍存在的痛点问题

640 (17).png

02\ Databricks 数据洞察在四大场景帮助客户提升生产效率

640 (18).png

03\ Delta Lake 的项目背景以及要解决的问题

640 (19).png

04\ 大数据发展进入 Lake House 时代

640 (20).png

05\ 使用 DDI 构建批流一体数仓,简化复杂架构

640 (21).png

delta_lake.png

06\ DDI 在阿里云产品中的组合

640 (22).png

07\ Databricks 数据洞察典型架构

DDI 与阿里云产品深度集成(典型场景)

数据获取
  • 接收实时产生的流式数据和外部云存储上批量数据。
数据 ETL
  • 持续高效地处理增量数据,支持数据的回滚和删改,提供 ACID 事务性保障。
BI报表数据分析 & 交互式分析
  • 支持 Ad hoc 查询,Notebook 可视化分析,无缝对接多种BI分析工具。
AI数据探索
  • 支持机器学习,Mllib 等 Spark 生态 AI 场景。
上下游网络打通
  • 如上游对接 Kafka、OSS、EMR HDFS 等等,下游承接 Elasticsearch、RDS、OSS 存储等。

四、典型场景客户案例介绍

1、基智科技(STEPONE)自建上云案例
2、工业制造头部公司数据分析案例

客户案例 01:基智科技(STEPONE)Databricks 上云迁移

本架构描述利用 Databricks 数据洞察 解决客户大数据计算问题:

  • 数据存储:自建 Hive数仓-》OSS (降低存储成本,同时做计算存储分离)
  • 大数据分析:自建 CDH -》Databricks 数据洞察(全托管 Spark ,高性能 Runtime 引擎,Notebook 交互式分析,工作流 DAG 调度, Python 库的安装方便等)
  • 元数据:自建 CDH -》RDS MySQL 自建元数据库或使用 DDI 统一元数据库
  • 数据迁移:使用 DistCp 或 JindoDistCp 将数据迁移到 OSS,数据结果同步继续使用Sqoop 定时任务

640 (23).png

客户成本收益分析

  • 全托管 Spark 集群免运维,节省人力成本(省1运维+ 1大数据,此外免去性能调优)
  • 相比自建机器资源多了3倍,此外算上 Databricks Runtime 相比开源 spark 来说(预估3倍),整体性能提升9倍
  • Notebook 交互式分析+ DAG 工作流调度,提升数据开发/分析体验
  • 技术方案统一,计算存储分离方案 OSS 存储节省客户存储成本,并为以后数据湖、多计算架构铺路
  • Delta Lake 解决了客户增量数据更新的问题

640 (24).png

客户案例 02:工业制造头部空调公司– 大数据分析方案架构

  • 数据收集/存储: 接收实时产生的流式数据和外部云存储上批量数据
  • 数据 ETL:持续高效地处理增量数据,支持数据的回滚和删改,提供 ACID 事务性保障
  • BI数据分析&交互式分析: 支持查询,Notebook 可视化分析,无缝对接多种BI分析工具
  • 数据科学:支持机器学习/深度学习
  • ⽣态对接:如上游对接 Kafka、OSS、EMR HDFS 等等,下游承接 Elasticsearch、RDS、OSS 存储等

640 (25).png

更多精彩内容,欢迎扫描文章底部钉钉群二维码,进群观看直播回放哦!


获取更详细的 Databricks 数据洞察相关信息,可登录以下链接,也可以直接点击阅读全文跳转产品详情页:

https://www.aliyun.com/product/bigdata/spark
(当前产品提供¥599首购试用活动,欢迎试用!)

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,技术专家直播,只为营造纯粹的 Spark 氛围,欢迎关注公众号!

扫描下方二维码入 Databricks 数据洞察产品交流钉钉群一起参与交流讨论,进群直接在群内观看直播回放哦!

a52be0628cfa4449956cf7879325c8b0.jpg

相关实践学习
基于EMR Serverless StarRocks一键玩转世界杯
基于StarRocks构建极速统一OLAP平台
快速掌握阿里云 E-MapReduce
E-MapReduce 是构建于阿里云 ECS 弹性虚拟机之上,利用开源大数据生态系统,包括 Hadoop、Spark、HBase,为用户提供集群、作业、数据等管理的一站式大数据处理分析服务。 本课程主要介绍阿里云 E-MapReduce 的使用方法。
相关文章
|
15天前
|
存储 机器学习/深度学习 SQL
大数据处理与分析技术
大数据处理与分析技术
55 2
|
2月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
98 1
|
17天前
|
SQL 数据采集 分布式计算
【赵渝强老师】基于大数据组件的平台架构
本文介绍了大数据平台的总体架构及各层的功能。大数据平台架构分为五层:数据源层、数据采集层、大数据平台层、数据仓库层和应用层。其中,大数据平台层为核心,负责数据的存储和计算,支持离线和实时数据处理。数据仓库层则基于大数据平台构建数据模型,应用层则利用这些模型实现具体的应用场景。文中还提供了Lambda和Kappa架构的视频讲解。
【赵渝强老师】基于大数据组件的平台架构
|
4天前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
18 4
|
6天前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
52 5
|
18天前
|
存储 监控 数据挖掘
【Clikhouse 探秘】ClickHouse 物化视图:加速大数据分析的新利器
ClickHouse 的物化视图是一种特殊表,通过预先计算并存储查询结果,显著提高查询性能,减少资源消耗,适用于实时报表、日志分析、用户行为分析、金融数据分析和物联网数据分析等场景。物化视图的创建、数据插入、更新和一致性保证通过事务机制实现。
73 14
|
23天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
69 2
|
24天前
|
数据采集 机器学习/深度学习 搜索推荐
大数据与社交媒体:用户行为分析
【10月更文挑战第31天】在数字化时代,社交媒体成为人们生活的重要部分,大数据技术的发展使其用户行为分析成为企业理解用户需求、优化产品设计和提升用户体验的关键手段。本文探讨了大数据在社交媒体用户行为分析中的应用,包括用户画像构建、情感分析、行为路径分析和社交网络分析,以及面临的挑战与机遇。
|
24天前
|
机器学习/深度学习 搜索推荐 大数据
大数据与教育:学生表现分析的工具
【10月更文挑战第31天】在数字化时代,大数据成为改善教育质量的重要工具。本文探讨了大数据在学生表现分析中的应用,介绍学习管理系统、智能评估系统、情感分析技术和学习路径优化等工具,帮助教育者更好地理解学生需求,制定个性化教学策略,提升教学效果。尽管面临数据隐私等挑战,大数据仍为教育创新带来巨大机遇。
|
27天前
|
人工智能 供应链 搜索推荐
大数据分析:解锁商业智能的秘密武器
【10月更文挑战第31天】在信息爆炸时代,大数据分析成为企业解锁商业智能的关键工具。本文探讨了大数据分析在客户洞察、风险管理、供应链优化、产品开发和决策支持等方面的应用,强调了明确分析目标、选择合适工具、培养专业人才和持续优化的重要性,并展望了未来的发展趋势。
下一篇
无影云桌面