2023 Databricks Data+AI Summit:All in AI

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: Databricks Data+AI Summit 7月初在旧金山召开,整个发布会看下来,最大的感受就是All in AI和All in One。

【先打一波小广告】

阿里云AnalyticDB MySQL升级为湖仓一体架构,支持高吞吐离线处理和高性能在线分析,可无缝替换CDH/TDH/Databricks/Presto/Spark/Hive等。试用活动(5000ACU时+100GB存储)正在火热申请中,申请链接:https://free.aliyun.com/?searchKey=AnalyticDB%20MySQL,群号:33600023146


Databricks Data+AI Summit 7月初在旧金山召开,作为整个职业生涯都跟Spark相关的从业者,也是第一时间进行了学习。

整个发布会看下来,最大的感受就是All in AI和All in One,不再像往年那样讲各种性能测试报告。这一次的AI主要体现在2方面:

  • AI in Lakehouse(用户不实际感知AI):LakehouseIQ
  • NL2SQL:把文字翻译成SQL(Demo演示了统计欧洲的收入,但表中其实没有“Europe”,IQ智能地翻译成了“EMEA Northern”和“EMEA Southern”),帮助Lakehouse的用户群体从技术人员拓展到业务人员。
  • 智能Debug:上游表中字段重命名了,会建议下游表中字段联动重命名
  • 智能调优:自动优化数据层(文件大小、分布方式)、智能混合负载管理
  • 元数据描述和标签建议,帮助用户更好地管理数据
  • AI on Lakehouse(用户更方便地使用AI模型)
  • MosaicML:13 亿美金的估值收购生成式 AI 平台初创公司 MosaicML
  • 向量检索:打通数据湖上的半结构化/非结构化数据,以向量的方式存储下来
  • 特征服务:替代第三方组件,降低训练模型和机器学习推理的门槛

这一次很接地气,不是单纯地讲「AI on Lakehouse」,给用户画饼。而是先讲「AI in Lakehouse」,通过自身在产品上使用AI的实践告诉用户效果。

一开场,先用一张图,讲了一下Databricks lakehouse平台的功能集

分类

功能

SQL

Databricks SQL(老功能,本次发布会没有重点展开)

AI

Lakehouse AI

  • LakehouseIQ
  • MosaicML
  • Vector Search
  • Model Serving

调度

Databricks Workflows(老功能,本次发布会没有重点展开)

ETL

Delta Live Tables(老功能,本次发布会没有重点展开)

统一元数据

Unity Catalog

  • Unity Catalog for AI

统一存储

Delta Lake 3.0(老功能,大升级)

其它

联邦:Lakehouse Federation

监控:LakeHouse Monitoring

共享:Databricks Markeplace

  • Delta Sharing
  • Lakehouse Apps

AI in Lakehouse - LakeHouseIQ

https://www.databricks.com/blog/introducing-lakehouseiq-ai-powered-engine-uniquely-understands-your-business

场景一:NL2SQL

用户群体从技术人员拓展到业务人员

举了个统计欧洲收入的例子,但表中其实没有“Europe”,所以当IQ关闭时,查询结果为空

开启IQ后,IQ智能地翻译成了“EMEA Northern”和“EMEA Southern””

场景二:搜索

关闭IQ

开启IQ

场景三:元数据打标建议

场景四:智能debug

举了个上游表中字段修改,导致下游任务失败的例子。开启IQ后,IQ会自动给出下游任务字段如何修改的建议。

场景五:智能调优

需要进一步调研Deletion Vectors,还没有特别理解能加速的逻辑

AI on Lakehouse - MosaicML&Vector Search&Model Serving

先用一张数据流图介绍了databricks平台如何跟大模型mosaic结合

一个产品一条龙解决整个AI生命周期相关的事情,从数据收集和准备,到模型构建,到模型发布和监控,帮助用户更高效的构建 AI 应用。

新增了「向量检索」和「特征服务」能力:

  • 向量检索:打通数据湖上的半结构化/非结构化数据,以向量的方式存储下来
  • 特征服务:替代第三方组件,降低训练模型和机器学习推理的门槛

举例讲解如何构建向量和查询向量

对不同模型的结果进行逐一对比

最终发布成对外服务

其它发布

Delta Lake 3.0

三剑客共存已经好几年,从用户视角来看,互相之间的迁移成本还是比较高的。Delta Lake 3.0希望能统一起来,这个思路还是比较新颖的,但目前只支持其它两种格式的基本功能。

Lakehouse Federation

统一接入和管理多数据源,这个好像之前就有。

Unify Catalog for AI

在过去统一管理结构化的Table基础上,新增了管理非结构化的Volumns、模型相关的Model的能力,并提供血缘展示。

Lakehouse Monitoring

Databricks Marketplace


最后,用三页PPT快速讲了下「Delta Live Tables」、「Databricks Workflows」、「Databricks SQL」用户规模、数据规模、作业规模等相关的趋势。



由于时间和篇幅原因,有些部分没有深入介绍,有兴趣的可以看下发布会的视频:https://www.databricks.com/dataaisummit/session/data-ai-summit-keynote-wednesday/


整体看完,第一个感觉是信息量超大,而且基本都有案例和Demo,很接地气。第二个感觉是Databricks PR包装能力牛x,类似于增量更新物化视图的能力,被包装成了一个新概念「Delta Live Table」。第三个感觉是,压力来到了Snowflake这边,期待Snowflake近期的产品重磅发布。

目录
相关文章
|
9月前
|
存储 分布式计算 运维
【2023云栖】刘一鸣:Data+AI时代大数据平台建设的思考与发布
本文根据2023云栖大会演讲实录整理而成,演讲信息如下: 演讲人:刘一鸣 | 阿里云自研大数据产品负责人 演讲主题:Data+AI时代大数据平台应该如何建设
101933 7
|
26天前
|
存储 人工智能 大数据
对谈|喜马拉雅,为何能快速推进AI in All ?
对谈|喜马拉雅,为何能快速推进AI in All ?
31 1
|
2月前
|
存储 运维 安全
Greenplum闭源?平滑迁移到 AnalyticDB 开启Data+AI新范式
知名开源 MPP 数据库 Greenplum 由于其丰富的企业级特性和出色的数据处理能力成为很多企业构建数仓的首选。近期 GP 公开 Github 仓库无法访问仅保留只读归档代码,业界纷纷猜测 GP 即将闭源。云原生数仓 AnalyticDB PostgreSQL 版完全掌控内核代码,完全兼容GP语法,全自研计算及存储引擎较比开源GP有五倍性能提升,全自研企业级特性在实时计算、弹性扩展、安全增强、高可用等方面实现对GP的全面超越,并在数仓能力上扩展了向量检索及一站式 RAG 服务,帮助企业快速构建 AI 应用、开启 Data+AI 新范式。
59044 3
|
3月前
|
人工智能 分布式计算 安全
Azure Databricks实战:在云上轻松进行大数据分析与AI开发
【4月更文挑战第9天】探索Microsoft Azure的Databricks服务,体验其在大数据分析和AI开发中的高效性能。此平台简化流程,提升效率,适用场景包括数据湖分析、实时流处理和AI开发。核心优势在于一体化平台设计、云原生的弹性伸缩和企业级安全保障。Databricks提升研发效能,无缝集成Azure生态,且持续创新,是应对大数据挑战和加速AI创新的理想工具。
237 1
|
9月前
|
人工智能 关系型数据库 OLAP
|
机器学习/深度学习 人工智能 搜索推荐
阿里巴巴宣布加入 Linux Foundation AI&Data 基金会,捐赠首个开源项目 DeepRec
持续加大对AI和大数据技术的投入以促进相关开源建设。
|
人工智能 大数据
《品友All In人工智能让大数据AI上营销》电子版地址
品友All In人工智能让大数据AI上营销
94 0
《品友All In人工智能让大数据AI上营销》电子版地址
|
SQL 人工智能 分布式计算
DATA AI Summit 2022提及到的对 aggregate 的优化
DATA AI Summit 2022提及到的对 aggregate 的优化
216 0
DATA AI Summit 2022提及到的对 aggregate 的优化
|
机器学习/深度学习 人工智能 自然语言处理
遇到 AI 技术问题别发愁,WAVE SUMMIT 2022 全有解!
众所周知,深度学习框架已经成为推动 AI 应用大规模落地的关键力量,它不仅向上承接应用,还接壤着底层芯片,是人工智能技术体系中不可或缺的重要角色。
129 0
遇到 AI 技术问题别发愁,WAVE SUMMIT 2022 全有解!
|
机器学习/深度学习 传感器 人工智能
AI提高药物发现效率 | ML,Supercomputers and Big Data
AI提高药物发现效率 | ML,Supercomputers and Big Data
139 0
AI提高药物发现效率 | ML,Supercomputers and Big Data