【先打一波小广告】
阿里云AnalyticDB MySQL升级为湖仓一体架构,支持高吞吐离线处理和高性能在线分析,可无缝替换CDH/TDH/Databricks/Presto/Spark/Hive等。试用活动(5000ACU时+100GB存储)正在火热申请中,申请链接:https://free.aliyun.com/?searchKey=AnalyticDB%20MySQL,群号:33600023146
Databricks Data+AI Summit 7月初在旧金山召开,作为整个职业生涯都跟Spark相关的从业者,也是第一时间进行了学习。
整个发布会看下来,最大的感受就是All in AI和All in One,不再像往年那样讲各种性能测试报告。这一次的AI主要体现在2方面:
- AI in Lakehouse(用户不实际感知AI):LakehouseIQ
- NL2SQL:把文字翻译成SQL(Demo演示了统计欧洲的收入,但表中其实没有“Europe”,IQ智能地翻译成了“EMEA Northern”和“EMEA Southern”),帮助Lakehouse的用户群体从技术人员拓展到业务人员。
- 智能Debug:上游表中字段重命名了,会建议下游表中字段联动重命名
- 智能调优:自动优化数据层(文件大小、分布方式)、智能混合负载管理
- 元数据描述和标签建议,帮助用户更好地管理数据
- AI on Lakehouse(用户更方便地使用AI模型)
- MosaicML:13 亿美金的估值收购生成式 AI 平台初创公司 MosaicML
- 向量检索:打通数据湖上的半结构化/非结构化数据,以向量的方式存储下来
- 特征服务:替代第三方组件,降低训练模型和机器学习推理的门槛
这一次很接地气,不是单纯地讲「AI on Lakehouse」,给用户画饼。而是先讲「AI in Lakehouse」,通过自身在产品上使用AI的实践告诉用户效果。
一开场,先用一张图,讲了一下Databricks lakehouse平台的功能集
分类 |
功能 |
SQL |
Databricks SQL(老功能,本次发布会没有重点展开) |
AI |
Lakehouse AI
|
调度 |
Databricks Workflows(老功能,本次发布会没有重点展开) |
ETL |
Delta Live Tables(老功能,本次发布会没有重点展开) |
统一元数据 |
Unity Catalog
|
统一存储 |
Delta Lake 3.0(老功能,大升级) |
其它 |
联邦:Lakehouse Federation |
监控:LakeHouse Monitoring |
|
共享:Databricks Markeplace
|
AI in Lakehouse - LakeHouseIQ
场景一:NL2SQL
用户群体从技术人员拓展到业务人员
举了个统计欧洲收入的例子,但表中其实没有“Europe”,所以当IQ关闭时,查询结果为空
开启IQ后,IQ智能地翻译成了“EMEA Northern”和“EMEA Southern””
场景二:搜索
关闭IQ
开启IQ
场景三:元数据打标建议
场景四:智能debug
举了个上游表中字段修改,导致下游任务失败的例子。开启IQ后,IQ会自动给出下游任务字段如何修改的建议。
场景五:智能调优
需要进一步调研Deletion Vectors,还没有特别理解能加速的逻辑
AI on Lakehouse - MosaicML&Vector Search&Model Serving
先用一张数据流图介绍了databricks平台如何跟大模型mosaic结合
一个产品一条龙解决整个AI生命周期相关的事情,从数据收集和准备,到模型构建,到模型发布和监控,帮助用户更高效的构建 AI 应用。
新增了「向量检索」和「特征服务」能力:
- 向量检索:打通数据湖上的半结构化/非结构化数据,以向量的方式存储下来
- 特征服务:替代第三方组件,降低训练模型和机器学习推理的门槛
举例讲解如何构建向量和查询向量
对不同模型的结果进行逐一对比
最终发布成对外服务
其它发布
Delta Lake 3.0
三剑客共存已经好几年,从用户视角来看,互相之间的迁移成本还是比较高的。Delta Lake 3.0希望能统一起来,这个思路还是比较新颖的,但目前只支持其它两种格式的基本功能。
Lakehouse Federation
统一接入和管理多数据源,这个好像之前就有。
Unify Catalog for AI
在过去统一管理结构化的Table基础上,新增了管理非结构化的Volumns、模型相关的Model的能力,并提供血缘展示。
Lakehouse Monitoring
Databricks Marketplace
最后,用三页PPT快速讲了下「Delta Live Tables」、「Databricks Workflows」、「Databricks SQL」用户规模、数据规模、作业规模等相关的趋势。
由于时间和篇幅原因,有些部分没有深入介绍,有兴趣的可以看下发布会的视频:https://www.databricks.com/dataaisummit/session/data-ai-summit-keynote-wednesday/
整体看完,第一个感觉是信息量超大,而且基本都有案例和Demo,很接地气。第二个感觉是Databricks PR包装能力牛x,类似于增量更新物化视图的能力,被包装成了一个新概念「Delta Live Table」。第三个感觉是,压力来到了Snowflake这边,期待Snowflake近期的产品重磅发布。