2023 Databricks Data+AI Summit:All in AI

简介: Databricks Data+AI Summit 7月初在旧金山召开,整个发布会看下来,最大的感受就是All in AI和All in One。

【先打一波小广告】

阿里云AnalyticDB MySQL升级为湖仓一体架构,支持高吞吐离线处理和高性能在线分析,可无缝替换CDH/TDH/Databricks/Presto/Spark/Hive等。试用活动(5000ACU时+100GB存储)正在火热申请中,申请链接:https://free.aliyun.com/?searchKey=AnalyticDB%20MySQL,群号:33600023146


Databricks Data+AI Summit 7月初在旧金山召开,作为整个职业生涯都跟Spark相关的从业者,也是第一时间进行了学习。

整个发布会看下来,最大的感受就是All in AI和All in One,不再像往年那样讲各种性能测试报告。这一次的AI主要体现在2方面:

  • AI in Lakehouse(用户不实际感知AI):LakehouseIQ
  • NL2SQL:把文字翻译成SQL(Demo演示了统计欧洲的收入,但表中其实没有“Europe”,IQ智能地翻译成了“EMEA Northern”和“EMEA Southern”),帮助Lakehouse的用户群体从技术人员拓展到业务人员。
  • 智能Debug:上游表中字段重命名了,会建议下游表中字段联动重命名
  • 智能调优:自动优化数据层(文件大小、分布方式)、智能混合负载管理
  • 元数据描述和标签建议,帮助用户更好地管理数据
  • AI on Lakehouse(用户更方便地使用AI模型)
  • MosaicML:13 亿美金的估值收购生成式 AI 平台初创公司 MosaicML
  • 向量检索:打通数据湖上的半结构化/非结构化数据,以向量的方式存储下来
  • 特征服务:替代第三方组件,降低训练模型和机器学习推理的门槛

这一次很接地气,不是单纯地讲「AI on Lakehouse」,给用户画饼。而是先讲「AI in Lakehouse」,通过自身在产品上使用AI的实践告诉用户效果。

一开场,先用一张图,讲了一下Databricks lakehouse平台的功能集

分类

功能

SQL

Databricks SQL(老功能,本次发布会没有重点展开)

AI

Lakehouse AI

  • LakehouseIQ
  • MosaicML
  • Vector Search
  • Model Serving

调度

Databricks Workflows(老功能,本次发布会没有重点展开)

ETL

Delta Live Tables(老功能,本次发布会没有重点展开)

统一元数据

Unity Catalog

  • Unity Catalog for AI

统一存储

Delta Lake 3.0(老功能,大升级)

其它

联邦:Lakehouse Federation

监控:LakeHouse Monitoring

共享:Databricks Markeplace

  • Delta Sharing
  • Lakehouse Apps

AI in Lakehouse - LakeHouseIQ

https://www.databricks.com/blog/introducing-lakehouseiq-ai-powered-engine-uniquely-understands-your-business

场景一:NL2SQL

用户群体从技术人员拓展到业务人员

举了个统计欧洲收入的例子,但表中其实没有“Europe”,所以当IQ关闭时,查询结果为空

开启IQ后,IQ智能地翻译成了“EMEA Northern”和“EMEA Southern””

场景二:搜索

关闭IQ

开启IQ

场景三:元数据打标建议

场景四:智能debug

举了个上游表中字段修改,导致下游任务失败的例子。开启IQ后,IQ会自动给出下游任务字段如何修改的建议。

场景五:智能调优

需要进一步调研Deletion Vectors,还没有特别理解能加速的逻辑

AI on Lakehouse - MosaicML&Vector Search&Model Serving

先用一张数据流图介绍了databricks平台如何跟大模型mosaic结合

一个产品一条龙解决整个AI生命周期相关的事情,从数据收集和准备,到模型构建,到模型发布和监控,帮助用户更高效的构建 AI 应用。

新增了「向量检索」和「特征服务」能力:

  • 向量检索:打通数据湖上的半结构化/非结构化数据,以向量的方式存储下来
  • 特征服务:替代第三方组件,降低训练模型和机器学习推理的门槛

举例讲解如何构建向量和查询向量

对不同模型的结果进行逐一对比

最终发布成对外服务

其它发布

Delta Lake 3.0

三剑客共存已经好几年,从用户视角来看,互相之间的迁移成本还是比较高的。Delta Lake 3.0希望能统一起来,这个思路还是比较新颖的,但目前只支持其它两种格式的基本功能。

Lakehouse Federation

统一接入和管理多数据源,这个好像之前就有。

Unify Catalog for AI

在过去统一管理结构化的Table基础上,新增了管理非结构化的Volumns、模型相关的Model的能力,并提供血缘展示。

Lakehouse Monitoring

Databricks Marketplace


最后,用三页PPT快速讲了下「Delta Live Tables」、「Databricks Workflows」、「Databricks SQL」用户规模、数据规模、作业规模等相关的趋势。



由于时间和篇幅原因,有些部分没有深入介绍,有兴趣的可以看下发布会的视频:https://www.databricks.com/dataaisummit/session/data-ai-summit-keynote-wednesday/


整体看完,第一个感觉是信息量超大,而且基本都有案例和Demo,很接地气。第二个感觉是Databricks PR包装能力牛x,类似于增量更新物化视图的能力,被包装成了一个新概念「Delta Live Table」。第三个感觉是,压力来到了Snowflake这边,期待Snowflake近期的产品重磅发布。

目录
相关文章
|
6月前
|
SQL 人工智能 API
Apache Flink 2.1.0: 面向实时 Data + AI 全面升级,开启智能流处理新纪元
Apache Flink 2.1.0 正式发布,标志着实时数据处理引擎向统一 Data + AI 平台迈进。新版本强化了实时 AI 能力,支持通过 Flink SQL 和 Table API 创建及调用 AI 模型,新增 Model DDL、ML_PREDICT 表值函数等功能,实现端到端的实时 AI 工作流。同时增强了 Flink SQL 的流处理能力,引入 Process Table Functions(PTFs)、Variant 数据类型,优化流式 Join 及状态管理,显著提升作业稳定性与资源利用率。
712 0
|
6月前
|
人工智能 自然语言处理 数据可视化
聊聊多维表格与BI|AI x Data 数据产品的发展趋势
多维表格与Quick BI深度融合,助力企业在AI与数据时代实现高效分析。多维表格作为轻量级数据管理工具,擅长快速填报与基础分析;而Quick BI则专注于多源数据整合、深度洞察与可视化展示。两者协同,既能降低使用门槛,又能提升数据分析的广度与深度,满足企业从数据采集到智能决策的全链路需求。未来,数据产品将朝着低门槛、多场景与实用性方向发展,推动商业智能迈向新高度。
413 25
|
5月前
|
存储 人工智能 关系型数据库
阿里云AnalyticDB for PostgreSQL 入选VLDB 2025:统一架构破局HTAP,Beam+Laser引擎赋能Data+AI融合新范式
在数据驱动与人工智能深度融合的时代,企业对数据仓库的需求早已超越“查得快”这一基础能力。面对传统数仓挑战,阿里云瑶池数据库AnalyticDB for PostgreSQL(简称ADB-PG)创新性地构建了统一架构下的Shared-Nothing与Shared-Storage双模融合体系,并自主研发Beam混合存储引擎与Laser向量化执行引擎,全面解决HTAP场景下性能、弹性、成本与实时性的矛盾。 近日,相关研究成果发表于在英国伦敦召开的数据库领域顶级会议 VLDB 2025,标志着中国自研云数仓技术再次登上国际舞台。
564 0
|
7月前
|
人工智能 运维 数据挖掘
瑶池数据库Data+AI驱动的全栈智能实践开放日回顾
阿里云瑶池数据库重磅推出“Data+AI能力家族”,包括DTS AI数据准备、Data Agent系列智能体及DMS MCP统一数据访问服务,重构数据与AI协同边界。通过智能化工具链,覆盖数据全生命周期,提升企业数据开发、分析、治理与运维效率,降低技术门槛,激活数据资产价值,助力企业迈向全栈智能新时代。
|
8月前
|
人工智能 安全 Apache
Unity Catalog 三大升级:Data+AI 时代的统一治理再进化
在刚刚落幕的 2025 Databricks Data + AI Summit 上,Databricks 重磅发布了多项 Lakehouse 相关功能更新。其中,面向数据湖治理场景的统一数据访问与管理方案 —— Unity Catalog,迎来了三大关键升级:全面支持 Apache Iceberg、面向业务用户的全新使用体验,以及数据治理与安全能力的持续增强。

热门文章

最新文章