2023 Databricks Data+AI Summit:All in AI

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: Databricks Data+AI Summit 7月初在旧金山召开,整个发布会看下来,最大的感受就是All in AI和All in One。

【先打一波小广告】

阿里云AnalyticDB MySQL升级为湖仓一体架构,支持高吞吐离线处理和高性能在线分析,可无缝替换CDH/TDH/Databricks/Presto/Spark/Hive等。试用活动(5000ACU时+100GB存储)正在火热申请中,申请链接:https://free.aliyun.com/?searchKey=AnalyticDB%20MySQL,群号:33600023146


Databricks Data+AI Summit 7月初在旧金山召开,作为整个职业生涯都跟Spark相关的从业者,也是第一时间进行了学习。

整个发布会看下来,最大的感受就是All in AI和All in One,不再像往年那样讲各种性能测试报告。这一次的AI主要体现在2方面:

  • AI in Lakehouse(用户不实际感知AI):LakehouseIQ
  • NL2SQL:把文字翻译成SQL(Demo演示了统计欧洲的收入,但表中其实没有“Europe”,IQ智能地翻译成了“EMEA Northern”和“EMEA Southern”),帮助Lakehouse的用户群体从技术人员拓展到业务人员。
  • 智能Debug:上游表中字段重命名了,会建议下游表中字段联动重命名
  • 智能调优:自动优化数据层(文件大小、分布方式)、智能混合负载管理
  • 元数据描述和标签建议,帮助用户更好地管理数据
  • AI on Lakehouse(用户更方便地使用AI模型)
  • MosaicML:13 亿美金的估值收购生成式 AI 平台初创公司 MosaicML
  • 向量检索:打通数据湖上的半结构化/非结构化数据,以向量的方式存储下来
  • 特征服务:替代第三方组件,降低训练模型和机器学习推理的门槛

这一次很接地气,不是单纯地讲「AI on Lakehouse」,给用户画饼。而是先讲「AI in Lakehouse」,通过自身在产品上使用AI的实践告诉用户效果。

一开场,先用一张图,讲了一下Databricks lakehouse平台的功能集

分类

功能

SQL

Databricks SQL(老功能,本次发布会没有重点展开)

AI

Lakehouse AI

  • LakehouseIQ
  • MosaicML
  • Vector Search
  • Model Serving

调度

Databricks Workflows(老功能,本次发布会没有重点展开)

ETL

Delta Live Tables(老功能,本次发布会没有重点展开)

统一元数据

Unity Catalog

  • Unity Catalog for AI

统一存储

Delta Lake 3.0(老功能,大升级)

其它

联邦:Lakehouse Federation

监控:LakeHouse Monitoring

共享:Databricks Markeplace

  • Delta Sharing
  • Lakehouse Apps

AI in Lakehouse - LakeHouseIQ

https://www.databricks.com/blog/introducing-lakehouseiq-ai-powered-engine-uniquely-understands-your-business

场景一:NL2SQL

用户群体从技术人员拓展到业务人员

举了个统计欧洲收入的例子,但表中其实没有“Europe”,所以当IQ关闭时,查询结果为空

开启IQ后,IQ智能地翻译成了“EMEA Northern”和“EMEA Southern””

场景二:搜索

关闭IQ

开启IQ

场景三:元数据打标建议

场景四:智能debug

举了个上游表中字段修改,导致下游任务失败的例子。开启IQ后,IQ会自动给出下游任务字段如何修改的建议。

场景五:智能调优

需要进一步调研Deletion Vectors,还没有特别理解能加速的逻辑

AI on Lakehouse - MosaicML&Vector Search&Model Serving

先用一张数据流图介绍了databricks平台如何跟大模型mosaic结合

一个产品一条龙解决整个AI生命周期相关的事情,从数据收集和准备,到模型构建,到模型发布和监控,帮助用户更高效的构建 AI 应用。

新增了「向量检索」和「特征服务」能力:

  • 向量检索:打通数据湖上的半结构化/非结构化数据,以向量的方式存储下来
  • 特征服务:替代第三方组件,降低训练模型和机器学习推理的门槛

举例讲解如何构建向量和查询向量

对不同模型的结果进行逐一对比

最终发布成对外服务

其它发布

Delta Lake 3.0

三剑客共存已经好几年,从用户视角来看,互相之间的迁移成本还是比较高的。Delta Lake 3.0希望能统一起来,这个思路还是比较新颖的,但目前只支持其它两种格式的基本功能。

Lakehouse Federation

统一接入和管理多数据源,这个好像之前就有。

Unify Catalog for AI

在过去统一管理结构化的Table基础上,新增了管理非结构化的Volumns、模型相关的Model的能力,并提供血缘展示。

Lakehouse Monitoring

Databricks Marketplace


最后,用三页PPT快速讲了下「Delta Live Tables」、「Databricks Workflows」、「Databricks SQL」用户规模、数据规模、作业规模等相关的趋势。



由于时间和篇幅原因,有些部分没有深入介绍,有兴趣的可以看下发布会的视频:https://www.databricks.com/dataaisummit/session/data-ai-summit-keynote-wednesday/


整体看完,第一个感觉是信息量超大,而且基本都有案例和Demo,很接地气。第二个感觉是Databricks PR包装能力牛x,类似于增量更新物化视图的能力,被包装成了一个新概念「Delta Live Table」。第三个感觉是,压力来到了Snowflake这边,期待Snowflake近期的产品重磅发布。

目录
相关文章
|
存储 分布式计算 运维
【2023云栖】刘一鸣:Data+AI时代大数据平台建设的思考与发布
本文根据2023云栖大会演讲实录整理而成,演讲信息如下: 演讲人:刘一鸣 | 阿里云自研大数据产品负责人 演讲主题:Data+AI时代大数据平台应该如何建设
102207 15
|
20天前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
18天前
|
人工智能 数据挖掘 数据库
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
本文为数据库「拥抱Data+AI」系列连载第1篇,该系列是阿里云瑶池数据库面向各行业Data+AI应用场景,基于真实客户案例&最佳实践,展示Data+AI行业解决方案的连载文章。本篇内容针对电商行业痛点,将深入探讨如何利用数据与AI技术以及数据分析方法论,为电商行业注入新的活力与效能。
拥抱Data+AI|破解电商7大挑战,DMS+AnalyticDB助力企业智能决策
|
19天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
11天前
|
人工智能 自然语言处理 关系型数据库
从数据到智能,一站式带你了解 Data+AI 精选解决方案、特惠权益
从 Data+AI 精选解决方案、特惠权益等,一站式带你了解阿里云瑶池数据库经典的AI产品服务与实践。
|
11天前
|
存储 人工智能 关系型数据库
拥抱Data+AI|玩家去哪儿了?解码Data+AI如何助力游戏日志智能分析
本文为阿里云瑶池数据库「拥抱Data+AI」系列连载第2篇,基于真实客户案例和最佳实践,探讨如何利用阿里云Data+AI解决方案应对游戏行业挑战,通过AI为游戏行业注入新的活力。文章详细介绍了日志数据的实时接入、高效查询、开源开放及AI场景落地,展示了完整的Data+AI解决方案及其实际应用效果。
|
12天前
|
存储 人工智能 关系型数据库
拥抱Data+AI|玩家去哪儿了?解码Data+AI如何助力游戏日志智能分析
「拥抱Data+AI」系列第2篇:阿里云DMS+AnalyticDB助力游戏日志数据分析与预测
拥抱Data+AI|玩家去哪儿了?解码Data+AI如何助力游戏日志智能分析
|
20天前
|
数据采集 人工智能 搜索推荐
|
20天前
|
数据采集 人工智能 搜索推荐
大咖说|Data+AI:企业智能化转型的核心驱动力
在数字化浪潮的推动下,企业正面临前所未有的挑战与机遇。数据与人工智能的结合,形成了强大的Data+AI力量,尤其在近期人工智能迅速发展的背景下,这一力量正在加速重塑企业的运营模式、竞争策略和市场前景,成为适应变化、提升竞争力、推动创新的核心驱动力。本文将讨论企业采用Data+AI平台的必要性及其在企业智能化转型中的作用。
104 0
大咖说|Data+AI:企业智能化转型的核心驱动力
|
25天前
|
SQL 人工智能 DataWorks
DataWorks:新一代 Data+AI 数据开发与数据治理平台演进
本文介绍了阿里云 DataWorks 在 DA 数智大会 2024 上的最新进展,包括新一代智能数据开发平台 DataWorks Data Studio、全新升级的 DataWorks Copilot 智能助手、数据资产治理、全面云原生转型以及更开放的开发者体验。这些更新旨在提升数据开发和治理的效率,助力企业实现数据价值最大化和智能化转型。
204 5

热门文章

最新文章

下一篇
无影云桌面