2023 Databricks Data+AI Summit:All in AI

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: Databricks Data+AI Summit 7月初在旧金山召开,整个发布会看下来,最大的感受就是All in AI和All in One。

【先打一波小广告】

阿里云AnalyticDB MySQL升级为湖仓一体架构,支持高吞吐离线处理和高性能在线分析,可无缝替换CDH/TDH/Databricks/Presto/Spark/Hive等。试用活动(5000ACU时+100GB存储)正在火热申请中,申请链接:https://free.aliyun.com/?searchKey=AnalyticDB%20MySQL,群号:33600023146


Databricks Data+AI Summit 7月初在旧金山召开,作为整个职业生涯都跟Spark相关的从业者,也是第一时间进行了学习。

整个发布会看下来,最大的感受就是All in AI和All in One,不再像往年那样讲各种性能测试报告。这一次的AI主要体现在2方面:

  • AI in Lakehouse(用户不实际感知AI):LakehouseIQ
  • NL2SQL:把文字翻译成SQL(Demo演示了统计欧洲的收入,但表中其实没有“Europe”,IQ智能地翻译成了“EMEA Northern”和“EMEA Southern”),帮助Lakehouse的用户群体从技术人员拓展到业务人员。
  • 智能Debug:上游表中字段重命名了,会建议下游表中字段联动重命名
  • 智能调优:自动优化数据层(文件大小、分布方式)、智能混合负载管理
  • 元数据描述和标签建议,帮助用户更好地管理数据
  • AI on Lakehouse(用户更方便地使用AI模型)
  • MosaicML:13 亿美金的估值收购生成式 AI 平台初创公司 MosaicML
  • 向量检索:打通数据湖上的半结构化/非结构化数据,以向量的方式存储下来
  • 特征服务:替代第三方组件,降低训练模型和机器学习推理的门槛

这一次很接地气,不是单纯地讲「AI on Lakehouse」,给用户画饼。而是先讲「AI in Lakehouse」,通过自身在产品上使用AI的实践告诉用户效果。

一开场,先用一张图,讲了一下Databricks lakehouse平台的功能集

分类

功能

SQL

Databricks SQL(老功能,本次发布会没有重点展开)

AI

Lakehouse AI

  • LakehouseIQ
  • MosaicML
  • Vector Search
  • Model Serving

调度

Databricks Workflows(老功能,本次发布会没有重点展开)

ETL

Delta Live Tables(老功能,本次发布会没有重点展开)

统一元数据

Unity Catalog

  • Unity Catalog for AI

统一存储

Delta Lake 3.0(老功能,大升级)

其它

联邦:Lakehouse Federation

监控:LakeHouse Monitoring

共享:Databricks Markeplace

  • Delta Sharing
  • Lakehouse Apps

AI in Lakehouse - LakeHouseIQ

https://www.databricks.com/blog/introducing-lakehouseiq-ai-powered-engine-uniquely-understands-your-business

场景一:NL2SQL

用户群体从技术人员拓展到业务人员

举了个统计欧洲收入的例子,但表中其实没有“Europe”,所以当IQ关闭时,查询结果为空

开启IQ后,IQ智能地翻译成了“EMEA Northern”和“EMEA Southern””

场景二:搜索

关闭IQ

开启IQ

场景三:元数据打标建议

场景四:智能debug

举了个上游表中字段修改,导致下游任务失败的例子。开启IQ后,IQ会自动给出下游任务字段如何修改的建议。

场景五:智能调优

需要进一步调研Deletion Vectors,还没有特别理解能加速的逻辑

AI on Lakehouse - MosaicML&Vector Search&Model Serving

先用一张数据流图介绍了databricks平台如何跟大模型mosaic结合

一个产品一条龙解决整个AI生命周期相关的事情,从数据收集和准备,到模型构建,到模型发布和监控,帮助用户更高效的构建 AI 应用。

新增了「向量检索」和「特征服务」能力:

  • 向量检索:打通数据湖上的半结构化/非结构化数据,以向量的方式存储下来
  • 特征服务:替代第三方组件,降低训练模型和机器学习推理的门槛

举例讲解如何构建向量和查询向量

对不同模型的结果进行逐一对比

最终发布成对外服务

其它发布

Delta Lake 3.0

三剑客共存已经好几年,从用户视角来看,互相之间的迁移成本还是比较高的。Delta Lake 3.0希望能统一起来,这个思路还是比较新颖的,但目前只支持其它两种格式的基本功能。

Lakehouse Federation

统一接入和管理多数据源,这个好像之前就有。

Unify Catalog for AI

在过去统一管理结构化的Table基础上,新增了管理非结构化的Volumns、模型相关的Model的能力,并提供血缘展示。

Lakehouse Monitoring

Databricks Marketplace


最后,用三页PPT快速讲了下「Delta Live Tables」、「Databricks Workflows」、「Databricks SQL」用户规模、数据规模、作业规模等相关的趋势。



由于时间和篇幅原因,有些部分没有深入介绍,有兴趣的可以看下发布会的视频:https://www.databricks.com/dataaisummit/session/data-ai-summit-keynote-wednesday/


整体看完,第一个感觉是信息量超大,而且基本都有案例和Demo,很接地气。第二个感觉是Databricks PR包装能力牛x,类似于增量更新物化视图的能力,被包装成了一个新概念「Delta Live Table」。第三个感觉是,压力来到了Snowflake这边,期待Snowflake近期的产品重磅发布。

目录
相关文章
|
4天前
|
人工智能 自然语言处理 数据可视化
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
Data Formulator 是微软研究院推出的开源 AI 数据可视化工具,结合图形化界面和自然语言输入,帮助用户快速创建复杂的可视化图表。
162 9
Data Formulator:微软开源的数据可视化 AI 工具,通过自然语言交互快速创建复杂的数据图表
|
1月前
|
SQL 人工智能 数据管理
跨云数据管理平台DMS:构建Data+AI的企业智能Data Mesh
跨云数据管理平台DMS助力企业构建智能Data Mesh,实现Data+AI的统一管理。DMS提供开放式元数据服务OneMeta、一站式智能开发平台和云原生AI数据平台,支持多模数据管理和高效的数据处理。结合PolarDB、AnalyticDB等核心引擎,DMS在多个垂直场景中展现出显著优势,如智能营销和向量搜索,提升业务效率和准确性。通过DataOps和MLOps的融合,DMS为企业提供了从数据到AI模型的全生命周期管理,推动数据驱动的业务创新。
|
1月前
|
存储 人工智能 关系型数据库
AnalyticDB PostgreSQL版:Data+AI 时代的企业级数据仓库
AnalyticDB PostgreSQL版是面向Data+AI时代的企业级数据仓库,涵盖产品架构、核心技术、客户案例及功能发布四大部分。产品架构包括数据分析和AI/ML的存储与计算优化;核心技术涉及高性能实时引擎Beam、向量化执行引擎Laser及优化器Orca;客户案例展示了丝芙兰和领跑汽车的应用;新功能如pgsearch全文检索和In-Database AI/ML进一步提升了性能与易用性。
|
1月前
|
SQL 存储 人工智能
DMS+X构建Gen-AI时代的一站式Data+AI平台
本文整理自阿里云数据库团队Analytic DB、PostgreSQL产品及生态工具负责人周文超和龙城的分享,主要介绍Gen-AI时代的一站式Data+AI平台DMS+X。 本次分享的内容主要分为以下几个部分: 1.发布背景介绍 2.DMS重磅发布:OneMeta 3.DMS重磅发布:OneOps 4.DMS+X最佳实践,助力企业客户实现产业智能化升级
DMS+X构建Gen-AI时代的一站式Data+AI平台
|
2月前
|
人工智能 分布式计算 数据处理
MaxCompute Data + AI:构建 Data + AI 的一体化数智融合
本次分享将分为四个部分讲解:第一部分探讨AI时代数据开发范式的演变,特别是MaxCompute自研大数据平台在客户工作负载和任务类型变化下的影响。第二部分介绍MaxCompute在资源大数据平台上构建的Data + AI核心能力,提供一站式开发体验和流程。第三部分展示MaxCompute Data + AI的一站式开发体验,涵盖多模态数据管理、交互式开发环境及模型训练与部署。第四部分分享成功落地的客户案例及其收益,包括互联网公司和大模型训练客户的实践,展示了MaxFrame带来的显著性能提升和开发效率改进。
|
2月前
|
存储 人工智能 BI
Paimon 1.0: Unified Lake Format for Data + AI
本文整理自阿里云智能开源湖存储负责人李劲松在Flink Forward Asia 2024上海站主论坛的演讲。Apache Paimon于今年3月成为顶级项目,计划发布1.0版本,目标是Unified Lake Format for Data + AI,解决数据处理与AI应用中的关键问题。Paimon结合Flink打造Streaming Lakehouse解决方案,已在阿里巴巴集团及多个行业中广泛应用。来自淘天、抖音和vivo的嘉宾分享了基于Paimon + Flink技术栈的数据湖实时处理与分析实践案例。内容涵盖大数据从业者面临的痛点、Paimon的发展历程及大厂的应用经验。
502 1
Paimon 1.0: Unified Lake Format for Data + AI
|
2月前
|
人工智能 数据库 自然语言处理
拥抱Data+AI|DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
「拥抱Data+AI」系列文章由阿里云瑶池数据库推出,基于真实客户案例,展示Data+AI行业解决方案。本文通过钉钉AI助理的实际应用,探讨如何利用阿里云Data+AI解决方案实现智能问数服务,使每个人都能拥有专属数据分析师,显著提升数据查询和分析效率。点击阅读详情。
拥抱Data+AI|DMS+AnalyticDB助力钉钉AI助理,轻松玩转智能问数
|
3月前
|
存储 人工智能 自然语言处理
拥抱Data+AI|B站引入阿里云DMS+X,利用AI赋能运营效率10倍提升
本篇文章针对B站在运营场景中的痛点,深入探讨如何利用阿里云Data+AI解决方案实现智能问数服务,赋能平台用户和运营人员提升自助取数和分析能力,提高价值交付效率的同时为数据平台减负。
拥抱Data+AI|B站引入阿里云DMS+X,利用AI赋能运营效率10倍提升
|
3月前
|
人工智能 关系型数据库 分布式数据库
拥抱Data+AI|“全球第一”雅迪如何实现智能营销?DMS+PolarDB注入数据新活力
针对雅迪“云销通App”的需求与痛点,本文将介绍阿里云瑶池数据库DMS+PolarDB for AI提供的一站式Data+AI解决方案,助力销售人员高效用数,全面提升销售管理效率。
|
3月前
|
人工智能 自然语言处理 关系型数据库
从数据到智能,一站式带你了解 Data+AI 精选解决方案、特惠权益
从 Data+AI 精选解决方案、特惠权益等,一站式带你了解阿里云瑶池数据库经典的AI产品服务与实践。

热门文章

最新文章