从阿里云峰会看一站式数据AI平台的演进

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 今年因为广州疫情爆发,没能到现场参加阿里云峰会,只能线下看直播,从云原生,数据治理到AI开发范式,智能运维,低代码开发,无不揭示了云给大家带来的价值。可以看到今年所有主题的核心都是围绕如何为开发者构建高效的范式和架构支撑软件开发迭代,这也算是回归了云的初心。

今年因为广州疫情爆发,没能到现场参加阿里云峰会,只能线下看直播,从云原生,数据治理到AI开发范式,智能运维,低代码开发,无不揭示了云给大家带来的价值。可以看到今年所有主题的核心都是围绕如何为开发者构建高效的范式和架构支撑软件开发迭代,这也算是回归了云的初心。

从阿里一站式AI平台看清MLOps

虽然这次峰会涉及的主题很多,但最让我感兴趣的还是贾老师的“云上大数据与AI开发范式的演进”,因为AI后半段是拼地是工程落地能力,如何快速并准确地完成数据治理和模型迭代不仅需要NB的算法人员和方法轮,还需要有完善基础设施,不然只能是小作坊式作业。

AI开发范式演进.png

学过近代史的都知道,小作坊的效率是永远比不过工业化革命的大工厂的,那么如何从小作坊变成高效的算法工厂呢?拆解开来,核心是三大块:

  • 数据治理
  • 算法探索
  • 流程范式

为什么是这三块呢?其实从阿里云AI平台的布局可以看到,通过大数据与AI一体化平台来推动作为一起模型训练根源的数据治理工作,通过推出快速体验的云端 Jupyter 平台为算法人员快速探索算法,和通过打通机器学习全链路的PAI平台将AI工程化能以一种标准的流程范式的形式进行快速落地。

全链路数据治理

dataworks数据治理平台.png

数据治理可以说是AI大规模落地的最大障碍也不为过。每个公司做算法工程落地地时候发现最多的工作都耗费在各种 kafka 的对接,数据集成,数据加工,数据清洗,数据核验上面,而围绕着开发效率优先的工作模式下数据体系快速腐化就变成了一个不可避免的事实了。

数据治理核心是提升数据服务的效率,将工程人员从数据的漩涡中拯救出来,而不是每天面对数据做各种低价值工作。

算法探索神器notebook

相信每个算法开发,甚至大部分 python 开发人员都使用过 jupyter notebook 这款 web IDE,可以说这款 IDE 把交互式地优势发挥到极致了,
今天贾老师提出 jupyter web server 的概念其实一点都不奇怪,不管是 google 一直在推的 colab,还是kubeflow 的 jupyter server,本质都是这样的产品,甚至jupyter server 的功能很早就作为 kubeflow 其除 pipeline 工作流以外最核心的卖点。
一个随时能使用的算法开发环境,这一定是每个算法人员的刚需,同时也是最适合和云技术结合的,利用云原生技术可以为算法人员在任何时候提供一个具有足够资源的完整开发环境,快速开始开发。这确实切入了很多算法人员的痛点。
jupyter-kfserving.png

AI流程范式

阿里云PAI平台.png

说到PAI平台,其实还瞒感慨的,因为16年的时候当时自己也带团队做过一个大数据的可视化建模平台,当时就是参照了PAI平台的界面进行的产品设计,不过这几年 PAI 平台的快速发展已经完全不是当年那个只是具有拖拉拽功能的大数据机器学习建模平台了,逐渐变成一个集可视化建模、交互式建模、弹性推理服务为一体的 MLOps 平台。
特别是和云原生的结合,让她在给开发者赋能上提供了更多地可能性,其实当年在做可视化平台的时候这个问题就暴露出来,就是完全的可视化操作在灵活性上和适应性上是很差的,这也是为什么这几年低代码平台兴起的缘故。

这里做个大胆地预测,后面阿里云 PAI 平台应该会引进 git 的版本管理,彻底将算法工程化全流程打通,通过提供全流程的高效开发为AI工程化铺路。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展,PAI ArtLab助力高校AIGC教育新路径
【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展,PAI ArtLab助力高校AIGC教育新路径
上百万智能体在OASIS模拟平台上玩推特,AI玩社交媒体和真人有多像?
OASIS是一个模拟平台,利用大型语言模型(LLM)驱动的智能体模拟社交媒体上的行为,研究复杂社会系统现象。它模仿推特和Reddit等平台,支持动态环境、多样行动和推荐系统。通过模拟上百万个智能体,OASIS帮助研究人员大规模分析信息传播和社会互动,但仍面临规模、行为多样性及伦理隐私挑战。论文:https://arxiv.org/abs/2411.11581
17 6
PySpur:零代码构建AI工作流!开源可视化拖拽平台,支持多模态与RAG技术
PySpur 是一款开源的轻量级可视化 AI 智能体工作流构建器,支持拖拽式界面,帮助用户快速构建、测试和迭代 AI 工作流,无需编写复杂代码。它支持多模态数据处理、RAG 技术、文件上传、结构化输出等功能,适合非技术背景的用户和开发者快速上手。
82 5
【云栖大会】阿里云PAI ArtLab x 通往AGI之路:ArtLab开源共创与商业落地
【云栖大会】阿里云PAI ArtLab x 通往AGI之路:ArtLab开源共创与商业落地
AI代理平台选型与实施:五大关键步骤助你成功落地
AI代理平台选型与实施:五大关键步骤助你成功落地
基于阿里云 Milvus + DeepSeek + PAI LangStudio 的低成本高精度 RAG 实战
阿里云向量检索服务Milvus版是一款全托管向量检索引擎,并确保与开源Milvus的完全兼容性,支持无缝迁移。它在开源版本的基础上增强了可扩展性,能提供大规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警,Milvus云服务成为多样化AI应用场景的理想选择,包括多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等。您还可以利用开源的Attu工具进行可视化操作,进一步促进应用的快速开发和部署。
【瓴羊数据荟】 AI x Data :大模型时代的数据治理与BI应用创新 | 瓴羊数据Meet Up第4期上海站
瓴羊「数据荟」Meet Up城市行系列活动第四期活动将于3月7日在上海举办,由中国信息通信研究院与阿里巴巴瓴羊专家联袂呈现,共同探讨AI时代的数据应用实践与企业智能DNA的革命性重构。
【瓴羊数据荟】  AI  x Data :大模型时代的数据治理与BI应用创新 | 瓴羊数据Meet Up第4期上海站
AI 短剧遇上函数计算,一键搭建内容创意平台
AI 短剧遇上函数计算,一键搭建内容创意平台
首个云上 AI 原生全栈可观测平台来了!
首个云上 AI 原生全栈可观测平台来了!
阿里云助力华夏数科打造AI选址平台“立业云”——智能服务千万家生态企业选址|看见新力量NO.140
阿里云助力华夏数科打造AI选址平台“立业云”——智能服务千万家生态企业选址|看见新力量NO.140

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等