从阿里云峰会看一站式数据AI平台的演进

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 今年因为广州疫情爆发,没能到现场参加阿里云峰会,只能线下看直播,从云原生,数据治理到AI开发范式,智能运维,低代码开发,无不揭示了云给大家带来的价值。可以看到今年所有主题的核心都是围绕如何为开发者构建高效的范式和架构支撑软件开发迭代,这也算是回归了云的初心。

今年因为广州疫情爆发,没能到现场参加阿里云峰会,只能线下看直播,从云原生,数据治理到AI开发范式,智能运维,低代码开发,无不揭示了云给大家带来的价值。可以看到今年所有主题的核心都是围绕如何为开发者构建高效的范式和架构支撑软件开发迭代,这也算是回归了云的初心。

从阿里一站式AI平台看清MLOps

虽然这次峰会涉及的主题很多,但最让我感兴趣的还是贾老师的“云上大数据与AI开发范式的演进”,因为AI后半段是拼地是工程落地能力,如何快速并准确地完成数据治理和模型迭代不仅需要NB的算法人员和方法轮,还需要有完善基础设施,不然只能是小作坊式作业。

AI开发范式演进.png

学过近代史的都知道,小作坊的效率是永远比不过工业化革命的大工厂的,那么如何从小作坊变成高效的算法工厂呢?拆解开来,核心是三大块:

  • 数据治理
  • 算法探索
  • 流程范式

为什么是这三块呢?其实从阿里云AI平台的布局可以看到,通过大数据与AI一体化平台来推动作为一起模型训练根源的数据治理工作,通过推出快速体验的云端 Jupyter 平台为算法人员快速探索算法,和通过打通机器学习全链路的PAI平台将AI工程化能以一种标准的流程范式的形式进行快速落地。

全链路数据治理

dataworks数据治理平台.png

数据治理可以说是AI大规模落地的最大障碍也不为过。每个公司做算法工程落地地时候发现最多的工作都耗费在各种 kafka 的对接,数据集成,数据加工,数据清洗,数据核验上面,而围绕着开发效率优先的工作模式下数据体系快速腐化就变成了一个不可避免的事实了。

数据治理核心是提升数据服务的效率,将工程人员从数据的漩涡中拯救出来,而不是每天面对数据做各种低价值工作。

算法探索神器notebook

相信每个算法开发,甚至大部分 python 开发人员都使用过 jupyter notebook 这款 web IDE,可以说这款 IDE 把交互式地优势发挥到极致了,
今天贾老师提出 jupyter web server 的概念其实一点都不奇怪,不管是 google 一直在推的 colab,还是kubeflow 的 jupyter server,本质都是这样的产品,甚至jupyter server 的功能很早就作为 kubeflow 其除 pipeline 工作流以外最核心的卖点。
一个随时能使用的算法开发环境,这一定是每个算法人员的刚需,同时也是最适合和云技术结合的,利用云原生技术可以为算法人员在任何时候提供一个具有足够资源的完整开发环境,快速开始开发。这确实切入了很多算法人员的痛点。
jupyter-kfserving.png

AI流程范式

阿里云PAI平台.png

说到PAI平台,其实还瞒感慨的,因为16年的时候当时自己也带团队做过一个大数据的可视化建模平台,当时就是参照了PAI平台的界面进行的产品设计,不过这几年 PAI 平台的快速发展已经完全不是当年那个只是具有拖拉拽功能的大数据机器学习建模平台了,逐渐变成一个集可视化建模、交互式建模、弹性推理服务为一体的 MLOps 平台。
特别是和云原生的结合,让她在给开发者赋能上提供了更多地可能性,其实当年在做可视化平台的时候这个问题就暴露出来,就是完全的可视化操作在灵活性上和适应性上是很差的,这也是为什么这几年低代码平台兴起的缘故。

这里做个大胆地预测,后面阿里云 PAI 平台应该会引进 git 的版本管理,彻底将算法工程化全流程打通,通过提供全流程的高效开发为AI工程化铺路。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
目录
相关文章
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
迁移学习:让小数据也能驱动AI大模型
迁移学习:让小数据也能驱动AI大模型
171 99
|
8天前
|
人工智能 数据可视化 前端开发
AI Ping:精准可靠的大模型服务性能评测平台
AI Ping是清华系团队推出的“大模型服务评测平台”,被誉为“AI界的大众点评”。汇聚230+模型服务,7×24小时监测性能数据,以吞吐量、延迟等硬指标助力开发者科学选型。界面简洁,数据可视化强,支持多模型对比,横向对标国内外主流平台,为AI应用落地提供权威参考。
121 3
|
8天前
|
SQL 人工智能 搜索推荐
Dataphin功能Tips系列(71)X-数据管家:数据资产运营的「AI外挂」
在企业数据治理中,数据资产规模庞大、字段繁多,手动录入效率低且易出错。Dataphin推出「X-数据管家」,利用大模型智能生成标签、描述及字段类型等信息,支持一键批量上架,大幅提升资产运营效率。
人工智能 安全 Ubuntu
127 0
|
15天前
|
人工智能 数据可视化 测试技术
AI测试平台自动遍历:低代码也能玩转全链路测试
AI测试平台的自动遍历功能,通过低代码配置实现Web和App的自动化测试。用户只需提供入口链接或安装包及简单配置,即可自动完成页面结构识别、操作验证,并生成可视化报告,大幅提升测试效率,特别适用于高频迭代项目。
|
17天前
|
人工智能 自然语言处理 测试技术
AI测试平台的用例管理实践:写得清晰,管得高效,执行更智能
在测试过程中,用例分散、步骤模糊、回归测试效率低等问题常困扰团队。霍格沃兹测试开发学社推出的AI测试平台,打通“用例编写—集中管理—智能执行”全流程,提升测试效率与覆盖率。平台支持标准化用例编写、统一管理操作及智能执行,助力测试团队高效协作,释放更多精力优化测试策略。目前平台已开放内测,欢迎试用体验!
|
17天前
|
人工智能 API 数据安全/隐私保护
私有化部署Dify构建企业AI平台教程
在AI技术快速发展的当下,如何安全高效地将AI能力融入企业内部流程成为关键。Dify作为开源LLM应用开发平台,支持私有化部署,保障数据安全与模型隐私,助力企业快速搭建智能工作流。本文详解Dify部署步骤,并以智能IT工单分类为例,展示如何构建高效AI应用,适用于金融、政务、医疗等多领域,助力企业智能化转型。
|
22天前
|
人工智能 测试技术 调度
写用例写到怀疑人生?AI 智能测试平台帮你一键生成!
霍格沃兹测试开发学社推出AI智能测试用例生成功能,结合需求文档一键生成高质量测试用例,大幅提升效率,减少重复劳动。支持自定义提示词、多文档分析与批量管理,助力测试人员高效完成测试设计,释放更多时间投入核心分析工作。平台已开放内测,欢迎体验!
|
24天前
|
人工智能 测试技术 项目管理
测试不再碎片化:AI智能体平台「项目资料套件」功能上线!
在实际项目中,需求文档分散、整理费时、测试遗漏等问题常困扰测试工作。霍格沃兹推出AI智能体测试平台全新功能——项目资料套件,可将多个关联文档打包管理,并一键生成测试用例,提升测试完整性与效率。支持套件创建、文档关联、编辑删除及用例生成,适用于复杂项目、版本迭代等场景,助力实现智能化测试协作,让测试更高效、更专业。