数据优先的人工智能会是下一个颠覆性的大事件吗?(Continual)(下)

简介: 现代机器学习 (ML) 平台的起步已经大约有十年的时间了,这一平台的灵感主要来自数据科学家不断增长的基于Python的开源技术生态系统。现在是让我们来回顾已经取得的进展,同时突出企业在现有 ML 平台上存在的主要问题,并讨论下一代平台会是什么样子的好时机。正如我们将要讨论的,我们相信 ML 平台市场的下一个颠覆将是数据优先的 AI 平台的增长。

这并不是说每个人都欢迎这些工具。尤其是 AutoML ,可能会因为数据科学家不相信该过程的结果,或者可能会因为它的存在而感到威胁而遭到抵制。前者是采用 XAI(可解释AI)与 AutoML 一起协作的绝佳案例,而后者我相信随着时间的推移会逐渐消失,因为数据科学家意识到 AutoML 不是在与他们竞争,而是他们可以用来为业务获得更好更快的结果的东西。没有仔细检查就不应该信任任何东西,但是 AutoML 可以成为一个伟大的工具,用于在一个又一个用例(场景)中工作时自动化和模板化可能会成为一个非常繁琐的过程。

从表面上看,所有这些基于模型的重心的解决方案看起来都很棒。像神奇宝贝一样汇集它们,你就完成了 MLDLC。

然而,将这些解决方案组合在一起也并非没有缺陷,具体如下所示:

  • 集成困难:要执行一个简单的用例,解决方案的 ML 部分需要四个或更多不同的工具。当出现故障时,只能祝您好运。
  • 流水线(Pipeline)丛林仍然存在:可以说,它们比第1代 ML 平台中的情况要糟糕得多。您现在有最初的流水线进入到 ML 平台,以及所有新工具之间更多的流水线。整个系统的流水线就会变得无比冗长,而你可能逐渐迷失在这混乱的丛林中。
  • 与数据平面隔离:这些工具都以模型为中心,并在模型而非数据上运行。您仍然需要像第1代 ML 平台中 Notebook 这样的工具来协作处理任何需要完成的数据工作,因为它们不提供这些功能。
  • 产品是由 API/SDK 组成的复杂网络:第 2 代 ML 平台中的一个现实生产场景是:编写一个生成训练数据的脚本(可能从 Notebook 中编写),通过 API 或 SDK 将生成的 Dataframe 传递到您的 AutoML 框架,通过 API 或 SDK 将生成的模型传递到您的 MLOps 工具,然后通过您的 XAI 框架(如果您有的话)运行它以生成见解。你如何为新数据打分?同样,编写另一个利用更多 API 的脚本。在 Airflow 之类的东西中运行所有这些,或许在您的第1代 ML 平台可能具有调度程序功能。
  • 更难的任务是“留给读者的操作”:特征工程、特征平台(Feature Store)、实体关系映射等……你仍然需要在其他地方做了大量的工作。
  • 需要专家团队:这些工具喜欢宣称,因为它们自动化了流程的一部分,所以它们“使机器学习大众化”,使任何人都可以轻松地自助服务。然而,我还没有真正找到一个将业务环境放在首位、不需要K8s/云工程师、机器学习工程师和数据科学家团队来操作的平台。


值得一提的是,第2代ML平台已经进化:更多成熟的供应商要么在迭代新产品,要么收购初创公司以扩大产品范围。您可以从同一个供应商处购买所有解决方案,而不是从多个供应商处购买多点解决方案,通常被称为“企业人工智能”。不幸的是,结果并没有充分解决上面列出的任何问题,除了可能使集成稍微不那么痛苦。主要的好处实际上就是你可以从同一个供应商那里购买所有亮点的工具,当你开始使用开箱即用的技术时,你很快就会意识到你又回到了原点,试图在几乎没有共同点的产品上建立自己的生产流程。


不要将此与第 3 代 ML 平台的方法混淆,肯定是有更好的办法。

第 3 代 ML 平台:数据优先的 AI

什么是真正的机器学习模型? 如果我们抽象地看待它,它会将数据作为输入并输出预测,并希望还能提供对模型的了解,这样我们就可以评估模型的表现如何。 如果您接受它作为机器学习的范式,那么您的机器学习平台显然需要以数据为中心。 第 1 代 ML 平台和第 2 代 ML 平台不必要地关注该模型内部发生的事情,因此,普通公司几乎不可能将可靠的生产流程串联起来。 但是,通过数据优先的方法,这实际上是可以实现的。

网络异常,图片无法展示
|


值得称赞的是第1代 ML 平台和第2代 ML 平台的方法,没有它们,第3代 ML 平台就不会存在。既是因为它建立在他们建立的一些概念之上,同时,如果没有人们努力使用第一代和第二代工具来实际操作 ML,它可能永远不会出现。数据优先方法的核心是人工智能已经足够先进,您应该能够简单地向您的平台提供一组训练数据,以及少量元数据或配置,并且平台将能够在数小时内创建您的用例并将其部署到生产环境中。无需编码。没有流水线。作为数据科学家,无需使用 DevOps 工具。操作这个工作流程再简单不过了。

这怎么可能?好吧,正如我所说,我们正在构建我们在本文中已经讨论过的许多概念。有以下三个核心要素:

  • 特征平台(Feature Store):注册您的特征和关系。自动化特征工程。与同行合作,这样您就不必在每次需要转换数据时都重新创建轮子。让特征平台弄清楚如何为训练和推理提供数据。
  • 声明式 AI 引擎:提高抽象级别并自动构建模型和生成预测。允许高级用户通过配置自定义实验。
  • 持续的 MLOps 和 XAI:认识到世界不是静止的。自动化模型部署和升级。自动生成模型见解(可解释性)。允许数据科学家充当审查和批准工作的看门人,但将其余工作置于自动驾驶仪上。

如果您想看看这在实践中是什么样子,您可以尝试使用 Continual 构建的数据优先 AI 平台。它位于您的云数据仓库之上,并不断构建预测模型,从不停止从数据中学习。用户可以通过 CLI、SDK 或 UI 与系统进行交互,但生产使用可以通过简单的声明式 CLI 命令轻松操作。


网络异常,图片无法展示
|


我们并不是唯一一个以数据为中心的方法来考虑机器学习的人。 这个想法已经在 FAANG 公司(美国市场上五大最受欢迎和表现最佳的科技股)中流传了好几年,比如 Apple 的 Overton 和 Trinity 以及 Uber 的 Ludwig。 最近一篇关于声明式机器学习系统的文章很好地总结了这些成果。 最近,Andrew Ng 与特斯拉的 Andrej Karpathy 一样对以数据为中心的 AI 进行了反复讨论。 我们预计还会有更多的人上路。我们还认为,声明式数据优先的 AI 是现代数据栈的重要组成部分,它有望降低在云中运行数据平台的复杂性。


下图展示了现代数据栈的如何操作人工智能。

网络异常,图片无法展示
|


数据优先的 AI 是一个令人兴奋的新概念,它有可能极大地简化来操作 AI 并帮助企业推动 AI/ML 对业务的影响。数据优先的人工智能的一些重要性如下:

  • 可靠的路径到生产:通过定义明确的操作工作流程简化生产机器学习。
  • 端到端平台:通过减少集成任务和流水线丛林来加速实现价值。
  • 人工智能民主化:提供一个所有数据专业人员都可以使用的简单系统。并允许数据科学家控制过程。
  • 加速用例采用(选定):在几天内设置生产工作流程,而不是几周或几个月。用更少的资源管理更多的生产功能。
  • 降低成本:少买东西,降低维护成本。

尽管我们相信数据优先平台将成为日常 AI 的主要 ML 平台,但它们并非没有限制。对于真正前沿的人工智能研究来说,可能没有什么可以绕过需要手动工作的事实。对于最具技术性的公司之外的公司来说,这可能不是一个大问题,但在这种情况下,有一个以开发为中心的工具是有帮助的。我们相信,数据优先的平台非常擅长解决 95% 的已知 ML 问题,而另外 5% 可能需要更多的 TLC。然而,我们认为这是一项巨大的改进,让您的 95% 的用例由数据工程师/分析师处理,并由数据科学家进行一些监督,并允许数据科学团队更多地关注困难的 5% 问题。为此,他们需要一个出色的系统(一个数据优先的平台)来自动化一切,并让他们来管理和维护工作流程而几乎不需要任何干预。


什么工具适合您的团队?

我们在本文中涵盖了很多内容,并讨论了很多工具选项。有时,ML/AI 工具环境会让人感到不知所措。数据优先的人工智能方法打破了许多先入为主的观念,人们最好相信它的操纵力。在 Continual,我们坚信 ML/AI 解决方案应该使用您的真实世界用例(场景)进行评估。对于许多解决方案,这可能需要数周或数月的时间,才能暴露出现实中的夸张地宣传。在 Continual 中,我们的目标是让您能够在一天内交付您的第一个生产用例。这就是与您的云数据仓库原生集成的声明式数据优先AI方法的强大之处。

相关文章
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
【5月更文挑战第4天】【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
|
18天前
|
人工智能 测试技术
测试数据不再难,人工智能批量生成给你用!
本文介绍了如何利用ChatGPT生成测试数据。测试数据是验证功能和触发异常场景的关键,设计时需全面考虑等价类、边界值和正交法。实践中,先明确数据类型、格式和需求,然后向ChatGPT提供相关信息。例如,对于只能输入中国手机号的输入框,初始提示可能只包含正常手机号,但应进一步补充异常场景,如非数字、长度错误、非中国号码、特殊字符、空输入等。此外,可通过指定yaml格式来满足代码使用需求。总结来说,生成测试数据需清晰定义需求,拆分任务,并系统测试各种变化。
27 2
|
18天前
|
机器学习/深度学习 SQL 人工智能
人工智能平台PAI产品使用合集之如何通过机器学习PAI 的Alink实现大量数据两两计算相关性
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
18天前
|
机器学习/深度学习 人工智能 运维
人工智能平台PAI 操作报错合集之请问Alink的算法中的序列异常检测组件,是对数据进行分组后分别在每个组中执行异常检测,而不是将数据看作时序数据进行异常检测吧
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
18天前
|
机器学习/深度学习 人工智能 API
人工智能平台PAI 操作报错合集之DSSM负采样时,输入数据不同,被哈希到同一个桶里,导致生成的embedding相同如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
18天前
|
机器学习/深度学习 SQL 人工智能
人工智能平台PAI 操作报错合集之机器学习PAI缺失值补充报错,从odps读取数据正常 进行下一步时,补充缺失值报错如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
18天前
|
数据采集 机器学习/深度学习 人工智能
|
18天前
|
机器学习/深度学习 数据采集 人工智能
|
18天前
|
人工智能 分布式计算 Kubernetes
人工智能,应该如何测试?(三)数据构造与性能测试篇
本文探讨了人工智能场景中的性能测试,区别于传统互联网测试,其复杂性更高。主要关注点包括两类AI产品——业务类和平台类,后者涉及AI全生命周期,测试难度更大。测试重点是模型训练的性能,特别是数据模拟。需要构造大量结构化数据,如不同规模、分布、分片和特征规模的数据,以评估算法效率。此外,还涉及模拟设备规模(如视频流)和节点规模(边缘计算),以测试在大规模负载下的系统性能。文中提到了使用工具如Spark、ffmpeg、流媒体服务器和Kubernetes(K8S)的扩展项目,如Kubemark,来模拟大规模环境。最后,文章介绍了使用Golang进行异步IO操作以构建海量小文件,优化IO性能。
238 0
|
18天前
|
数据采集 机器学习/深度学习 人工智能
用人工智能和missForest构建完美预测模型,数据插补轻松驾驭
用人工智能和missForest构建完美预测模型,数据插补轻松驾驭
91 1