以数据为中心的人工智能应该如何实施(Valohai)

简介: 如果你关注业界的大佬,你可能已经注意到吴恩达在以数据为中心的人工智能方面的竞赛,这是今年的趋势。我们(Valohai 和 Ingedata)非常高兴,经过十年的大肆宣传,终于可以适当地关注数据、其有效性和可靠性,首先是大数据,然后是机器学习模型和人工智能系统。每个人都知道这一点;数据,尤其是其质量是最重要的。大多数数据集并没有那么大,而好的旧逻辑回归将在大部分时间发挥作用,产生可解释的结果。

什么是以数据为中心的人工智能?

“数据是 AI 的食物”是 Andrew Ng 在今年许多帖子和材料中使用的一句话。他的意思是,你训练模型所用的是模型实际可以做的事情。这与伦理的讨论密切相关;您的模型是否有偏见取决于您的训练数据以及是否是故意的。与您拥有的数据相关的事实,即使不是最多,至少也接近于您在创建 AI 系统时拥有的最有价值的资产。

与此相关的是,你拥有的数据,如果不是最多的,至少接近于你在创建人工智能系统时拥有的最有价值的资产。


Ng说:我们缺少的是一个更系统的工程学科,即处理好的数据,为 AI 系统提供信息。我认为这是实现人工智能民主化的关键。

除了数据的相关性之外,根据多项调查(福布斯和 Datanami)以及我自己的经验,数据科学家大部分时间都花在与数据准备相关的任务上。 围绕 AI 和机器学习讨论的研究和主题的重点也应该以这种方式成比例。 但事实并非如此。 只有 1% 的人工智能研究专注于数据。

网络异常,图片无法展示
|


MLOps 就是将数据科学转变为可重复的工作流程。 如果您开始拆分工作流,您会注意到大约 80% 的工作流倾向于关注与数据相关的事情。 在构建机器学习管道时,没有理由将重点放在不同的地方。

那么在实践中,你能做些什么来拥抱更多以数据为中心的人工智能呢? 我们准备了一些简单的步骤供您牢记和实施。

以数据为中心的 AI 应遵循的经验法则

无论您是处于为手头的问题构建第一个数据集的阶段,还是已经建立了 ML 管道,请检查这些步骤并将您的思维从以模型为中心的 AI 转移到以数据为中心的 AI

您的数据集应该由领域专家创建

您的问题和解决方案(即数据集)应该由领域专家反复定义。最常见的怀疑是,数据科学家只是获取数据并在其上撒一些飘逸的尘土。但是数据科学家是以适合机器学习模式的格式表示您的世界的专家,而不是业务领域的专家。

您需要知道特定(业务)问题的现实是如何用数据表示的。如果还没有可用的数据,或者发明方法。

举个简单的例子,营销经理想从图像中检测圣诞树,并要求数据科学家建立模型。如果没有进一步的定义,数据科学家可以开发一个只有真正圣诞树的训练集。但也许营销经理也想识别形状像圣诞树的产品,而不仅仅是圣诞树。

网络异常,图片无法展示
|


您的数据集应该回答手头的任务。 例如,您的模型的目的是对严格定义的对象或具有模糊特征的对象进行分类吗?

使用监督学习,您需要定义自变量和因变量,即现代术语中的输入和输出。在这个例子中是一组图像和它们的标签。或者,如果您使用的是无监督学习,则更重要的是,您必须明确定义问题并用数据表示,即只有圣诞树的数据集,而不是图像中的周围环境或其他装饰。

一个很好的开始方法是使用设计和 Scrum 中的工具,与领域专家一起定义您试图通过数据科学解决的问题。在创建准备好建模的数据集的过程中,创建反馈循环和迭代数据至关重要。

您的数据集应该足够了

人们需要有足够的数据来从数据中学习模式并稳健地进行操作,从而消除现实生活中不可避免地存在的随机噪声。足够仍然不是更多数据的同义词。

假设您有一个包含 10 张图像的数据集。其中七幅图像仅代表圣诞树,三幅是一些带有灯光的树。如果您使用此数据集训练模型,该模型将创建一个 30% 的时间存在异常的世界,即它会检测到任何带有灯光的物品。但是,如果您只是不考虑噪音,您最终可能会得到一个过度拟合的模型,该模型的范围太窄而无法在现实生活中工作,即只有树木和灯光的特定形状和样式。最好的解决方案是让模型学习更多“正常”示例。


网络异常,图片无法展示
|


什么是足够的数据集完全取决于模型的接受标准。

根据一些观察,我们不能说太多,但是有多少就足够了?这是对商业足够好的定义和统计意义。如果您的模型以 50/50 的几率从图像中预测圣诞树,那并不比随机选择图像更好。但是 60/40、70/30 或 99/1 是否足够?好吧,这取决于您要解决的问题。下定义这又是与领域专家的联合运用。

您还可以使用样本量计算器中的想法来定义计算组间统计差异的足够数量。或者考虑进行 A/B 测试,它可以让您查看是否有实际证据表明这些测试是不同的,并且尝试预测某些事情是有意义的。

您的数据集应该具有代表性

所以你找到了一个完美的数据集,代表了领域专家要解决的问题。好的,现在是时候检查它是否也代表现实世界,即将您的数据与现实世界进行比较。

像描述性统计这样的好旧工具可以让您在数值数据方面走得更远,但您也可以将其中的一些用于图像。如今,您不必手动检查数据,因为有工具可以可视化您的数据并计算 KPI 以防止可能的漂移。

例如,您可以使用库,例如:pandas 分析等。或者,如果您深入了解 MLOps 世界,您可以使用可观察性工具(例如:WhyLabs)自动跟踪数据集,该工具提供了自动描述数据集的数据跟踪工具。您可能想查看我们关于Whylabs 的文章。

对于我们的圣诞树示例,也许您想按照此示例检测分辨率、方向或亮度。

网络异常,图片无法展示
|


如果您希望您的主题始终畅通无阻、光线充足且清晰对焦,您的数据集看起来会大不相同。请记住,当您的模型在实际使用中时,这些标准可能会发生变化。

代表第 0 天真实世界的数据集将来可能无法表达它,这就是为什么检查漂移是一个连续过程的原因。基础数据的更改会提示您创建新版本的训练数据集并重新训练模型。这意味着您需要观察已经在生产中的解决方案。您可以在我不久前写的另一篇博文中阅读更多关于可观察性实践的信息。

此外,如果您考虑重新训练您的模型,请查看此信息图并进行一些探索。

您应该承认数据集中的偏差

这与代表性数据集密切相关,但我想给予额外的关注。您的数据集有偏见。总是这样的。因为您定义的问题是人为的,所以您的数据也可能会由人来管理和标记。这只是您需要接受并瞄准偏见较小的数据集的事情。

网络异常,图片无法展示
|


根据谁组装和标记数据集,您的数据集看起来会有所不同。注意自己的偏见。

首先是检查你的偏见。由于您可能对此一无所知,因此减少数据集偏差的一个好方法是使用两个独立的标签器来标记您的数据集,最好即使具有不同的背景。例如,您的领域专家可能只喜欢经典的白光圣诞树而忽略带有蓝光的圣诞树,或者给出“丑”、“小”或“漂亮”的标签。

有偏见的数据集会导致有偏见的预测,并且根据场景的不同,偏见的影响可能是非常有害的。特别是在金融和医疗保健领域,监管机构正在意识到算法偏见的威胁(通常直接来自有偏见的数据集),这往往会对已经处于不利地位的人产生负面影响。


将业务专业知识、代表性和偏见知识与大量数据相结合

Ingedata 的 Jean-Emmanuel Wattier 解释说:

准备大型训练集意味着访问领域专家、了解数据集偏差和确保代表性的额外挑战。虽然管理数百个数据点是可以的,但当有数千个数据点时,如何确保正确准备好训练数据?领域专家是关键,但他们也是稀缺资源。因此,吸引、联合和留住他们需要团队管理技能,而这些技能在机器学习管道的其他阶段并不那么重要。

举个例子:Ingedata 的一个客户开发了一个人工智能模型来检测肝脏图像中的肿瘤。建立训练集需要世界上最稀缺的资源之一:放射科医生。

首先,确保他们的福祉和专业发展的强有力的 CSR(企业社会责任)方法对于吸引他们至关重要。

其次,管理在医院忙碌的人需要与您招募数据科学家或机器学习工程师不同的技能。

这就是为什么他们需要 Ingedata 在短时间内部署一个放射科医师团队,并采用灵活的方法根据他们不断变化的需求调整解决方案,同时保持最高级别的安全性。

由于放射科医生的成本很高,因此工作流程决策由原型验证,以确保他们的每一分钟时间都是值得的。该原型确认质量控制、数据代表性和报告方法与要准备的数据量和领域专家的可用性保持一致。

这种情况不仅发生在健康行业,还发生在地球观测、工业、时尚和智慧城市。您想从数据中提取的见解越多,特定领域的专业知识越多,这些挑战就越大。


总结

拥抱以数据为中心的 AI 只需像您对机器学习模型所做的那样,专注于完善与数据相关的流程和步骤。数据是人工智能系统的 80%,因此是任何领域或组织的战略资产。通过添加一些可观察性、MLOps 实践以及在循环中包含该领域专家,以当之无愧的关注设置您的数据工作流程会产生巨大的影响。


相关文章
|
4月前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
数据采集 人工智能 自然语言处理
GPT被封锁了怎么办?轻松获取高质量的数据,训练自己的人工智能和大语言模型。
2023年标志着AI大模型时代的到来,GPT-4等模型在多个领域展现巨大潜力。然而,OpenAI对中国区服务的限制提出了挑战。本文探讨如何使用亮数据代理获取训练大模型所需的数据,包括确定目标、选择代理、数据抓取、清洗,并以西方历史为例,展示如何使用亮数据的静态住宅代理稳定获取DE区域数据,最终在国产AI平台上训练模型,提升知识库的丰富度和准确性。尽管面临外部障碍,但自主获取和训练数据能增强本土AI能力。
|
4月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI使用问题之如何在MaxCompute上使用Protobuf处理数据
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI使用问题之如何实现数据在MaxCompute中是永久的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5月前
|
机器学习/深度学习 人工智能 前端开发
人工智能平台PAI产品使用合集之创建了实时特征视图,里面的数据是通过什么传入的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5月前
|
机器学习/深度学习 人工智能 监控
人工智能平台PAI产品使用合集之设置了7个特征,但在最后生成的数据表中只包含了6个id_feature的特征,是什么导致的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
存储 人工智能 安全
人工智能浪潮下的数据隐私保护技术
在大数据与人工智能(AI)的高速发展中,数据隐私保护成为亟待解决的关键议题。本文将探讨当前AI时代下数据隐私保护的技术手段及其面临的挑战,并分析未来发展趋势。文章首先介绍数据隐私的重要性和当前面临的风险,然后深入讨论加密技术和匿名化处理等保护措施,最后评估这些技术的有效性及潜在的改进方向。
183 0
|
5月前
|
机器学习/深度学习 人工智能 算法
人工智能伦理:机器学习中的数据偏见与公平性挑战
在机器学习领域,算法的公正性与透明度日益成为社会关注的焦点。本文深入探讨了AI系统在处理数据时可能遇到的偏见问题及其对社会公平性的影响。通过分析具体案例和最新研究成果,本文揭示了数据偏见如何影响算法决策,并提出了减轻这些偏见的策略。文章呼吁开发更加负责任的AI系统,以促进技术与社会价值的和谐共存。
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
【5月更文挑战第4天】【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
|
6月前
|
人工智能 测试技术
测试数据不再难,人工智能批量生成给你用!
本文介绍了如何利用ChatGPT生成测试数据。测试数据是验证功能和触发异常场景的关键,设计时需全面考虑等价类、边界值和正交法。实践中,先明确数据类型、格式和需求,然后向ChatGPT提供相关信息。例如,对于只能输入中国手机号的输入框,初始提示可能只包含正常手机号,但应进一步补充异常场景,如非数字、长度错误、非中国号码、特殊字符、空输入等。此外,可通过指定yaml格式来满足代码使用需求。总结来说,生成测试数据需清晰定义需求,拆分任务,并系统测试各种变化。