事实表明糟糕的数据将会扼杀优秀的人工智能

简介: 本文介绍了有助于确保企业的人工智能系统不会由于数据质量问题而受到阻碍的五个规则。

数据科学家指出,数据准备对于任何一个人工智能系统的成功都至关重要。即使是最好、最复杂的分析技术采用低质量、集成度低、设计草率或基本上不相关的数据,最终的结果也是不可靠的。


分析和探讨人工智能和机器学习用途的文章有很多,但关于人工智能系统基础——高质量的数据的文章则很少。以下介绍有助于确保企业的人工智能系统不会由于数据质量问题而受到阻碍的五个规则。





规则1.少即是多


有些企业很难知道哪些数据对其业务重要,所以使用尽可能多的数据构建人工智能系统,人们会发现重要的见解隐藏在其中。但是,企业的人工智能系统采用大量无关或糟糕的数据,最终将面临失败。一篇名为《机器学习系统中隐藏的技术债务》的文章指出,未充分利用的数据、提供很少或没有增量收益的数据,将使人工智能系统受到不利的影响,其后果有时是灾难性的。剔除无关数据使人工智能系统更易于测试、运行、扩展和维护。


企业遇到的问题是——哪些数据子集是包含所有或几乎所有信号的精简数据集?这可能不容易确定。有一些数据科学技术可以确定特定数据功能的重要性,但它们不一定能说明全部情况。虽然有些数据可能非常重要,但仅限于某些情况。或者一些数据可能只有在与其他数据结合使用时才重要。弄清楚使用哪些数据以及要消除哪些数据是一个棘手但关键的步骤,在企业急于实现人工智能的过程中,这一步常常被忽略。





规则2.仔细寻找数据来源


在设计人工智能解决方案的原型或创建实验时,数据通常有着不同的来源。数据集成和准备可能是临时的,只要人工智能系统做好了准备,企业就可以利用适合其目的的所有自动化和控制来实现特定的流程工业实力。


在某些情况下,人工智能开发人员从更加简单便捷的来源获取数据,但这不一定是最好的来源。例如在一个案例中,开发了一个来自未经协调和处理的数据模型,其结果证明该模型与公布的财务数据完全不一致。对于概念证明,这样的错误可能是可以接受的。但在实施之前,其数据应该来自支持良好的平台,这些平台需要具有控制能力强、可靠性和可用性高的特点。


通常情况下,必须将来自不同来源的数据汇集在一起,然后为采用人工智能的目的进行整合和组合。考虑这些组合来自不同系统的客户数据、产品数据和交易数据。将这些数据放在一起进行建模是一个重要的步骤。这可能会以快速的方式进行实验,但在实施之前,需要对流程进行适当的设计和测试。


然而在设计良好的人工智能系统之前,允许使用实验人工智能系统的诱惑是强烈的,必须加以抵制。当然,只是定期使用的人工智能(例如用于月度报告)可能需要更少的数据,以便在业务运营中持续使用。人工智能的高风险使用(例如损失预测、信贷批准、欺诈检测)比低风险使用(例如营销活动、客户细分、潜在客户优先级)要求更严格。





规则3.确定数据良好的程度


在商业环境中,完美的数据是罕见的。因此,不可避免地存在需要修补数据中的漏洞、需要清理的数据中的错误或需要在使用前解决不一致的问题。


数据达到100%准确率的成本可能很高,有时甚至无法实现。但在某些情况下则要求完全准确,例如使用人工智能来预测贷款损失,那么其记录贷款损失的历史数据最好是100%完整的。但对于欺诈检测模型来说,如果额外的2%的数据会阻碍模型的实施,那么达到98%的准确率就足够了,这将为企业减少大量欺诈损失。对于市场营销而言,85%的准确率已经足够了。


企业需要决定数据质量良好的程度。但需记住的是,这是一把双刃剑。建立在低质量数据上的人工智能系统最终在使用中变得不可靠,但也看到模型风险管理阻碍了人工智能模型的实施,因为数据质量问题影响人工智能的价值的情况令人担忧。


每个用例都有所不同,在确定数据良好的过程中必须有一些步骤明确声明数据质量级别。并且需要实施控制措施(例如数据质量指标),以证明已达到阈值或在低于某些最低质量标准时发出警告。





规则4.管理变化


更多的模型由于数据变更管理不善而失败,而不是其他原因。数据中的某些意外变化或数据在某处中断,将导致人工智能会产生不可靠的结果,有时甚至非常糟糕。


大多数企业都制定了数据变更管理流程。这一流程旨在传达和分析数据更改的影响。但人工智能系统的应用让这变得更加困难。人工智能和数据管理交织在一起;数据可以影响人工智能,人工智能也可以影响数据。在通常情况下,数据变更管理由企业首席数据官负责,人工智能变更管理由首席分析官负责,或者模型风险管理由首席风险官负责,而这些部门并没有充分或有效地沟通。


数据变更管理和模型变更管理必须紧密联系在一起。必须分析数据更改对人工智能的潜在影响,并且必须分析人工智能更改对其数据输出的消费者的潜在影响。这两者都不能孤立地进行管理。


还有两种方法可以处理这个问题:一种选择是将数据变更管理和模型变更管理合并在一起,但这对大多数企业来说难以做到。第二种选择是制定正确的政策和程序,例如在实施之前分析数据更改对人工智能的潜在影响。


为此,必须有一个完整的人工智能注册表,其中包括人工智能使用的数据信息(模型元数据)。否则几乎不可能确定哪个人工智能受到数据更改的影响。同样,模型风险应该是一个因素,与只影响低风险模型的数据更改相比,高风险模型将得到更严格的潜在影响分析。





规则5.建立警报系统


数据的质量问题可能并不明显,而且数据流从表面上看似乎都在正常运行。如果没有设计良好的警报系统,数据问题可能会被忽视。例如一家银行的信用模型运行了数周时间,但在任何人意识到出现问题之前就已经丢失了关键数据。


即使是细微但出乎意料的数据变化也可能导致模型性能下降。更糟糕的是由于流程故障而突然丢失数据,这样的事件很常见。


被忽视的数据问题比快速发现的数据问题造成的损害更大。例如,证券定价错误可以通过多个系统蔓延,并且持续的时间越长,修复起来就越困难,成本也越高。建立正确的警报系统,可以发现数据问题并采取行动,降低因数据处理中断而导致人工智能系统故障的风险。


这需要采用正确的工具。现有的应用程序监控系统通常不足以监控数据流。它们甚至可能提供虚假的安全感,表明一切正常,而实际上企业的数据中存在重大漏洞或高度异常的情况。企业可以从简单的数据质量指标开始,例如完整性检查(是否获得了所有数据?)和一致性检查(是否与总账或基础贷款或存款系统等记录系统相匹配?)。


当出现问题时,企业需要制定故障转移计划,例如在研究和纠正错误时暂时让人工智能离线运行。





结语


数据是优秀人工智能系统的重要基础。数据科学家通常不会独自承担上述所有任务。他们需要来自数据治理、数据工程和IT团队的正确支持。采用正确的控制措施,可以帮助企业避免在人工智能系统由于无法预见或未被发现的数据问题而出现的严重错误。

相关文章
|
5月前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5月前
|
数据采集 人工智能 自然语言处理
GPT被封锁了怎么办?轻松获取高质量的数据,训练自己的人工智能和大语言模型。
2023年标志着AI大模型时代的到来,GPT-4等模型在多个领域展现巨大潜力。然而,OpenAI对中国区服务的限制提出了挑战。本文探讨如何使用亮数据代理获取训练大模型所需的数据,包括确定目标、选择代理、数据抓取、清洗,并以西方历史为例,展示如何使用亮数据的静态住宅代理稳定获取DE区域数据,最终在国产AI平台上训练模型,提升知识库的丰富度和准确性。尽管面临外部障碍,但自主获取和训练数据能增强本土AI能力。
|
5月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI使用问题之如何在MaxCompute上使用Protobuf处理数据
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI使用问题之如何实现数据在MaxCompute中是永久的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
6月前
|
机器学习/深度学习 人工智能 前端开发
人工智能平台PAI产品使用合集之创建了实时特征视图,里面的数据是通过什么传入的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
6月前
|
机器学习/深度学习 人工智能 监控
人工智能平台PAI产品使用合集之设置了7个特征,但在最后生成的数据表中只包含了6个id_feature的特征,是什么导致的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5月前
|
存储 人工智能 安全
人工智能浪潮下的数据隐私保护技术
在大数据与人工智能(AI)的高速发展中,数据隐私保护成为亟待解决的关键议题。本文将探讨当前AI时代下数据隐私保护的技术手段及其面临的挑战,并分析未来发展趋势。文章首先介绍数据隐私的重要性和当前面临的风险,然后深入讨论加密技术和匿名化处理等保护措施,最后评估这些技术的有效性及潜在的改进方向。
197 0
|
6月前
|
机器学习/深度学习 人工智能 算法
人工智能伦理:机器学习中的数据偏见与公平性挑战
在机器学习领域,算法的公正性与透明度日益成为社会关注的焦点。本文深入探讨了AI系统在处理数据时可能遇到的偏见问题及其对社会公平性的影响。通过分析具体案例和最新研究成果,本文揭示了数据偏见如何影响算法决策,并提出了减轻这些偏见的策略。文章呼吁开发更加负责任的AI系统,以促进技术与社会价值的和谐共存。
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
【5月更文挑战第4天】【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
|
7月前
|
人工智能 测试技术
测试数据不再难,人工智能批量生成给你用!
本文介绍了如何利用ChatGPT生成测试数据。测试数据是验证功能和触发异常场景的关键,设计时需全面考虑等价类、边界值和正交法。实践中,先明确数据类型、格式和需求,然后向ChatGPT提供相关信息。例如,对于只能输入中国手机号的输入框,初始提示可能只包含正常手机号,但应进一步补充异常场景,如非数字、长度错误、非中国号码、特殊字符、空输入等。此外,可通过指定yaml格式来满足代码使用需求。总结来说,生成测试数据需清晰定义需求,拆分任务,并系统测试各种变化。