人工智能内部原理(二)(1)

简介: 人工智能内部原理(二)

第十一章:下一代 AI

本章涵盖了

  • 为 AI 模型准备数据的建议
  • 用于何种技术的建议
  • 下一代 AI 系统应该具备的属性
  • 关于未来 AI 系统应该支持的思考

构建未来的 AI 解决方案要求我们解决当今系统中的当前限制。本书的一个关键目标是提供对当前 AI 状态的清晰和诚实的评估,因为只有了解我们今天的状态,我们才能制定出一个现实的未来道路。尽管媒体对 AI 的描述往往倾向于耸人听闻,但我的目标是提供一个平衡的观点。许多我们今天发现令人兴奋和创新的技术实际上已经在开发了半个多世纪。尽管还存在挑战,如效率、成本效益和适应性,但它们为我们继续这段令人兴奋的 AI 之旅提供了增长和改进的机会。

在本章中,我借鉴了超过 30 年的开发和部署关键任务的 AI 系统的经验,其中可靠性、精确性和效果不仅仅是雄心壮志,而是必须的。我将概述一组特性,我认为将标志着下一代 AI 平台的特征。我的例子大多涉及临床推理和金融交易,因为这些是我广泛参与的领域,但这些愿望普遍适用于大多数类型的 AI 平台。我们正在努力实现这样一天,企业可以轻松部署可扩展、有韧性、适应性强的 AI 系统,其功能比今天可用的系统更多,缺陷更少。

11.1 数据灵活性

商业应用经常需要访问来自不同来源的数据。现实世界的数据可以以结构化或非结构化格式出现,并且可能以各种方式存储。考虑一下医疗保健领域的 AI 应用;它可能需要利用诸如医生的笔记、放射学图像、电子健康记录、已建立的最佳实践、解剖数据、生物传感器和实验室结果等来源。有效的 AI 系统必须能够高效地访问和利用所有相关资源。

11.2 采样

在商业世界中,数据集通常达到令人震惊的规模。探索纽约证券交易所一年的交易数据、一年的社交媒体数据或沃尔玛等零售商一年的交易数据可能涉及处理数千亿数据点。在如此庞大的数据上训练 AI 模型可能是一个艰巨的过程,可能需要大量时间而永远不会收敛。为了加速这一过程,并促进多个模型的开发和测试,AI 系统应该提供各种数据采样方法。

最直接的方法是随机抽样,其中每个数据点被选中的机会相等。然而,在某些应用中,数据可以被分类不同,每个类别可能希望被平等地代表。每个业务应用都需要其自定义的抽样解决方案。例如,在欺诈防范中,抽样可能需要以足够捕捉特定行为或确保样本的某些属性遵循特定分布的方式进行。抽样方法的选择具有重要意义。例如,通过对其交易进行随机抽样来有效了解持卡人行为是不可能实现的。

11.3 消除无关紧要的属性

许多数据集包含冗余或无关紧要的属性。因此,一个设计良好的 AI 系统应该包含检测和消除这些不必要信息的功能。这个过程简化了模型的设计和测试,使其更加高效,更不易受到过拟合的影响。例如,如果某个特定属性的大部分值都缺失,那么它可能对模型没有意义,无论其潜在相关性如何。在某些情况下,某些数据,例如邮政编码或电话号码,可能会引入偏见到模型中,应该省略。

从数据集中消除冗余和无关紧要的属性对优化 AI 系统的性能至关重要。冗余属性引入噪声和复杂性,使模型更难以辨别有意义的模式,而无关紧要的属性则可能导致过拟合。消除这些无关紧要的特征使模型更加高效,最终提高了预测准确性。此外,它增强了模型的泛化能力,减少了计算复杂性,从而缩短了训练时间,提高了资源利用效率。

11.4 数据的一致性

数据通常是复杂且无结构的,来自不同格式的不同来源,并且可能包含缺失或错误的值。数据的实例可能部分重叠,甚至相互矛盾。数据集内或不同数据集之间可能存在不一致、矛盾或差异,这是由于数据点或记录之间不对齐或不一致造成的。这可能是由于多种原因引起的,包括数据收集错误、数据输入错误、数据合并问题或随时间变化的数据来源。数据不一致性削弱了数据的质量和可靠性,使其难以有效地用于分析、机器学习或决策。

检测和解决数据不一致性对于确保准确可靠的数据驱动过程和模型至关重要。在 AI 系统中解决数据质量问题远远不止于应用公式、查找和替换值或对数据进行排序和整理这样简单的方法。训练 AI 系统时避免标签错误也是至关重要的。例如,一个基于错误标记数据训练的医疗诊断系统可能会导致一些疾病未被治疗,同时让健康的个体接受不必要的医疗程序。一个有效的 AI 系统应该有机制来标记潜在的标签问题。此外,AI 模型必须准确反映系统将遇到的真实世界数据。如果系统是基于精心清理的数据进行训练的,但在生产环境中遇到不完整或不一致的样本,错误很可能会发生。

11.5 数据和算法中的缺乏偏见

社会由来自不同背景、生活在各种社会经济条件下的个人组成,每个人都拥有独特的优势和劣势。AI 模型必须承认并考虑到这种多样性,避免无意中偏向或歧视特定个人或群体的评估或建议。建立在人类程序员创建的逻辑之上的算法可能携带有意识或无意识的偏见,导致意想不到的后果。此外,如果用于训练模型的数据未提供代表性样本,偏见可能会在系统内部根深蒂固。

一个相关的例子是 2020 年英国的 A-level 评分争议,这清晰地展示了偏见如何无意间进入计算机程序。这些考试类似于美国的 SAT 和 ACT,对大学入学起着至关重要的作用。针对 COVID-19 的社交距离措施,2020 年的考试被取消,一个算法被用来生成估计分数。该算法利用了看似合理的参数,包括学生在相关课程中的学校成绩和他们学校学生的历史 A-level 考试表现[1]。然而,近 40%的学生收到的分数比他们和他们的老师预期的要低。批评者指出,该算法对私立学校的学生存在一种内置的偏见。虽然私立学校的学生平均来说考试成绩较高,但该算法可能会给一个来自公立学校的成绩优秀的学生分配一个比起一个客观上较弱的私立学校学生分数更低的分数。这一结果显然与预期的目标相矛盾。最终,算法生成的分数被丢弃,改为使用学生老师评估的分数。

在执法部门的人脸识别系统或房屋抵押贷款中的贷款审批系统等应用中,消除偏见至关重要。已制定正式规则和法规以保护个人权利,侵犯规定将受到严厉制裁。人工智能系统应该有机制审查预测和决策中的偏见。

11.6 特征工程

特征工程是机器学习项目中最关键的步骤之一。它涉及从原始数据中选择、转换和创建相关特征或变量的过程,以增强机器学习模型的性能。它在设计强大人工智能模型中是关键步骤,因为所使用特征的质量和相关性直接影响模型学习和准确预测的能力。由于每个企业都有自己独特的特点,通常需要领域专家来定义规格、描述背景和标记异常。例如,投资分析师会知道股市存在季节性变动和每周和每季度末出现的预期但不可预测的波动。夏季交易活动较少,而到年底由于税收原因交易活动加剧。信用卡行业的专家也会发现季节模式,但他们可能还会了解按日、按周和按月滚动支出率的数据丰富潜力。

即使有些模式很容易理解,也有一些可能不那么清楚。即使我们知道其存在,这些模式也可能更难弄清楚。例如,卡交易可能会根据考虑地理属性、现金回馈请求、退款请求和手动数据输入需求的算法分组。对于医学数据,也可能存在使趋势难以看清的偏斜。

下一代人工智能系统应该自动化模型构建中至关重要的特征工程步骤。这将显著加快开发速度,并使这些系统变得极其高效。

11.7 技术组合

人工智能包括一系列技术和方法,每种技术都有其自身的优点和缺点。下一代解决方案应该结合各种人工智能技术,就像第 2 和第三章中描述的那些。就像征求多样化专家意见能够提高项目的效力和效率一样,结合多种人工智能技术的人工智能系统可以从各种技术的优点中受益。例如,在开发用于欺诈预防的人工智能模型中整合数据挖掘、基于案例的推理、模糊逻辑、深度学习、遗传算法、基于规则的系统和智能代理代表了防止欺诈活动的一大飞跃。

这些技术的组合赋予系统无与伦比的分析能力。数据挖掘使得从庞大复杂的数据集中提取有意义的见解成为可能,从而可以识别出欺诈行为的微妙模式。案例推理通过借鉴历史案例来对新出现的威胁做出明智的决策。模糊逻辑处理与欺诈检测相关的固有不确定性和不精确性,增强了系统的适应性。深度学习在捕获数据中的复杂关系方面表现出色,而遗传算法优化模型的参数。基于规则的系统为决策提供了透明且可解释的框架,有助于解释模型的输出。最后,智能代理实现了实时监控和自适应能力,允许针对新威胁迅速采取行动。这些人工智能技术的组合导致了一种欺诈预防解决方案,该方案不仅高度准确和适应性强,而且能够在不断演变的欺诈活动格局前保持一步领先。

11.8 无监督学习

在 2019 年,埃隆·马斯克(Elon Musk)发推强调了无监督学习对于人工智能未来的重要性。马斯克最初在 2015 年声称自动驾驶车辆将在几年内征服任何道路,但后来在意识到监督学习方法的局限性时改变了主意。他表达了以下观点,

为了实现无人驾驶、泛化、完全自主驾驶,必须解决现实世界中的大部分 AI 挑战,因为我们整个道路基础设施都是为配备光学传感器的生物神经网络而设计的。

的确,虽然监督学习在通过标记数据集训练 AI 模型方面发挥了重要作用,但这种方法在现实世界中面临着实际挑战,主要是由于大型高质量数据集的稀缺性,以及标记数据的任务通常困难且昂贵。相比之下,无监督学习赋予了 AI 系统在没有明确指导的情况下学习数据中的模式、关系和结构的能力。这种能力对处理各种领域中遇到的未注释信息的复杂性和多样性至关重要。

11.9 人工智能工厂

目前,人工智能的利用受到一定限制,主要是由于实施人工智能所需的大量资源和高级技术专业知识。这些先决条件通常只有大型企业和具有重要财务和人力资源的学术机构可以掌握。下一代人工智能平台转型正在视野范围内,因为我们正朝着成熟的解决方案前进,这些解决方案使人工智能民主化,最终使其强大的功能对各种规模的公司都可获得。

当我们将亨利·福特的创新思维与之相提并论时,亨利·福特通过在流水线上引入大规模生产零部件和简化汽车组装为重复任务而彻底改变了汽车制造业,从而清楚地表明我们应该采用“人工智能工厂”方法。例如,一个模块自主评估数据源,提取和清理相关数据。第二个模块负责丰富这些数据,而第三个模块专注于创建和优化模型参数。另一个模块负责训练大量模型,而另一个模块则专门用于测试和评估这些模型。另一个独立的模块可以擅长于组合最有效的模型,构建一个可供生产使用的人工智能解决方案。此外,其他模块可以在确保模型治理和处理特殊功能(如网络安全)方面发挥关键作用。

人工智能的民主化将导致一个新时代的到来,在这个时代,人工智能将成为更广泛范围专业人士的可访问工具,改变企业和组织使用其能力的方式。

11.10 质量保证

质量保证涉及确保系统按预期运行。在处理人工智能系统时,由于其内在的不可预测性,这项任务变得复杂。在传统软件中,我们可以使用图表和代码分析来理解和验证其行为。然而,人工智能系统提出了一个挑战,因为它们的运行依赖于人类不容易识别的复杂数据模式。通过试错来微调参数不能增加对监督学习程序的信任,而无监督学习更加不确定。通常情况下,无监督算法只能通过其性能来验证,因为没有正式的度量标准或标记样本可用。

下一代人工智能应依赖于专门为人工智能设计的专用质量保证协议。测试应该在模型开发的每个阶段进行,涵盖数据完整性、性能、适应性和对意外情况的弹性等方面。应使用多样化的数据集来评估系统的多功能性,并且我们应有意引入新颖的数据和错误进行广泛测试。即使在多个地理位置镜像时,也应测试关键任务系统以防止受到攻击的安全性,以及应对诸如停电等场景的弹性。

11.11 预测可靠性

任何有效的人工智能系统的基础在于其提供精确预测的能力。为了突出不可靠的人工智能性能的后果,让我们以交易处理领域的一个例子为例。全球支付咨询公司 CMSPI 发现,如果人工智能系统表现不佳,它会严重影响企业和经济 [3]:

据美国人口普查局报道,2020 年美国的在线消费比前一年大增了 1937 亿美元。虽然这一涌现的在线商业应该使零售商受益,但出乎意料的是,由于在线空间的批准率降低,导致了大约 300 亿美元的销售机会流失。为了让这个数字更具有说服力,可以考虑一个年销售额为 100 万美元的小企业进入在线市场。与其仅仅在实体店销售上损失 30,000 美元相比,这家企业在线上可能会看到高达 150,000 美元的合法交易被拒绝。

在线交易拒绝在防止欺诈活动方面发挥着关键作用。然而,CMSPI 的数据分析显示,每五个被拒绝的交易中就有一个是错误的,这意味着真实的客户被不公正地拒之门外。更令人不安的是,超过一半这些被错误拒绝的客户随后将他们的业务转移到了竞争对手。事实上,错误地将合法交易识别为欺诈行为的系统构成了一个严峻的挑战。这导致了一个双输的局面,客户感到不满,企业则遭受了失去客户和潜在利润的双重打击。

这凸显了欺诈检测系统具有两个基本属性的关键需求:对实际欺诈活动具有高检测率,对合法交易的误报率要极低。这种要求并不仅限于支付处理领域;它适用于各种领域。因此,提供可靠的预测能力对于任何 AI 解决方案来说都是一项必不可少的需求。

11.12 有效的数据存储和处理

传统数据库在应用于实时 AI 应用时面临重大挑战。它们的表格数据结构难以处理复杂性,限制了它们用于 AI 任务的适用性。此外,这些数据库在处理 AI 算法要求的复杂计算和查询时遇到困难,通常导致响应时间缓慢。随着 AI 数据集的增大,数据库在横向扩展以满足加快处理速度和容量需求方面遇到了困难,而实时信用卡授权中的防欺诈等需要低响应时间的应用对此格外关注。

例如,我们对于一个 AI 风险评分系统的要求是,它可以以每秒超过 50,000 笔的速率处理每年超过 1000 亿笔交易,并且响应时间为 5 毫秒。该系统需要分析数百个变量和约束,并在每个交易的多个时间框架内汇总数据。在这种约束下,即使使用最先进的硬件和编程技术,数据库也是不切实际的。为了克服这些障碍,需要使用分布式文件系统和专门的数据处理框架等替代技术。

11.13 部署性和互操作性

AI 平台应该具备与各种软件和系统无缝接口的基本能力,从而确保组织能够充分利用 AI 的潜力。这不仅限于简单的集成;它包括了简化工作流程和实现数据交换的能力,同时最大限度地减少运营复杂性和成本。此外,强大的 AI 平台还应提供动态模型部署的灵活性,使组织能够在不干扰系统运营或工作流程的情况下,将新的或更新的 AI 模型纳入其流程中。

人工智能内部原理(二)(2)https://developer.aliyun.com/article/1525484

相关文章
|
1月前
|
机器学习/深度学习 算法 数据建模
计算机前沿技术-人工智能算法-生成对抗网络-算法原理及应用实践
计算机前沿技术-人工智能算法-生成对抗网络-算法原理及应用实践
30 0
|
1月前
|
机器学习/深度学习 人工智能 算法
人工智能-大语言模型-微调技术-LoRA及背后原理简介
人工智能-大语言模型-微调技术-LoRA及背后原理简介
43 0
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
探索人工智能:从原理到实践
【10月更文挑战第6天】在这篇文章中,我们将深入探讨人工智能的基本原理,并展示如何将这些理论应用到实际编程中。无论你是AI新手还是有经验的开发者,这篇文章都将为你提供有价值的信息和启示。我们将从基础概念开始,逐步深入到复杂的编程示例,最后总结出一些关于人工智能未来发展的思考。让我们一起踏上这段探索之旅吧!
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能:原理、应用与Python代码示例
人工智能:原理、应用与Python代码示例
|
6月前
|
机器学习/深度学习 人工智能 并行计算
人工智能平台PAI产品使用合集之机器学习PAI中特征重要性的原理不知道如何解决
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】深度解读 ChatGPT基本原理
ChatGPT是OpenAI开发的一种基于人工智能技术的自然语言处理工具,它代表了自然语言处理(NLP)技术的前沿进展。ChatGPT的基本原理建立在一系列先进技术和方法之上,主要包括GPT(Generative Pre-trained Transformer)模型架构、预训练与微调技术、以及可能采用的RLHF(Reinforcement Learning from Human Feedback)等高级训练策略。下面将详细解读ChatGPT的基本原理和关键技术:
88 1
|
6月前
|
机器学习/深度学习 人工智能 自动驾驶
人工智能:原理、应用与Python代码实现
人工智能:原理、应用与Python代码实现
|
2月前
|
机器学习/深度学习 人工智能 算法
探索人工智能:机器学习的基本原理与Python代码实践
【9月更文挑战第6天】本文深入探讨了人工智能领域中的机器学习技术,旨在通过简明的语言和实际的编码示例,为初学者提供一条清晰的学习路径。文章不仅阐述了机器学习的基本概念、主要算法及其应用场景,还通过Python语言展示了如何实现一个简单的线性回归模型。此外,本文还讨论了机器学习面临的挑战和未来发展趋势,以期激发读者对这一前沿技术的兴趣和思考。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能算法原理
人工智能(AI)属计算机科学,聚焦于模拟人类智慧的技术与系统的研发。本文概览常见AI算法原理:机器学习含监督(如决策树、支持向量机)、无监督(如聚类、主成分分析)及强化学习算法;深度学习涉及卷积神经网络、循环神经网络和生成对抗网络;自然语言处理涵盖词袋模型、循环神经网络语言模型及命名实体识别等。这些算法支撑着AI技术的广泛应用与发展。
115 0
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
人工智能之原理概述
人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。 人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等
58 1