探索合成数据和人工智能的“不真实”世界

简介: “元宇宙”一词可能已经让一些人立刻失去兴趣,因为它的模糊概念:要么是互联网的下一次技术革命,要么是被过度炒作的市场时尚,感觉都不太“真实”。

近日,埃森哲(Accenture)发布了其《技术展望2022》,这是一份研究关键技术的报告,主题为“在元宇宙中与我相遇:重塑技术和体验的连续体业务”。

b92be366902df68be1a040da5e0625c7d416b0.jpg

该报告结合了埃森哲技术愿景外部咨询委员会(由来自学术界、风险资本和公共及私营部门专家组成)的意见,以及对行业专家的采访,包括“对全球35个国家和23个行业的24,000名消费者和4650名高管和董事的调查。”报告研究了人工智能、web 3.0、数字孪生、边缘计算和量子计算等前沿技术,并探索了它们如何在构建元宇宙的背景下改变商业和人类体验。

“元宇宙”一词可能已经让一些人立刻失去兴趣,因为它的模糊概念:要么是互联网的下一次技术革命,要么是被过度炒作的市场时尚,感觉都不太“真实”。但根据埃森哲的说法,这是“互联网的一种进化,它使用户能够超越浏览,居住或参与到一种持久沉浸的共享体验,跨越我们的现实世界和虚拟世界以及两者之间的闪光地带。”而元宇宙技术的发展正在加速这些物理世界和数字世界,或者说“真实”和“不真实”的融合。

该报告的作者通过对人工智能的讨论,以及“企业和环境如何越来越多地得到人工智能生成的数据的支持,这些数据令人信服地反映了现实世界”,探索了“不真实”的概念。这种引人注目的模仿,由深度造假和其他生成人工智能技术驱动,迫使我们质疑什么是真实的,什么是不真实的,以及在什么情况下我们会关心或不关心?他们举了一个关于总统的视频的例子,以及它的真实性如何重要,但当它是一个深度伪造的产品广告时就不那么重要了。这种对现实的模糊感知被称为“合成现实”,该报告对此表示,“随着合成现实的发展,有关AI将好坏与真实和虚假结合起来的讨论将转而关注真实性。”

人工智能正在通过合成数据驱动合成现实。埃森哲表示,使用人工智能曾是企业技术趋势领先的一项竞争优势,但在如今这个充斥着数据的世界,释放人工智能的见解是简化业务流程、优化客户体验和鼓励更大成果的关键,这是一种必要手段。为了实现这些目标,许多公司都在训练混合了真实数据和合成数据的人工智能模型。

在2021年6月的一份报告中,Gartner(高德纳)将合成数据定义为通过简单规则、统计建模或模拟生成的数据,而不是通过直接测量或通过其他业务流程收集的真实数据。埃森哲的报告引用了高德纳的预测,到2030年,人工智能建模中使用的大部分数据将是合成的。它将此归因于“合成数据正被用于训练人工智能模型,而现实世界的数据实际上不能或不应该被利用。”在保护机密和隐私的同时保持相同的统计特性,它也可以增加多样性和对抗偏见,从而克服现实世界数据的陷阱。”该报告还讨论了合成数据在创建和交互方面如何变得更“人性化”,这可以帮助用户节省时间和工作,特别是在开发或客户服务场景中。

技术进步经常吸引投机取巧和恶意的用户非法利用这些新工具也就不足为奇了。报告承认会出现具有缺点的合成数据被使用的趋势。例如,在布朗大学(Brown University)的一项研究中,25%的气候危机相关推文和38%的一般性“假科学”推文都是由机器人发布的。此外,卡内基梅隆大学的一项研究发现,45%至60%的关于COVID-19的推特账号是机器人。埃森哲将这种状况称为“信息疫情”,并表示随着人工智能的发展和“假信息即服务”的持续,这种状况可能会继续恶化。

埃森哲表示:“随着令人信服和诱人的虚假信息越来越多,真实的东西将变得越来越模糊。”“这不仅会威胁到企业及其声誉造成直接损害,而且还会破坏对企业赖以建立的人工智能生态系统的信任。”

尽管如此。报告称,“73%的全球消费者认为,未来三年,他们与人工智能或人工智能生成的内容互动的次数将会增加。”那么,我们能做些什么来减少这些互动的危害呢?

不是只盯着什么是“真实”,埃森哲提出真实性”定义为对自己要真诚和真实的,其他人可以证明,更具体地说,以一个真正的方式使用生成AI意味着要注意来源,政策,人员和目的。”

例如使用区块链的分布式账本技术可以帮助数字内容的来源。一个由微软领导的合作项目“起源计划”(Origin)正在使用它来消除虚假信息的传播。

围绕生成式人工智能的政策可以起到帮助作用,比如加州的《BOT披露法》,“该法律规定,当机器人被用于销售商品或服务或影响选举投票的通信时,必须披露它们的使用情况。”

正确的人也可以帮助提高真实性,组织应安排治理结构,以便在出现虚假信息或网络钓鱼活动时增加问责和专业知识。

最后,目的决定生成AI的最佳用途。报告称,仅为了省钱而使用机器人而不是人来担任客户服务角色,很可能缺乏真实性。然而,在医疗保健或美容行业等客户可能感到尴尬或不愿与真人交谈的情况下,人工智能可能更可取,埃森哲表示,这将是为消费者增加价值的真实途径。

埃森哲(Accenture)在其报告中关于“不真实”的部分总结道,人工智能模型越来越多地使用合成数据,这可能会改善世界,也可能让世界容易受到恶意行为者的攻击,但现实很可能会让它处于两者之间的某个位置。该公司重申,真实性是一个“指南针和框架,将指导您的公司以真正的方式使用人工智能——跨越行业、用例和时间——通过考虑来源、政策、人员和目的。”


本文转载自51CTO,本文一切观点和机器智能技术圈子无关。原文链接
免费体验百种AI能力以及试用热门离线SDK:【点此跳转】

相关文章
|
28天前
|
机器学习/深度学习 人工智能 算法
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
【4月更文挑战第12天】斯坦福大学研究团队在Nature子刊发表论文,展示人工智能如何从300亿个分子中筛选出6种新型抗生素候选分子,为抗药性问题提供新解决方案。利用深度学习算法,AI模型考虑化学结构及合成可行性,发现独特化合物,加速药物研发。然而,成功应用还需临床试验验证及克服安全性和耐药性挑战。AI技术在药物设计中的角色引起关注,强调平衡使用与基础科学研究的重要性。
14 1
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
【5月更文挑战第4天】【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
|
11天前
|
人工智能 测试技术
测试数据不再难,人工智能批量生成给你用!
本文介绍了如何利用ChatGPT生成测试数据。测试数据是验证功能和触发异常场景的关键,设计时需全面考虑等价类、边界值和正交法。实践中,先明确数据类型、格式和需求,然后向ChatGPT提供相关信息。例如,对于只能输入中国手机号的输入框,初始提示可能只包含正常手机号,但应进一步补充异常场景,如非数字、长度错误、非中国号码、特殊字符、空输入等。此外,可通过指定yaml格式来满足代码使用需求。总结来说,生成测试数据需清晰定义需求,拆分任务,并系统测试各种变化。
20 2
|
12天前
|
机器学习/深度学习 SQL 人工智能
人工智能平台PAI产品使用合集之如何通过机器学习PAI 的Alink实现大量数据两两计算相关性
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
12天前
|
机器学习/深度学习 人工智能 运维
人工智能平台PAI 操作报错合集之请问Alink的算法中的序列异常检测组件,是对数据进行分组后分别在每个组中执行异常检测,而不是将数据看作时序数据进行异常检测吧
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
12天前
|
机器学习/深度学习 人工智能 API
人工智能平台PAI 操作报错合集之DSSM负采样时,输入数据不同,被哈希到同一个桶里,导致生成的embedding相同如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
12天前
|
机器学习/深度学习 SQL 人工智能
人工智能平台PAI 操作报错合集之机器学习PAI缺失值补充报错,从odps读取数据正常 进行下一步时,补充缺失值报错如何解决
阿里云人工智能平台PAI (Platform for Artificial Intelligence) 是阿里云推出的一套全面、易用的机器学习和深度学习平台,旨在帮助企业、开发者和数据科学家快速构建、训练、部署和管理人工智能模型。在使用阿里云人工智能平台PAI进行操作时,可能会遇到各种类型的错误。以下列举了一些常见的报错情况及其可能的原因和解决方法。
|
28天前
|
数据采集 机器学习/深度学习 人工智能
|
28天前
|
机器学习/深度学习 数据采集 人工智能
|
1月前
|
人工智能 分布式计算 Kubernetes
人工智能,应该如何测试?(三)数据构造与性能测试篇
本文探讨了人工智能场景中的性能测试,区别于传统互联网测试,其复杂性更高。主要关注点包括两类AI产品——业务类和平台类,后者涉及AI全生命周期,测试难度更大。测试重点是模型训练的性能,特别是数据模拟。需要构造大量结构化数据,如不同规模、分布、分片和特征规模的数据,以评估算法效率。此外,还涉及模拟设备规模(如视频流)和节点规模(边缘计算),以测试在大规模负载下的系统性能。文中提到了使用工具如Spark、ffmpeg、流媒体服务器和Kubernetes(K8S)的扩展项目,如Kubemark,来模拟大规模环境。最后,文章介绍了使用Golang进行异步IO操作以构建海量小文件,优化IO性能。
215 0