探索合成数据和人工智能的“不真实”世界

简介: “元宇宙”一词可能已经让一些人立刻失去兴趣,因为它的模糊概念:要么是互联网的下一次技术革命,要么是被过度炒作的市场时尚,感觉都不太“真实”。

近日,埃森哲(Accenture)发布了其《技术展望2022》,这是一份研究关键技术的报告,主题为“在元宇宙中与我相遇:重塑技术和体验的连续体业务”。

b92be366902df68be1a040da5e0625c7d416b0.jpg

该报告结合了埃森哲技术愿景外部咨询委员会(由来自学术界、风险资本和公共及私营部门专家组成)的意见,以及对行业专家的采访,包括“对全球35个国家和23个行业的24,000名消费者和4650名高管和董事的调查。”报告研究了人工智能、web 3.0、数字孪生、边缘计算和量子计算等前沿技术,并探索了它们如何在构建元宇宙的背景下改变商业和人类体验。

“元宇宙”一词可能已经让一些人立刻失去兴趣,因为它的模糊概念:要么是互联网的下一次技术革命,要么是被过度炒作的市场时尚,感觉都不太“真实”。但根据埃森哲的说法,这是“互联网的一种进化,它使用户能够超越浏览,居住或参与到一种持久沉浸的共享体验,跨越我们的现实世界和虚拟世界以及两者之间的闪光地带。”而元宇宙技术的发展正在加速这些物理世界和数字世界,或者说“真实”和“不真实”的融合。

该报告的作者通过对人工智能的讨论,以及“企业和环境如何越来越多地得到人工智能生成的数据的支持,这些数据令人信服地反映了现实世界”,探索了“不真实”的概念。这种引人注目的模仿,由深度造假和其他生成人工智能技术驱动,迫使我们质疑什么是真实的,什么是不真实的,以及在什么情况下我们会关心或不关心?他们举了一个关于总统的视频的例子,以及它的真实性如何重要,但当它是一个深度伪造的产品广告时就不那么重要了。这种对现实的模糊感知被称为“合成现实”,该报告对此表示,“随着合成现实的发展,有关AI将好坏与真实和虚假结合起来的讨论将转而关注真实性。”

人工智能正在通过合成数据驱动合成现实。埃森哲表示,使用人工智能曾是企业技术趋势领先的一项竞争优势,但在如今这个充斥着数据的世界,释放人工智能的见解是简化业务流程、优化客户体验和鼓励更大成果的关键,这是一种必要手段。为了实现这些目标,许多公司都在训练混合了真实数据和合成数据的人工智能模型。

在2021年6月的一份报告中,Gartner(高德纳)将合成数据定义为通过简单规则、统计建模或模拟生成的数据,而不是通过直接测量或通过其他业务流程收集的真实数据。埃森哲的报告引用了高德纳的预测,到2030年,人工智能建模中使用的大部分数据将是合成的。它将此归因于“合成数据正被用于训练人工智能模型,而现实世界的数据实际上不能或不应该被利用。”在保护机密和隐私的同时保持相同的统计特性,它也可以增加多样性和对抗偏见,从而克服现实世界数据的陷阱。”该报告还讨论了合成数据在创建和交互方面如何变得更“人性化”,这可以帮助用户节省时间和工作,特别是在开发或客户服务场景中。

技术进步经常吸引投机取巧和恶意的用户非法利用这些新工具也就不足为奇了。报告承认会出现具有缺点的合成数据被使用的趋势。例如,在布朗大学(Brown University)的一项研究中,25%的气候危机相关推文和38%的一般性“假科学”推文都是由机器人发布的。此外,卡内基梅隆大学的一项研究发现,45%至60%的关于COVID-19的推特账号是机器人。埃森哲将这种状况称为“信息疫情”,并表示随着人工智能的发展和“假信息即服务”的持续,这种状况可能会继续恶化。

埃森哲表示:“随着令人信服和诱人的虚假信息越来越多,真实的东西将变得越来越模糊。”“这不仅会威胁到企业及其声誉造成直接损害,而且还会破坏对企业赖以建立的人工智能生态系统的信任。”

尽管如此。报告称,“73%的全球消费者认为,未来三年,他们与人工智能或人工智能生成的内容互动的次数将会增加。”那么,我们能做些什么来减少这些互动的危害呢?

不是只盯着什么是“真实”,埃森哲提出真实性”定义为对自己要真诚和真实的,其他人可以证明,更具体地说,以一个真正的方式使用生成AI意味着要注意来源,政策,人员和目的。”

例如使用区块链的分布式账本技术可以帮助数字内容的来源。一个由微软领导的合作项目“起源计划”(Origin)正在使用它来消除虚假信息的传播。

围绕生成式人工智能的政策可以起到帮助作用,比如加州的《BOT披露法》,“该法律规定,当机器人被用于销售商品或服务或影响选举投票的通信时,必须披露它们的使用情况。”

正确的人也可以帮助提高真实性,组织应安排治理结构,以便在出现虚假信息或网络钓鱼活动时增加问责和专业知识。

最后,目的决定生成AI的最佳用途。报告称,仅为了省钱而使用机器人而不是人来担任客户服务角色,很可能缺乏真实性。然而,在医疗保健或美容行业等客户可能感到尴尬或不愿与真人交谈的情况下,人工智能可能更可取,埃森哲表示,这将是为消费者增加价值的真实途径。

埃森哲(Accenture)在其报告中关于“不真实”的部分总结道,人工智能模型越来越多地使用合成数据,这可能会改善世界,也可能让世界容易受到恶意行为者的攻击,但现实很可能会让它处于两者之间的某个位置。该公司重申,真实性是一个“指南针和框架,将指导您的公司以真正的方式使用人工智能——跨越行业、用例和时间——通过考虑来源、政策、人员和目的。”


本文转载自51CTO,本文一切观点和机器智能技术圈子无关。原文链接
免费体验百种AI能力以及试用热门离线SDK:【点此跳转】

相关文章
|
4月前
|
机器学习/深度学习 人工智能 专有云
人工智能平台PAI使用问题之怎么将DLC的数据写入到另一个阿里云主账号的OSS中
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
数据采集 人工智能 自然语言处理
GPT被封锁了怎么办?轻松获取高质量的数据,训练自己的人工智能和大语言模型。
2023年标志着AI大模型时代的到来,GPT-4等模型在多个领域展现巨大潜力。然而,OpenAI对中国区服务的限制提出了挑战。本文探讨如何使用亮数据代理获取训练大模型所需的数据,包括确定目标、选择代理、数据抓取、清洗,并以西方历史为例,展示如何使用亮数据的静态住宅代理稳定获取DE区域数据,最终在国产AI平台上训练模型,提升知识库的丰富度和准确性。尽管面临外部障碍,但自主获取和训练数据能增强本土AI能力。
|
4月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI使用问题之如何在MaxCompute上使用Protobuf处理数据
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI使用问题之如何实现数据在MaxCompute中是永久的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5月前
|
机器学习/深度学习 人工智能 前端开发
人工智能平台PAI产品使用合集之创建了实时特征视图,里面的数据是通过什么传入的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
5月前
|
机器学习/深度学习 人工智能 监控
人工智能平台PAI产品使用合集之设置了7个特征,但在最后生成的数据表中只包含了6个id_feature的特征,是什么导致的
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
4月前
|
存储 人工智能 安全
人工智能浪潮下的数据隐私保护技术
在大数据与人工智能(AI)的高速发展中,数据隐私保护成为亟待解决的关键议题。本文将探讨当前AI时代下数据隐私保护的技术手段及其面临的挑战,并分析未来发展趋势。文章首先介绍数据隐私的重要性和当前面临的风险,然后深入讨论加密技术和匿名化处理等保护措施,最后评估这些技术的有效性及潜在的改进方向。
189 0
|
5月前
|
机器学习/深度学习 人工智能 算法
人工智能伦理:机器学习中的数据偏见与公平性挑战
在机器学习领域,算法的公正性与透明度日益成为社会关注的焦点。本文深入探讨了AI系统在处理数据时可能遇到的偏见问题及其对社会公平性的影响。通过分析具体案例和最新研究成果,本文揭示了数据偏见如何影响算法决策,并提出了减轻这些偏见的策略。文章呼吁开发更加负责任的AI系统,以促进技术与社会价值的和谐共存。
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
【5月更文挑战第4天】【AI 生成式】如何利用生成式人工智能进行机器学习的数据增强?
|
6月前
|
人工智能 测试技术
测试数据不再难,人工智能批量生成给你用!
本文介绍了如何利用ChatGPT生成测试数据。测试数据是验证功能和触发异常场景的关键,设计时需全面考虑等价类、边界值和正交法。实践中,先明确数据类型、格式和需求,然后向ChatGPT提供相关信息。例如,对于只能输入中国手机号的输入框,初始提示可能只包含正常手机号,但应进一步补充异常场景,如非数字、长度错误、非中国号码、特殊字符、空输入等。此外,可通过指定yaml格式来满足代码使用需求。总结来说,生成测试数据需清晰定义需求,拆分任务,并系统测试各种变化。

热门文章

最新文章