AI训AI惨遭投毒9次大崩溃,牛津剑桥等惊天发现登Nature封面!

简介: 【8月更文挑战第11天】牛津与剑桥大学研究揭示,AI模型若反复在自身生成的数据上训练,将遭遇“模型崩溃”,即性能严重退化,甚至遗忘真实世界的数据分布。此现象在《自然》杂志刊出,警示AI进化之路暗藏风险。实验显示,随着训练代际增加,模型倾向于生成更简单内容,丢失稀有信息,最终可能导致对现实世界的误解加深。此发现对AI领域的持续发展及模型可靠性提出了新的挑战。

近年来,人工智能(AI)领域取得了显著进展,尤其是大型语言模型(LLMs)的发展。然而,随着这些模型在互联网上的应用越来越广泛,一个新的问题逐渐浮出水面——模型崩溃。最近,牛津大学和剑桥大学的研究人员在《自然》杂志上发表了一项重要研究,揭示了当AI模型在递归生成的数据上进行训练时,会出现严重的性能退化现象。

AI模型的训练通常需要大量的数据,而现有的大型语言模型大多是在人类生成的文本上进行训练的。但随着时间的推移,未来的模型可能会越来越多地依赖于从互联网上抓取的数据。这意味着,它们可能会在不知不觉中训练在前一代模型生成的数据上。这种自我训练的过程,虽然听起来像是AI自我进化的捷径,但实际上却隐藏着巨大的风险。

研究人员通过实验发现,当AI模型在前一代模型生成的数据上进行训练时,会出现所谓的“模型崩溃”现象。这是一种退化过程,模型逐渐忘记了真实的数据分布,甚至在数据分布本身没有变化的情况下也是如此。这种现象不仅影响模型的性能,还可能导致模型对现实世界的误解。

模型崩溃的发生主要归因于三种类型的误差:统计近似误差、功能表达性误差和功能近似误差。统计近似误差是由于样本数量有限导致的,随着样本数量的增加,这种误差会逐渐消失。功能表达性误差则源于模型表达能力的局限性,例如神经网络只有在其规模无限大时才能成为通用近似器。功能近似误差主要来自于学习过程的局限性,如梯度下降的结构偏差或目标函数的选择。

这些误差在模型的代际传递中不断累积,导致模型逐渐偏离原始模型。特别是在早期模型崩溃中,模型开始丢失关于数据分布尾部的信息;而在晚期模型崩溃中,模型会收敛到一个与原始分布几乎没有相似性的分布,通常具有显著降低的方差。

为了验证模型崩溃的现象,研究人员进行了一系列的实验。他们使用了OPT-125m因果语言模型,并在wikitext2数据集上进行了微调。实验结果显示,随着代际的增加,模型生成的数据逐渐积累了低困惑度的样本,这使得模型在后续的训练中更容易产生这些样本。同时,模型也开始生成一些原始模型永远不会生成的样本,这些样本正是由于学习过程中累积的误差所导致的。

研究人员还发现,即使是在微调设置中,模型崩溃的现象依然存在。他们通过限制训练,使得模型在每次训练后都尽可能接近原始预训练模型,但即便如此,模型的性能仍然会有所下降。这表明,即使是在有限的训练周期内,模型崩溃的影响也是显著的。

模型崩溃不仅影响单个模型的性能,还可能对整个AI领域产生深远的影响。首先,模型崩溃意味着模型可能无法准确模拟现实世界的复杂性,尤其是那些低概率事件。这对于需要预测罕见事件的领域,如金融风险评估或医疗诊断,可能是灾难性的。其次,模型崩溃还可能导致模型在长期学习中逐渐失去对原始数据源的访问,这对于模型的持续改进和更新至关重要。

此外,模型崩溃还引发了关于数据来源和数据真实性的讨论。随着AI模型在互联网上生成的内容越来越多,如何区分这些内容与人类生成的内容变得尤为重要。这不仅涉及到技术问题,还涉及到伦理和社会问题,如如何确保AI模型生成的内容不会误导公众,或如何保护那些可能被模型误解的边缘群体。

论文地址:https://www.nature.com/articles/s41586-024-07566-y

目录
相关文章
|
机器学习/深度学习 人工智能 编解码
ByteDance Research登Nature子刊:AI+冷冻电镜,揭示蛋白质动态
在生物医学领域,蛋白质的结构与功能研究至关重要。ByteDance Research团队开发的CryoSTAR软件,结合AI与冷冻电镜技术,通过深度学习模型、结构先验和异质性重构算法,成功解析了蛋白质的动态行为,尤其在处理结构异质性方面表现出色。该软件已在多个蛋白质体系中取得显著成果,如TRPV1通道蛋白的动态变化研究,为理解蛋白质功能及疾病机制提供了新思路。论文链接:https://www.nature.com/articles/s41592-024-02486-1
466 26
|
机器学习/深度学习 人工智能 搜索推荐
哈佛推出全新类ChatGPT癌症诊断AI,登上Nature!准确率高达96%
哈佛大学研究团队开发的新型AI模型CHIEF,在《自然》期刊发表,癌症诊断准确率达96%。CHIEF基于深度学习,能自动识别、分类癌症并预测生存期,具高准确性、多任务能力和泛化性。它结合病理图像与基因组学等数据,显著提升诊断效率和个性化治疗水平,有望改善医疗资源不平等。但数据隐私和临床效果验证仍是挑战。论文见:https://www.nature.com/articles/s41586-024-07894-z
666 101
|
人工智能 vr&ar 图形学
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
牛津大学与谷歌联合推出的Bolt3D技术,能在单个GPU上仅用6.25秒从单张或多张图像生成高质量3D场景,基于高斯溅射和几何多视角扩散模型,为游戏、VR/AR等领域带来革命性突破。
724 2
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
|
机器学习/深度学习 人工智能 算法
ProtGPS:MIT再造生命科学新基建!蛋白质AI一键预测定位+设计新序列,登Nature子刊
ProtGPS 是麻省理工学院和怀特黑德研究所联合开发的蛋白质语言模型,能够预测蛋白质在细胞内的亚细胞定位,并设计具有特定亚细胞定位的新型蛋白质。
1187 17
ProtGPS:MIT再造生命科学新基建!蛋白质AI一键预测定位+设计新序列,登Nature子刊
|
机器学习/深度学习 人工智能
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
近日,斯坦福大学和加州大学伯克利分校在《科学》杂志发表重要成果,发现DNA Scaling Law规律,揭示了DNA、RNA和蛋白质分子长度与碱基对数量之间的比例关系。该研究为AI设计生物分子带来突破,通过数据收集、模型训练和优化设计等步骤,显著提高设计效率和准确性,降低成本,并拓展应用范围。论文地址:https://www.science.org/doi/10.1126/science.ado9336。
392 26
|
机器学习/深度学习 人工智能 算法
Nature:AI也许可以拥有常识,但不是现在
人工智能(AI)的快速发展引发了关于其是否能拥有常识的讨论。尽管AI在特定任务上取得进展,但目前仍缺乏真正的常识理解。常识涉及对物理世界、社会规范和文化背景的理解,难以通过数据和算法完全捕捉。研究人员正通过大规模语言模型和强化学习等方法提升AI的常识能力,但仍面临显著局限性,如对物理世界的直观理解不足、社会文化背景理解欠缺以及常识能力的通用性差等问题。未来,多模态学习和与人类交互有望增强AI的常识能力。
402 20
|
机器学习/深度学习 人工智能 测试技术
登上Nature的AI芯片设计屡遭质疑,谷歌发文反击,Jeff Dean:质疑者连预训练都没做
2020年,谷歌的AlphaChip在Nature上发表并开源,其深度强化学习方法能生成超越人类水平的芯片布局,引发AI在芯片设计领域的研究热潮。然而,ISPD 2023的一篇论文对其性能提出质疑,指出未按Nature论文方法运行、计算资源不足等问题。谷歌DeepMind团队回应,强调AlphaChip已在多代TPU和Alphabet芯片中成功应用,并批驳ISPD论文的主要错误。此外,针对Igor Markov的“元分析”和无根据猜测,谷歌提供了详细的时间线和非机密部署情况,澄清事实并重申AlphaChip的开放性和透明度。
368 13
|
机器学习/深度学习 存储 人工智能
预定下一个诺奖级AI?谷歌量子纠错AlphaQubit登Nature,10万次模拟实验创新里程碑
谷歌的量子纠错算法AlphaQubit近日登上《自然》杂志,被誉为量子计算纠错领域的重大突破。量子比特易受环境噪声干扰,导致计算错误,而AlphaQubit通过神经网络学习噪声模式,显著提升纠错准确性。实验结果显示,它在Sycamore处理器和Pauli+模拟器上表现优异,优于现有解码算法。尽管面临资源需求高等挑战,AlphaQubit为实用化量子计算带来新希望,并可能推动其他领域创新。论文详见:https://www.nature.com/articles/s41586-024-08148-8
421 5
|
8月前
|
消息中间件 人工智能 安全
云原生进化论:加速构建 AI 应用
本文将和大家分享过去一年在支持企业构建 AI 应用过程的一些实践和思考。
2098 80
|
8月前
|
人工智能 运维 Kubernetes
Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速
在容器技术持续演进与 AI 全面爆发的当下,企业既要稳健托管传统业务,又要高效落地 AI 创新,如何在复杂的基础设施与频繁的版本变化中保持敏捷、稳定与低成本,成了所有技术团队的共同挑战。阿里云 Serverless 应用引擎(SAE)正是为应对这一时代挑战而生的破局者,SAE 以“免运维、强稳定、极致降本”为核心,通过一站式的应用级托管能力,同时支撑传统应用与 AI 应用,让企业把更多精力投入到业务创新。
820 30

热门文章

最新文章