AI训AI惨遭投毒9次大崩溃,牛津剑桥等惊天发现登Nature封面!

简介: 【8月更文挑战第11天】牛津与剑桥大学研究揭示,AI模型若反复在自身生成的数据上训练,将遭遇“模型崩溃”,即性能严重退化,甚至遗忘真实世界的数据分布。此现象在《自然》杂志刊出,警示AI进化之路暗藏风险。实验显示,随着训练代际增加,模型倾向于生成更简单内容,丢失稀有信息,最终可能导致对现实世界的误解加深。此发现对AI领域的持续发展及模型可靠性提出了新的挑战。

近年来,人工智能(AI)领域取得了显著进展,尤其是大型语言模型(LLMs)的发展。然而,随着这些模型在互联网上的应用越来越广泛,一个新的问题逐渐浮出水面——模型崩溃。最近,牛津大学和剑桥大学的研究人员在《自然》杂志上发表了一项重要研究,揭示了当AI模型在递归生成的数据上进行训练时,会出现严重的性能退化现象。

AI模型的训练通常需要大量的数据,而现有的大型语言模型大多是在人类生成的文本上进行训练的。但随着时间的推移,未来的模型可能会越来越多地依赖于从互联网上抓取的数据。这意味着,它们可能会在不知不觉中训练在前一代模型生成的数据上。这种自我训练的过程,虽然听起来像是AI自我进化的捷径,但实际上却隐藏着巨大的风险。

研究人员通过实验发现,当AI模型在前一代模型生成的数据上进行训练时,会出现所谓的“模型崩溃”现象。这是一种退化过程,模型逐渐忘记了真实的数据分布,甚至在数据分布本身没有变化的情况下也是如此。这种现象不仅影响模型的性能,还可能导致模型对现实世界的误解。

模型崩溃的发生主要归因于三种类型的误差:统计近似误差、功能表达性误差和功能近似误差。统计近似误差是由于样本数量有限导致的,随着样本数量的增加,这种误差会逐渐消失。功能表达性误差则源于模型表达能力的局限性,例如神经网络只有在其规模无限大时才能成为通用近似器。功能近似误差主要来自于学习过程的局限性,如梯度下降的结构偏差或目标函数的选择。

这些误差在模型的代际传递中不断累积,导致模型逐渐偏离原始模型。特别是在早期模型崩溃中,模型开始丢失关于数据分布尾部的信息;而在晚期模型崩溃中,模型会收敛到一个与原始分布几乎没有相似性的分布,通常具有显著降低的方差。

为了验证模型崩溃的现象,研究人员进行了一系列的实验。他们使用了OPT-125m因果语言模型,并在wikitext2数据集上进行了微调。实验结果显示,随着代际的增加,模型生成的数据逐渐积累了低困惑度的样本,这使得模型在后续的训练中更容易产生这些样本。同时,模型也开始生成一些原始模型永远不会生成的样本,这些样本正是由于学习过程中累积的误差所导致的。

研究人员还发现,即使是在微调设置中,模型崩溃的现象依然存在。他们通过限制训练,使得模型在每次训练后都尽可能接近原始预训练模型,但即便如此,模型的性能仍然会有所下降。这表明,即使是在有限的训练周期内,模型崩溃的影响也是显著的。

模型崩溃不仅影响单个模型的性能,还可能对整个AI领域产生深远的影响。首先,模型崩溃意味着模型可能无法准确模拟现实世界的复杂性,尤其是那些低概率事件。这对于需要预测罕见事件的领域,如金融风险评估或医疗诊断,可能是灾难性的。其次,模型崩溃还可能导致模型在长期学习中逐渐失去对原始数据源的访问,这对于模型的持续改进和更新至关重要。

此外,模型崩溃还引发了关于数据来源和数据真实性的讨论。随着AI模型在互联网上生成的内容越来越多,如何区分这些内容与人类生成的内容变得尤为重要。这不仅涉及到技术问题,还涉及到伦理和社会问题,如如何确保AI模型生成的内容不会误导公众,或如何保护那些可能被模型误解的边缘群体。

论文地址:https://www.nature.com/articles/s41586-024-07566-y

目录
相关文章
|
6天前
|
机器学习/深度学习 人工智能
打开AI黑匣子,三段式AI用于化学研究,优化分子同时产生新化学知识,登Nature
【10月更文挑战第11天】《自然》杂志发表了一项突破性的化学研究,介绍了一种名为“Closed-loop transfer”的AI技术。该技术通过数据生成、模型训练和实验验证三个阶段,不仅优化了分子结构,提高了光稳定性等性质,还发现了新的化学现象,为化学研究提供了新思路。此技术的应用加速了新材料的开发,展示了AI在解决复杂科学问题上的巨大潜力。
12 1
|
14天前
|
机器学习/深度学习 数据采集 人工智能
未来的守护神:AI驱动的网络安全之盾,如何用智慧的光芒驱散网络黑暗势力?揭秘高科技防御系统背后的惊天秘密!
【10月更文挑战第3天】随着网络技术的发展,网络安全问题日益严峻,传统防御手段已显不足。本文探讨了构建AI驱动的自适应网络安全防御系统的必要性及其关键环节:数据采集、行为分析、威胁识别、响应决策和执行。通过Python库(如scapy、scikit-learn和TensorFlow)的应用实例,展示了如何利用AI技术提升网络安全防护水平。这种系统能够实时监控、智能分析并自动化响应,显著提高防护效率与准确性,为数字世界提供更强大的安全保障。
34 2
|
5天前
|
存储 人工智能 安全
AI时代的惊天危机!揭秘如何守护你的数据宝藏免受黑客魔爪侵袭!
【10月更文挑战第12天】在数字化时代,AI产品已深入生活的方方面面,但数据安全问题日益凸显。本文探讨了如何妥善处理AI产品的数据安全,包括建立数据保护机制、加强监管与审计、提升公众意识及关注新技术发展,确保数据的完整性、机密性和可用性。
15 1
|
11天前
|
机器学习/深度学习 人工智能 算法
Nature子刊:AI模型测大脑年龄,究竟哪些因素会加速大脑衰老?
【10月更文挑战第7天】《自然医学》杂志近期发布了一项研究,介绍了一种名为BrainAge的人工智能模型,该模型可预测个体的大脑年龄并分析影响大脑衰老的因素。研究团队来自美国加州大学旧金山分校,利用英国生物银行的近50,000名参与者的数据,发现高血压、糖尿病、肥胖、吸烟、饮酒、缺乏运动及遗传因素均与大脑衰老有关。尽管存在数据集限制等局限性,BrainAge模型仍为研究大脑衰老和相关疾病提供了重要工具。
22 1
|
2月前
|
数据采集 人工智能
Nature封面:AI训练AI,越训越离谱
【8月更文挑战第16天】新发表于《自然》杂志的论文显示,当AI模型基于其他AI生成的数据训练时,会出现“模型崩溃”现象,即模型逐渐遗忘真实数据分布细节,偏向生成更常见模式而非罕见模式。这一研究由牛津、剑桥等高校合作完成,通过实验验证了不同AI模型均可能出现此问题,尤其是在低质或少量数据训练下更为显著。但通过数据增强或模型正则化可缓解该现象。研究强调了训练数据质量和来源的重要性,并引发了关于AI发展和应用的讨论。
193 58
|
1月前
|
人工智能 数据处理
Nature:AI让抄袭问题更加复杂,科学家该如何应对?
【9月更文挑战第16天】《自然》杂志一篇文章指出,AI在科研领域的应用日益增长,带来了加速数据处理、提升计算效率等益处,同时也引发了对科学标准、数据偏见及研究诚信的挑战。一项针对1600多名研究人员的调查显示,超半数认为未来十年AI将成为其研究领域不可或缺的工具。AI能够显著提升科研效率,但也可能增加对模式识别的依赖,加剧数据偏见,并引发研究不可重复性等问题。尤其是大型语言模型如ChatGPT,虽有助于改进论文语法和翻译,但也可能传播错误信息。此外,部分科学家面临计算资源和高质量数据不足等使用障碍。
33 3
|
1月前
|
人工智能 开发者
Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入
【9月更文挑战第8天】《自然》杂志近日揭露,学术出版商如泰勒·弗朗西斯与微软签订千万美元合约,及威利获高额报酬,将论文提供给科技巨头训练AI模型,引发学界对版权与收益分配的热议。此现象反映了AI对高质量数据的渴求,但亦使研究人员担忧成果被无偿商用,且可能影响学术独立性。尽管AI训练使用学术资源能提升模型科学性,助力科研进展,但如何保障作者权益及维持学术纯粹性仍是亟待解决的问题。https://www.nature.com/articles/d41586-024-02599-9
42 4
|
1月前
|
机器学习/深度学习 人工智能 算法
首个像人类一样思考的网络!Nature子刊:AI模拟人类感知决策
【9月更文挑战第8天】近日,《自然》子刊发表的一篇关于RTNet神经网络的论文引起广泛关注。RTNet能模拟人类感知决策思维,其表现与人类相近,在反应时间和准确率上表现出色。这项研究证明了神经网络可模拟人类思维方式,为人工智能发展带来新启示。尽管存在争议,如是否真正理解人类思维机制以及潜在的伦理问题,但RTNet为人工智能技术突破及理解人类思维机制提供了新途径。论文详细内容见《自然》官网。
47 3
|
6天前
|
人工智能 Serverless
AI助理精准匹配------助力快速搭建Stable Difussion图像生成应用
【10月更文挑战第7天】过去在阿里云社区搭建Stable Diffusion图像生成应用需查阅在线实验室或官方文档,耗时且不便。现阿里云AI助理提供精准匹配服务,直接在首页询问AI助理即可获取详细部署步骤,简化了操作流程,提高了效率。用户可按AI助理提供的步骤快速完成应用创建、参数设置、应用部署及资源释放等操作,轻松体验Stable Diffusion图像生成功能。
|
20小时前
|
机器学习/深度学习 人工智能 算法
介绍一下AI在药物研发中的应用。
【10月更文挑战第16天】介绍一下AI在药物研发中的应用。
7 0