Nature封面:AI训练AI,越训越离谱

简介: 【8月更文挑战第16天】新发表于《自然》杂志的论文显示,当AI模型基于其他AI生成的数据训练时,会出现“模型崩溃”现象,即模型逐渐遗忘真实数据分布细节,偏向生成更常见模式而非罕见模式。这一研究由牛津、剑桥等高校合作完成,通过实验验证了不同AI模型均可能出现此问题,尤其是在低质或少量数据训练下更为显著。但通过数据增强或模型正则化可缓解该现象。研究强调了训练数据质量和来源的重要性,并引发了关于AI发展和应用的讨论。

近日,一篇发表在Nature杂志上的论文引起了广泛关注。这篇论文揭示了一个令人惊讶的现象:当AI模型被训练在由其他AI模型生成的数据上时,它们会逐渐失去对真实数据分布的理解,甚至在没有数据分布变化的情况下,也会出现所谓的“模型崩溃”现象。

这项研究由牛津大学、剑桥大学、帝国理工学院和多伦多大学的研究人员合作完成。他们发现,当AI模型被训练在由其他AI模型生成的数据上时,这些模型会逐渐忘记真实数据分布中的一些细节,特别是那些不太常见的事件。随着时间的推移,这些模型会越来越倾向于生成那些在训练数据中更常见的模式,而忽视了那些不太常见的模式。

这种现象被称为“模型崩溃”,因为它会导致AI模型在生成新数据时出现错误和偏差。研究人员通过实验证明了这种效应的存在,他们使用了一系列不同的AI模型,包括VAE(变分自编码器)、GMM(高斯混合模型)和LLM(大型语言模型),来模拟这种训练过程。

在实验中,研究人员发现,当AI模型被训练在由其他AI模型生成的数据上时,它们会逐渐失去对真实数据分布的理解。例如,在语言模型的实验中,研究人员发现,随着训练的进行,模型生成的文本会越来越倾向于使用那些在训练数据中更常见的词汇和短语,而忽视了那些不太常见的词汇和短语。

这种效应在其他类型的AI模型中也得到了证实。例如,在VAE和GMM的实验中,研究人员发现,随着训练的进行,模型生成的数据会越来越倾向于那些在训练数据中更常见的模式,而忽视了那些不太常见的模式。

研究人员还发现,这种效应与训练数据的质量和数量有关。当训练数据的质量较低或数量较少时,模型崩溃的现象会更加明显。这是因为在这种条件下,模型更容易受到训练数据中的偏差和错误的影响,从而导致它们对真实数据分布的理解出现偏差。

然而,研究人员也指出,这种效应并不是不可避免的。他们发现,通过在训练过程中引入一些额外的机制,如数据增强或模型正则化,可以减轻或避免模型崩溃的现象。此外,他们还发现,当训练数据中包含一些来自真实世界的数据时,模型崩溃的现象也会减轻。

这项研究对于理解AI模型的训练和泛化能力具有重要意义。它提醒我们,在训练AI模型时,不仅要关注训练数据的质量和数量,还要关注训练数据的来源和生成方式。只有这样,我们才能确保AI模型能够准确地理解和生成真实世界的数据。

这项研究也引发了一些争议和讨论。一些人认为,这项研究的结果可能过于悲观,因为在实际应用中,AI模型通常不会被训练在完全由其他AI模型生成的数据上。相反,它们通常会被训练在包含一些真实世界数据的混合数据集上。因此,模型崩溃的现象可能不会像研究中描述的那样严重。

此外,一些人还担心,这项研究的结果可能会对AI的发展产生负面影响。他们认为,如果人们开始担心AI模型会因为训练数据的问题而出现偏差和错误,那么他们可能会对AI技术的发展持更加谨慎和怀疑的态度。

然而,尽管存在这些争议和讨论,这项研究仍然具有重要的价值和意义。它提醒我们,在追求AI技术的发展和应用时,我们不能忽视训练数据的质量和来源的重要性。只有通过深入的研究和理解,我们才能确保AI技术能够为人类带来真正的价值和益处。

论文链接:https://www.nature.com/articles/s41586-024-07566-y

目录
相关文章
|
7月前
|
机器学习/深度学习 人工智能
谷歌发AI足球教练模型TacticAI 登Nature子刊
【2月更文挑战第30天】谷歌DeepMind与利物浦FC合作开发的TacticAI是一款人工智能足球战术助手,能分析角球战术并提供建议,已在《Nature Communications》发表。利用图机器学习和几何深度学习,TacticAI预测角球战术并在90%情况下优于传统方法。该系统有助于教练制定精准战术,但实际比赛中的适应性和数据隐私限制了其潜力的完全发挥。
174 2
谷歌发AI足球教练模型TacticAI 登Nature子刊
|
传感器 机器学习/深度学习 人工智能
Nature封面:AI提高自动驾驶夜视能力,检测黑夜、雾天场景和白天一样
Nature封面:AI提高自动驾驶夜视能力,检测黑夜、雾天场景和白天一样
199 0
|
人工智能 编解码 自然语言处理
上交大&上海AI lab研发胸部X-ray疾病诊断基础模型,成果入选Nature子刊
上交大&上海AI lab研发胸部X-ray疾病诊断基础模型,成果入选Nature子刊
239 0
|
7月前
|
机器学习/深度学习 人工智能 算法
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
【4月更文挑战第12天】斯坦福大学研究团队在Nature子刊发表论文,展示人工智能如何从300亿个分子中筛选出6种新型抗生素候选分子,为抗药性问题提供新解决方案。利用深度学习算法,AI模型考虑化学结构及合成可行性,发现独特化合物,加速药物研发。然而,成功应用还需临床试验验证及克服安全性和耐药性挑战。AI技术在药物设计中的角色引起关注,强调平衡使用与基础科学研究的重要性。
63 1
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
|
2月前
|
机器学习/深度学习 人工智能
打开AI黑匣子,三段式AI用于化学研究,优化分子同时产生新化学知识,登Nature
【10月更文挑战第11天】《自然》杂志发表了一项突破性的化学研究,介绍了一种名为“Closed-loop transfer”的AI技术。该技术通过数据生成、模型训练和实验验证三个阶段,不仅优化了分子结构,提高了光稳定性等性质,还发现了新的化学现象,为化学研究提供了新思路。此技术的应用加速了新材料的开发,展示了AI在解决复杂科学问题上的巨大潜力。
41 1
|
2月前
|
机器学习/深度学习 人工智能 算法
Nature子刊:AI模型测大脑年龄,究竟哪些因素会加速大脑衰老?
【10月更文挑战第7天】《自然医学》杂志近期发布了一项研究,介绍了一种名为BrainAge的人工智能模型,该模型可预测个体的大脑年龄并分析影响大脑衰老的因素。研究团队来自美国加州大学旧金山分校,利用英国生物银行的近50,000名参与者的数据,发现高血压、糖尿病、肥胖、吸烟、饮酒、缺乏运动及遗传因素均与大脑衰老有关。尽管存在数据集限制等局限性,BrainAge模型仍为研究大脑衰老和相关疾病提供了重要工具。
70 1
|
4月前
|
机器学习/深度学习 人工智能
AI训AI惨遭投毒9次大崩溃,牛津剑桥等惊天发现登Nature封面!
【8月更文挑战第11天】牛津与剑桥大学研究揭示,AI模型若反复在自身生成的数据上训练,将遭遇“模型崩溃”,即性能严重退化,甚至遗忘真实世界的数据分布。此现象在《自然》杂志刊出,警示AI进化之路暗藏风险。实验显示,随着训练代际增加,模型倾向于生成更简单内容,丢失稀有信息,最终可能导致对现实世界的误解加深。此发现对AI领域的持续发展及模型可靠性提出了新的挑战。
205 60
|
3月前
|
人工智能 数据处理
Nature:AI让抄袭问题更加复杂,科学家该如何应对?
【9月更文挑战第16天】《自然》杂志一篇文章指出,AI在科研领域的应用日益增长,带来了加速数据处理、提升计算效率等益处,同时也引发了对科学标准、数据偏见及研究诚信的挑战。一项针对1600多名研究人员的调查显示,超半数认为未来十年AI将成为其研究领域不可或缺的工具。AI能够显著提升科研效率,但也可能增加对模式识别的依赖,加剧数据偏见,并引发研究不可重复性等问题。尤其是大型语言模型如ChatGPT,虽有助于改进论文语法和翻译,但也可能传播错误信息。此外,部分科学家面临计算资源和高质量数据不足等使用障碍。
53 3
|
3月前
|
人工智能 开发者
Nature曝惊人内幕:论文被天价卖出喂AI!出版商狂赚上亿,作者0收入
【9月更文挑战第8天】《自然》杂志近日揭露,学术出版商如泰勒·弗朗西斯与微软签订千万美元合约,及威利获高额报酬,将论文提供给科技巨头训练AI模型,引发学界对版权与收益分配的热议。此现象反映了AI对高质量数据的渴求,但亦使研究人员担忧成果被无偿商用,且可能影响学术独立性。尽管AI训练使用学术资源能提升模型科学性,助力科研进展,但如何保障作者权益及维持学术纯粹性仍是亟待解决的问题。https://www.nature.com/articles/d41586-024-02599-9
69 4
|
3月前
|
机器学习/深度学习 人工智能 算法
首个像人类一样思考的网络!Nature子刊:AI模拟人类感知决策
【9月更文挑战第8天】近日,《自然》子刊发表的一篇关于RTNet神经网络的论文引起广泛关注。RTNet能模拟人类感知决策思维,其表现与人类相近,在反应时间和准确率上表现出色。这项研究证明了神经网络可模拟人类思维方式,为人工智能发展带来新启示。尽管存在争议,如是否真正理解人类思维机制以及潜在的伦理问题,但RTNet为人工智能技术突破及理解人类思维机制提供了新途径。论文详细内容见《自然》官网。
76 3