最早2026?全球优质语言数据「存量」告急!网友:杞人忧天

简介: 最早2026?全球优质语言数据「存量」告急!网友:杞人忧天
【新智元导读】AI用光所有数据,这一天真的快来了?


作为人工智能的三要素之一,数据的作用举足轻重。

但大家有没有想过:假如有一天,全世界的数据都用完了那咋整?

实际上,提出这个问题的人绝对没有精神问题,因为这一天——可能真的快来了!!!

近日,研究员Pablo Villalobos等人一篇名为《我们会用完数据吗?机器学习中数据集缩放的局限性分析》的论文,发表在了arXiv上。

他们根据之前对数据集大小趋势的分析,预测了语言和视觉领域数据集大小的增长,估计了未来几十年可用未标记数据总存量的发展趋势。

他们的研究表明:最早在2026年,高质量语言数据就将全部消耗殆尽!机器学习发展的速度也将因此而放缓。实在不容乐观。

两方法双管齐下,结果不容乐观


这篇论文的研究团队由11名研究员和3位顾问组成,成员遍布世界各地,致力于缩小AI技术发展与AI战略之间的差距,并为AI安全方面的关键决策者提供建议。

Chinchilla是DeepMind的研究人员提出的一种新型预测计算优化模型。

实际上,此前在对Chinchilla进行实验时,就曾有研究员提出「训练数据很快就会成为扩展大型语言模型的瓶颈」。

因此他们分析了用于自然语言处理和计算机视觉的机器学习数据集大小的增长,并使用了两种方法进行推断:使用历史增长率,并为未来预测的计算预算估计计算最佳数据集大小。

在此之前,他们一直在收集有关机器学习输入趋势的数据,包括一些训练数据等,还通过估计未来几十年互联网上可用未标记数据的总存量,来调查数据使用增长。

由于历史预测趋势可能会受过去十年计算量异常增长的「误导」,研究团队还使用了Chinchilla缩放定律,来估计未来几年的数据集大小,提升计算结果的准确性。

最终,研究人员使用一系列概率模型估计未来几年英语语言和图像数据的总存量,并比较了训练数据集大小和总数据库存的预测,结果如下图所示。

这说明数据集的增长速度将远快于数据存量。

因此,如果当前趋势继续保持下去,数据存量被用光将是不可避免的。下表则显示了预测曲线上每个交叉点的中值耗尽年数。

高质量的语言数据库存最早可能在2026年之前用尽。

相比之下,低质量的语言数据和图像数据情况略好:前者将在2030年至2050年间用光,后者将在2030年至2060年之间。

在论文的最后,研究团队给出结论:如果数据效率没有大幅提高或新的数据来源可用,当前依赖巨大数据集不断膨胀的机器学习模型,它的增长趋势很可能会放缓。

网友:杞人忧天,Efficient Zero了解一下


不过在这篇文章的评论区里,大多数网友却认为作者杞人忧天。

Reddit上,一位名为ktpr的网友表示:

「自我监督学习有啥毛病么?如果任务指定得好,它甚至可以组合扩展数据集大小。」

名为lostmsn的网友则更加不客气。他直言:

「Efficient Zero都不了解一下?我认为作者已经严重脱离时代了。」

Efficient Zero是一种能高效采样的强化学习算法,由清华大学的高阳博士提出。

在数据量有限的情况下,Efficient Zero一定程度上解决了强化学习的性能问题,并在算法通用测试基准Atari Game上获得了验证。

在这篇论文作者团队的博客上,就连他们自己也坦言:

「我们所有的结论都基于不切实际的假设,即当前机器学习数据使用和生产的趋势将继续保持下去,并且数据效率不会有重大提升。」

「一个更加靠谱的模型应该考虑到机器学习数据效率的提高、合成数据的使用以及其他算法和经济因素。」

「因此就实际情况来说,这种分析有严重的局限性。模型的不确定性非常高。」

「不过总体而言,我们仍认为由于缺乏训练数据,到2040年时机器学习模型的扩展有大约有20%的可能性会显著放缓。」

参考资料:

https://arxiv.org/abs/2211.04325

https://epochai.org/blog/will-we-run-out-of-ml-data-evidence-from-projecting-dataset

https://www.reddit.com/r/MachineLearning/comments/yx7zft/r_will_we_run_out_of_data_an_analysis_of_the/


相关文章
|
Java
java 读取文件 获取byte[]字节 并执行Gzip的压缩和解压
java 读取文件 获取byte[]字节 并执行Gzip的压缩和解压
535 0
|
2月前
|
存储 安全 固态存储
2026阿里云服务器价格表:最新收费标准与38元1年、9.9元1个月、99元1年等活动价格参考
阿里云服务器收费标准涵盖实例配置、带宽及云盘三大核心组件,价格随规格、时长动态调整。2026年活动中推出多类优惠:轻量应用服务器2核4G低至9.9元/月、199元/年;经济型e实例2核2G 3M带宽99元/年;九代ECS(如计算型c9i 8核16G)年付低至6.4折。选购时需注意带宽与CPU/内存的匹配、云盘类型选择及实例适用场景。用户还可领取各种优惠券,在活动价基础上进一步减免,实现成本优化。
1052 4
|
11天前
|
机器学习/深度学习 人工智能 缓存
中国AI又赢了!成本砍到前代1/10!DeepSeek V4为什么能这么便宜?
DeepSeek V4以自研CSA+HCA混合稀疏注意力架构,实现百万上下文算力需求降至前代1/10;KV缓存压缩至7%,消费级显卡即可运行;全量开源、免费商用。精度不妥协——MRCR检索准确率83.5%,超越Gemini 3.1 Pro,真正让长文本AI从“奢侈品”变为普惠“水电煤”。(239字)
210 2
|
15天前
|
运维 数据库 数据安全/隐私保护
【微服务】微服务 vs 单体架构 区别、服务拆分原则、DDD领域驱动设计
本文构建“架构对比→拆分准则→DDD方法论→落地实践→避坑指南”闭环体系,系统剖析单体与微服务的本质差异、演进路径及反模式;详解微服务拆分八大原则与六大禁忌;深度整合DDD战略设计(限界上下文即服务边界)与战术设计(四层架构+聚合建模),提供从0到1的渐进式落地路径与各阶段最佳实践。
|
2月前
|
SQL 人工智能 算法
2026大厂校招笔试指南(高频考点+真实趋势)
本文直击校招笔试痛点:题刷得多却过不了?问题不在努力,而在准备错位!详解大厂笔试新趋势——重工程能力、轻纯算法量;拆解选择题核心考点、算法真实难度分布、高频必掌握题型,并强调输入输出等易忽略细节,提供科学备考路径。
|
5月前
|
编解码 芯片 C++
观海微电子----LVDS接口
LVDS(低电压差分信号)是TTL接口的升级版,采用低压差分技术实现高速、低功耗、低干扰的数据传输,广泛应用于高清显示屏。支持单/双路6bit或8bit模式,通过串行传输提升信号完整性,适用于高分辨率显示需求。
观海微电子----LVDS接口
|
编解码 移动开发 HTML5
简要描述多媒体的格式都有哪些
【10月更文挑战第5天】简要描述多媒体的格式都有哪些。
513 3
|
云安全 存储 运维
阿里云安全体检功能评测报告
阿里云安全体检功能评测报告
343 7
|
安全 Linux 调度
xenomai+linux双内核下的时钟管理机制
clock是操作系统正常运行的发动机,系统利用时钟中断维持系统时间、促使任务调度,以保证所有进程共享CPU资源;可以说,“时钟中断”是整个操作系统的脉搏。那你是否好奇xenomai cobalt内核和Linux内核双内核共存的情况下,时间子系统是如何工作的?一个硬件时钟如何为两个操作系统提供服务的?本文将揭开xenomai双核系统时间机制
659 0
xenomai+linux双内核下的时钟管理机制
|
前端开发
useEffect 的第二个参数, 传空数组和传依赖数组有什么区别?
在 React 的 useEffect 钩子函数中,第二个参数用于指定依赖项数组。这个参数可以影响 useEffect 的触发时机和频率。在 React 的 useEffect 钩子函数中,第二个参数用于指定依赖项数组。这个参数可以影响 useEffect 的触发时机和频率。
567 0