最早2026?全球优质语言数据「存量」告急!网友:杞人忧天

简介: 最早2026?全球优质语言数据「存量」告急!网友:杞人忧天
【新智元导读】AI用光所有数据,这一天真的快来了?


作为人工智能的三要素之一,数据的作用举足轻重。

但大家有没有想过:假如有一天,全世界的数据都用完了那咋整?

实际上,提出这个问题的人绝对没有精神问题,因为这一天——可能真的快来了!!!

近日,研究员Pablo Villalobos等人一篇名为《我们会用完数据吗?机器学习中数据集缩放的局限性分析》的论文,发表在了arXiv上。

他们根据之前对数据集大小趋势的分析,预测了语言和视觉领域数据集大小的增长,估计了未来几十年可用未标记数据总存量的发展趋势。

他们的研究表明:最早在2026年,高质量语言数据就将全部消耗殆尽!机器学习发展的速度也将因此而放缓。实在不容乐观。

两方法双管齐下,结果不容乐观


这篇论文的研究团队由11名研究员和3位顾问组成,成员遍布世界各地,致力于缩小AI技术发展与AI战略之间的差距,并为AI安全方面的关键决策者提供建议。

Chinchilla是DeepMind的研究人员提出的一种新型预测计算优化模型。

实际上,此前在对Chinchilla进行实验时,就曾有研究员提出「训练数据很快就会成为扩展大型语言模型的瓶颈」。

因此他们分析了用于自然语言处理和计算机视觉的机器学习数据集大小的增长,并使用了两种方法进行推断:使用历史增长率,并为未来预测的计算预算估计计算最佳数据集大小。

在此之前,他们一直在收集有关机器学习输入趋势的数据,包括一些训练数据等,还通过估计未来几十年互联网上可用未标记数据的总存量,来调查数据使用增长。

由于历史预测趋势可能会受过去十年计算量异常增长的「误导」,研究团队还使用了Chinchilla缩放定律,来估计未来几年的数据集大小,提升计算结果的准确性。

最终,研究人员使用一系列概率模型估计未来几年英语语言和图像数据的总存量,并比较了训练数据集大小和总数据库存的预测,结果如下图所示。

这说明数据集的增长速度将远快于数据存量。

因此,如果当前趋势继续保持下去,数据存量被用光将是不可避免的。下表则显示了预测曲线上每个交叉点的中值耗尽年数。

高质量的语言数据库存最早可能在2026年之前用尽。

相比之下,低质量的语言数据和图像数据情况略好:前者将在2030年至2050年间用光,后者将在2030年至2060年之间。

在论文的最后,研究团队给出结论:如果数据效率没有大幅提高或新的数据来源可用,当前依赖巨大数据集不断膨胀的机器学习模型,它的增长趋势很可能会放缓。

网友:杞人忧天,Efficient Zero了解一下


不过在这篇文章的评论区里,大多数网友却认为作者杞人忧天。

Reddit上,一位名为ktpr的网友表示:

「自我监督学习有啥毛病么?如果任务指定得好,它甚至可以组合扩展数据集大小。」

名为lostmsn的网友则更加不客气。他直言:

「Efficient Zero都不了解一下?我认为作者已经严重脱离时代了。」

Efficient Zero是一种能高效采样的强化学习算法,由清华大学的高阳博士提出。

在数据量有限的情况下,Efficient Zero一定程度上解决了强化学习的性能问题,并在算法通用测试基准Atari Game上获得了验证。

在这篇论文作者团队的博客上,就连他们自己也坦言:

「我们所有的结论都基于不切实际的假设,即当前机器学习数据使用和生产的趋势将继续保持下去,并且数据效率不会有重大提升。」

「一个更加靠谱的模型应该考虑到机器学习数据效率的提高、合成数据的使用以及其他算法和经济因素。」

「因此就实际情况来说,这种分析有严重的局限性。模型的不确定性非常高。」

「不过总体而言,我们仍认为由于缺乏训练数据,到2040年时机器学习模型的扩展有大约有20%的可能性会显著放缓。」

参考资料:

https://arxiv.org/abs/2211.04325

https://epochai.org/blog/will-we-run-out-of-ml-data-evidence-from-projecting-dataset

https://www.reddit.com/r/MachineLearning/comments/yx7zft/r_will_we_run_out_of_data_an_analysis_of_the/


相关文章
|
8月前
|
弹性计算 NoSQL 关系型数据库
全网都在讨论阿里云降价,这波操作给跪了!
全网都在讨论阿里云降价,这波操作给跪了!百款产品直降,平均降幅20%,阿里云希望通过此次大规模降价,让更多企业和开发者用上先进的公共云服务,加速云计算在中国各行各业的普及和发展。这次降价包括云服务器ECS、对象存储OSS、云数据库都降价了,真降价,直降价:百款产品直降,平均降幅20%,阿里云百科分享阿里云2024年降价信息汇总表
|
关系型数据库 MySQL 数据库
阿里技术官甩出的768页MySQL优化笔记,火遍全网不是意外
MySQL之所以能成为现在最流行的开源数据库,这跟它的开放性、包容性是分不开的。它的入门门槛低到用一条命令就能把MySQL安装起来,你能在程序开发的入门资料中很容易就找到MySQL的配套使用教程,你可以不用付任何费用就能在自己的环境中部署起来对外承载业务。
|
Web App开发 缓存 负载均衡
阿里技术官面鹅厂,被高并发问蒙,含泪整理全网最全线程并发文档
当你开始开始去跳槽面试的时候,明明只是一份15K的工作,却问你有没有高并发、分布式经验,火箭造的让你猝不及防,结果就是凉凉。现如今市场高并发编程、分布式、负载均衡、集群等可以说是现在高级架构后端求职的必备技能。
|
算法 物联网 开发者
分享一个近期开源火爆全网的额温枪方案(硬件+源码)
分享一个近期开源火爆全网的额温枪方案(硬件+源码)
201 1
|
消息中间件 Apache 双11
「开源人说」第一期重磅上线!一起来看《十万亿条消息背后的故事》
阿里每天近万亿级别的消息是如何完成实时消息传递的?几十万台服务器,成千上万个应用顺畅协作和消息实时传递都离不开分布式消息中间件RocketMQ。长久以来,RocketMQ 易于部署、高性能、高可用的架构,支撑了数十年来集团内外海量的业务场景。 2016年,阿里巴巴宣布将开源分布式消息中间件RocketMQ捐赠给Apache,并一举成为Apache 顶级项目(TLP)。一个由中国开发者发起的项目,站在了一个世界的舞台上,受到全球的企业和开发者关注。RocketMQ深受开发者欢迎,多次斩获行业大奖,究竟是怎样的一群人让这一项目不断迸发出蓬勃的生命力?
11051 3
|
人工智能 大数据 程序员
DayDayUp:2019.12.31罗振宇2020年跨年演讲《时间的朋友》读后有感—思维决定一个人的上限,能力决定一个人的下限
DayDayUp:2019.12.31罗振宇2020年跨年演讲《时间的朋友》读后有感—思维决定一个人的上限,能力决定一个人的下限
DayDayUp:2019.12.31罗振宇2020年跨年演讲《时间的朋友》读后有感—思维决定一个人的上限,能力决定一个人的下限
|
人工智能 自然语言处理 搜索推荐
增长难题如何破?20天后引擎大会或给出“答题指引”
增长难题如何破?20天后引擎大会或给出“答题指引”
267 0
增长难题如何破?20天后引擎大会或给出“答题指引”
|
架构师 定位技术 开发者
在有限的时间内解决关键的问题:百度开放云编程马拉松
Hackathon(编程马拉松)是一项让开发者们聚在一起,以团队合作的形式在特定时间内完成自己的参赛作品的活动。11月24日,由百度开放云与PingWest联合举办的百度开放云编程马拉松活动顺利结束,这次比赛共有20只团队报名参赛,从23日下午开始,经过连续30个小时的奋战后,有19只团队完成了自己的参赛作品。每组团队在对自己的作品进行Demo演示后,评委们根据创意、完成度、百度开放云相关度和商业化四个方面对每组作品进行了打分,最后有5只团队脱颖而出,分别获得了本次活动的不同奖项。
193 0
在有限的时间内解决关键的问题:百度开放云编程马拉松
|
人工智能 安全 物联网
1月15日云栖精选夜读:燃!阿里技术又破世界纪录:机器阅读理解力首次超过人类!
2018年伊始,人工智能取得重大突破!1月11日,由斯坦福大学发起的机器阅读理解领域顶级赛事SQuAD刷新排名,令业界振奋的是人工智能的阅读能力历史上首次超越人类。阿里巴巴凭借82.440的精准率打破了世界纪录,并且超越了人类82.304的成绩。
3231 0
1月15日云栖精选夜读:燃!阿里技术又破世界纪录:机器阅读理解力首次超过人类!

热门文章

最新文章

下一篇
开通oss服务