科技云报道:AI大模型终于走到了数据争夺战

简介: 数据标注行业亟待升级

科技云报道原创。

当前,大模型正处在产业落地前期,高质量的数据,是大模型实现产业化的关键要素。

最近,一项来自Epoch AI Research团队的研究抛出了一个残酷的事实:模型还要继续做大,数据却不够用了。

未命名1693795939.png

研究人员预测了2022年至2100年间可用的图像和语言数据总量,并据此估计了未来大模型训练数据集规模的增长趋势。

结果表明:高质量的语言数据存量将在2026年耗尽,低质量的语言数据和图像数据的存量将分别在2030年至2050年、2030年至2060年枯竭。

这意味着,如果数据效率没有显著提高或有新的数据源可用,那么到2040年,模型的规模增长将放缓。

对数据端的建设该重视起来了。

高质量数据成“抢手货”

随着全球新一轮AI热潮来临,大量训练数据已成为AI算法模型发展和演进的“燃料”。

从GPT的实验发现,随着模型参数量的增加,模型性能均得到不同程度的提高。

但值得注意的是,通过来自人类反馈的强化学习(RLHF)生成的InstructGPT模型,比100倍参数规模无监督的GPT-3模型效果更好,也说明了有监督的标注数据是大模型应用成功的关键之一。

如果以上预测是正确的,那么毫无疑问数据将成为做模型继续做大的主要制约因素,AI的进展也会随着数据量的耗尽而放缓。

阿里巴巴达摩院基础视觉团队负责人赵德丽博士曾在采访中表示,数据侧的建设将会成为每一个做大模型工作的机构必须要考虑的问题,大模型有多少能力,往往取决于有什么样的数据。

据赵德丽博士介绍,与文生图大模型相比,做文生视频大模型要难得多,原因就在于视频数据的数量远比不上文本和图像,更不要谈数据的质量了。相应地,目前已有的文生视频模型的效果都不尽如人意。

结合上述研究结果,如果当下的趋势继续下去,人类现有的数据库存一定会耗尽,而且高质量的数据会更少。

正因如此,一场数据争夺战正在拉开序幕。

目前,Adobe利用其数以亿计的库存照片数据库构建了自己的人工智能工具套件,名为Firefly。自3月份发布以来,Firefly已被用于创建超过10亿张图像,而Adobe股价已因此上涨了36%。

一些初创公司也正在蜂拥至这个新领域。今年4月,专注于人工智能的数据库公司Weaviate融资5000万美元,估值达到2亿美元。

仅仅一周后,其竞争对手PineCone就以7.5亿美元的估值筹集了1亿美元资金。

本月早些时候,另一家数据库初创公司Neon也获得了4600万美元的融资。

在国内,百度智能云近期也升级了大模型数据服务能力,建设了国内首个专业大模型数据标注基地。百度智能云方面表示,目前已经在全国与各地政府合作,共建了10多个数据标注基地。

显然,对数据的争夺才刚刚开始。

数据标注再次迎来爆发

AI大模型带来了大量需求,与之相伴的是中国数据标注行业的迅速发展。

招商证券认为,一方面,进入大数据时代后,人们各种行为的电子化、网络化带来海量数据,但产生的数据只有1%能被收集和保存,并且收集的数据中90%是非结构化的数据;另一方面,人工智能的兴起带来模型训练所用结构化数据的巨大需求,数据标注的重要性逐渐突显。

有业内人士认为,预计今年10月国内会迎来一波大的类chatGPT大模型的数据需求,而且这是一个海量的需求,以目前国内几家头部数据标注公司来看,目前产能还不足以满足需求。

艾瑞咨询数据显示,包括数据采集、数据处理(标注)、数据存储、数据挖掘等模块在内的AI基础数据服务市场,将在未来数年内持续增长。

到2025年,国内AI基础数据服务市场的整体规模预计将达到101.1亿元,整体市场增速将达到31.8%(2024-2025年)。

据iResearch数据,2019年我国数据标注市场规模为30.9亿元,预计2025年市场规模突破100亿元,年复合增长率达到14.6%。

随着数据量的不断增长和数据结构的不断变化,数据标注行业涉及的领域也越来越广泛,特别是在自动驾驶、AIGC等领域内,数据标注需求量极大。

作为AI大语言模型高质量回答的基础,数据标注的生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)。

其中,数据标注需要识别图像、文本、视频等原始数据,并添加一个或多个标签为机器学习模型指定上下文,帮助其做出准确的预测。

当前,大部分数据标注任务仍然需要人工完成,而且各种数据类型和应用领域都需要相应领域的专业标注员来完成标注任务。

随着技术的发展,数据标准行业正在成为半人工智能、半人工化的行业。

面对大语言模型动辄上百亿参数的数据质量控制,需要通过标注平台将一个个复杂RLHF需求拆成很多个简单的工作流,让机器去做预处理,人去做深层的基于理解的反馈,以减少人在简单问题上的精力消耗,专注在专业问题上的标注。

业内一般采用主动质检加被动质检的方式,前者靠人为去做质检,后者是靠算法去做一些预识别。

但目前数据标注工具的准确率部分仅百分之几,部分准确率则可以达到80%、90%。机器标注的识别率越高,人工需求就会越少,成本、利润、速度、质量都能更加可控。

随着技术不断发展,未来数据标注行业可能会实现更高的自动化程度,不过应用领域不同,仍然需要一定数量的标注人员来进行标注任务。

传统数据标注亟待升级

值得注意的是,在如今火爆的大模型训练浪潮中,传统的数据标注需求,很可能是下降的。

让ChatGPT更具有“人味”的关键——强人工反馈RLHF,带来的是另一种更高要求的数据标注需求。

相关分析显示,在RLHF环节,模型首先在大数据集上进行预训练,再与专业的人工智能训练师进行交互,专业的标注人员会对ChatGPT生成的回答进行标注、评估和反馈,给出一个针对回答的分数或者标签。

这些标注数据可以作为强化学习过程中的“奖励函数”来指导ChatGPT的参数调整,最终帮助模型进行强化学习和不断优化。

也就是说,让ChatGPT“更具人味儿”的精妙之处很可能就在于——它可以利用人工标注的反馈结果不断优化自身模型,实现更合乎人类思维逻辑的表达。

但传统数据标注模式很难满足RLHF的需求。

在过去,数据标注公司的主流商业模式以销售工具系统和标注服务为主。一方面,缺少自有数据很少有出售精准数据集的服务。另一方面,人才升级作为一个系统工程,对数据标注公司的考验更高。

在完成这一步后,RLHF训练还涉及到不少事实判断和价值判断。其中,价值判断涉及到公认的"公序良俗",理论上是更容易拉齐AI认知的部分,事实判断则涉及各行业Know-How。

这往往需要行业专业人士出手,不是传统数据标注员,简单针对词性、图片细节进行标注就能实现的。

也就是说,要跟上新一代AI浪潮,数据标注公司不仅需要在数据层面进行升级,人才的更新换代同样重要。

目前的确已有标注公司开始在内部撰写《人员提升教程》,他们将在接下来重点培训标注人员对“升级后”的标注需求理解,以及回答方式的合规性等。

但是,在专业壁垒非常高的医疗等领域,数据标注仍面临着人才困境。

某数据标注公司运营负责人曾表示,“特别是医疗,有些是普通人经过培训可以标的,有的必须要医疗从业者,这背后的人才招聘难度可想而知。”

但即便困难重重,也不意味着数据标注公司会立马进行一波洗牌——至少,在大模型训练的几个阶段内,初始阶段的半监督学习同样对传统数据标注存在需求。

面对大模型和RLHF的机遇,重现大规模投入似乎在所难免。

有业内人士认为,如果数据标注公司期望在垂直领域做更高层级的数据服务,可能要成立一个全新的产品线。甚至,具备AI研发背景的创始人会是更合适的数据标注创业者。

面对新一代AI浪潮,没有人可以躺着挣钱——这是每一次技术迭代冲击背后,暗中标注好的“价格”。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

相关文章
|
8天前
|
机器学习/深度学习 人工智能 自动驾驶
企业内训|AI大模型在汽车行业的前沿应用研修-某汽车集团
本课程是TsingtaoAI为某汽车集团高级项目经理设计研发,课程全面系统地解析AI的发展历程、技术基础及其在汽车行业的深度应用。通过深入浅出的理论讲解、丰富的行业案例分析以及实战项目训练,学员将全面掌握机器学习、深度学习、NLP与CV等核心技术,了解自动驾驶、智能制造、车联网与智能营销等关键应用场景,洞悉AI技术对企业战略布局的深远影响。
140 97
|
6天前
|
人工智能 前端开发 小程序
2024年12月30日蜻蜓蜻蜓AI工具系统v1.0.0发布-优雅草科技本产品前端源代码已对外开源可免费商用-优雅草老八
2024年12月30日蜻蜓蜻蜓AI工具系统v1.0.0发布-优雅草科技本产品前端源代码已对外开源可免费商用-优雅草老八
2024年12月30日蜻蜓蜻蜓AI工具系统v1.0.0发布-优雅草科技本产品前端源代码已对外开源可免费商用-优雅草老八
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型,支持高分辨率图像处理和双语交互,能够预测并执行GUI操作,广泛应用于自动化任务。
39 12
CogAgent-9B:智谱 AI 开源 GLM-PC 的基座模型,专注于预测和执行 GUI 操作,可应用于自动化交互任务
|
10天前
|
人工智能 安全 DataX
【瓴羊数据荟】 Data x AI :大模型时代的数据治理创新实践 | 瓴羊数据Meet Up城市行第三期
第三期瓴羊数据Meetup 将于2025年1月3日在线上与大家见面,共同探讨AI时代的数据治理实践。
61 10
【瓴羊数据荟】 Data x  AI :大模型时代的数据治理创新实践 | 瓴羊数据Meet Up城市行第三期
|
10天前
|
存储 人工智能 人机交互
PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化
PC Agent 是上海交通大学与 GAIR 实验室联合推出的智能 AI 系统,能够模拟人类认知过程,自动化执行复杂的数字任务,如组织研究材料、起草报告等,展现了卓越的数据效率和实际应用潜力。
85 1
PC Agent:开源 AI 电脑智能体,自动收集人机交互数据,模拟认知过程实现办公自动化
|
3天前
|
存储 数据采集 算法
构建AI数据管道:从数据到洞察的高效之旅最佳实践
本文探讨了大模型从数据处理、模型训练到推理的全流程解决方案,特别强调数据、算法和算力三大要素。在数据处理方面,介绍了多模态数据的高效清洗与存储优化;模型训练中,重点解决了大规模数据集和CheckPoint的高效管理;推理部分则通过P2P分布式加载等技术提升效率。案例展示了如何在云平台上实现高性能、低成本的数据处理与模型训练,确保业务场景下的最优表现。
|
1天前
|
数据采集 人工智能 搜索推荐
SocraticLM:通过 AI 提问引导学生主动思考,中科大与科大讯飞联合推出苏格拉底式教育大模型
SocraticLM 是由中科大和科大讯飞联合开发的苏格拉底式教学大模型,通过提问引导学生主动思考,提供个性化教学,显著提升教学效果。
22 9
SocraticLM:通过 AI 提问引导学生主动思考,中科大与科大讯飞联合推出苏格拉底式教育大模型
|
1天前
|
人工智能 Python
ImBD:复旦联合华南理工推出 AI 内容检测模型,快速辨别文本内容是否为 AI 生成
ImBD是一款由复旦大学、华南理工大学等机构联合推出的AI内容检测器,能够快速识别机器修订文本,适用于多种场景,显著提升检测性能。
18 6
ImBD:复旦联合华南理工推出 AI 内容检测模型,快速辨别文本内容是否为 AI 生成
|
6天前
|
人工智能 自然语言处理 前端开发
三大行业案例:AI大模型+Agent实践全景
本文将从AI Agent和大模型的发展背景切入,结合51Talk、哈啰出行以及B站三个各具特色的行业案例,带你一窥事件驱动架构、RAG技术、人机协作流程,以及一整套行之有效的实操方法。具体包含内容有:51Talk如何让智能客服“主动进攻”,带来约课率、出席率双提升;哈啰出行如何由Copilot模式升级为Agent模式,并应用到客服、营销策略生成等多个业务场景;B站又是如何借力大模型与RAG方法,引爆了平台的高效内容检索和强互动用户体验。
80 5
|
3天前
|
人工智能 供应链 安全
面向高效大模型推理的软硬协同加速技术 多元化 AI 硬件引入评测体系
本文介绍了AI硬件评测体系的三大核心方面:统一评测标准、平台化与工具化、多维度数据消费链路。通过标准化评测流程,涵盖硬件性能、模型推理和训练性能,确保评测结果客观透明。平台化实现资源管理与任务调度,支持大规模周期性评测;工具化则应对紧急场景,快速适配并生成报告。最后,多维度数据消费链路将评测数据结构化保存,服务于综合通用、特定业务及专业性能分析等场景,帮助用户更好地理解和使用AI硬件。