从云存储的角度浅显的聊一聊 AIGC

本文涉及的产品
对象存储 OSS,20GB 3个月
阿里云盘企业版 CDE,企业版用户数5人 500GB空间
云备份 Cloud Backup,100GB 3个月
简介: 现在,你要是还没听过“通义千问”、“通义听悟”,出门都不好意思和别人打招呼。那么,以其为代表的 AIGC(AI Generated Content)又是如何凭实力屡屡破圈,其发展更是经历了怎样的烈火烹油、鲜花着锦呢?

储留香.jpg

正所谓:桃李春风一杯酒,江湖夜雨十年灯。  


人工智能在过去十年中从实验室走向产业化生产,在语音识别、文本识别、视频识别等感知领域取得了巨大突破。


现在,你要是还没听过“通义千问”、“通义听悟”,出门都不好意思和别人打招呼。那么,以其为代表的 AIGC(AI Generated Content)又是如何凭实力屡屡破圈,其发展更是经历了怎样的烈火烹油、鲜花着锦呢?


今天,我们就来聊一聊。


聊之前,先插播一段广告:《算力赋能 AIGC 专题训练营》火热开营,阿里云技术专家保姆式教学,利用文件存储 NAS 和机器学习平台 PAI,搭建当下最热的 AIGC 应用,戳这里>>,立即参与!


一、从模仿到创造,AIGC “天生要强”  


说到 AIGC,就不得不说与其相对应的 PGC(Professional Generated Content)和 UGC(User Generated Content)。不论是 PGC 还是 UGC,都是以人作为内容的主要生产者(最早的“以人为本”的概念甚至可以追溯到两千多年前的管仲),而 AIGC 是以 AI 为核心来生产内容,因此二者有着显著的不同。

配图2.png

AIGC 技术主要涉及自然语言处理 NLP(包含自然语言理解 NLU 和自然语言生成 NLG)、AIGC 生成算法、预训练模型、多模态等。这些技术本质上是使用 AI 算法对大量训练数据集进行学习,寻找已有数据的规律并适当举一反三,从而使 AI 获得智能数字内容孪生能力、编辑能力、创作能力。

配图3.png

传统的 AI 偏向于分析能力,个性化推荐就离不开它。但,现在,时代变了,版本改了。与传统的 AI 相比,在算法、算力、数据这三驾马车的拉动下,AIGC 青出于蓝而胜于蓝。

配图1-3.png

单来说,主要有三大显著优势:

首先是“无中生有”。让 AI 从感知、理解世界升级到生成、创造世界。传统模式中,AI 就像机械版王语嫣,讲究“笔笔有来历”,给出的回答都出自事先存入的数据库。生成式 AI 在收到指令信息后,却会进行创造性地再创作。比如,生成式 AI 模型可以基于真实的人脸,生成现实世界中并不存在的人脸。

其次是“自我训练”。一杯茶一套题,聚精会神搞学习。AIGC 生成算法使得机器可以在海量数据上进行无监督预训练,不需要班主任盯梢,大大缩短了训练时间,智能气息拉满。在此之前,模型机器训练(如自动驾驶)十分依赖人工数据标注,一旦转换场景就需要重新标注,需要耗费大量人力且低效。

最后是“走向通用”。能做到“触类旁通”的通用人工智能,是人工智能的终极理想,AIGC 作为全村的希望,正逐渐靠近这个理想。在多模态技术的支持下,预训练模型向横跨文本、图像、语音、视频的全模态通用模型发展。这对好 CP 携手,同一个AIGC 模型才能高质量地生产出多种类型的内容。

配图4.png

二、“三剑合璧”,驱动 AIGC 全面提速  


2021 年之前,AIGC 生成的主要还是文字,自动写稿神器的存在感满满。如今,新一代模型可以处理的格式内容多点开花,不管是文字、图像,还是代码、音视频,通通不在话下。近日国家互联网信息办公室发布的《生成式人工智能服务管理办法(征求意见稿)》,就明确指出生成式人工智能包括基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术。

配图5.png

AIGC 高质量内容产出的背后,离不开大型跨模态预训练模型的成熟。这是因为随着参数规模和模型性能的不断提升,大语言模型 LLM(即Large Language Model,参数一般在百亿以上)在自然语言处理、计算机视觉、跨模态等领域展现出较好的拓展性,并且不断扩展应用边界,持续推动 AIGC 的应用落地。

配图6.png

阿里“通义千问”大模型,就是由庞大数据集训练而成。要知道,数据决定了机器学习算法的性能、泛化能力、应用效果;数据获取、标注、清洗、存储也是机器学习瓶颈之一。“通义千问”强大的通用语言能力背后,是超过 10 万亿的参数量。同时,通义千问还引入了知识图谱技术,对各类知识进行分层、归纳、关联,从而给出更为准确、全面的答案。阿里将开放通义千问的能力,为每一家企业打造自己的专属 GPT (一种预训练的语言模型)。


需要注意的是,AI 大模型的推理、训练高度依赖 GPU 芯片,就像唐僧离不开排头兵孙悟空。缺少芯片会导致算力不足,算力不足意味着无法处理庞大的模型和数据量。所以,不同厂商的 AI 模型会存在智商差距。有的能出口成章,有的还在牙牙学语。

配图7.png

此外,AIGC 不仅需要大模型、大数据和高算力“三剑合璧”,也需要一个稳定、高效、安全的数字基础设施,来支持其完成生成、存储和传输内容的整个过程,并尽可能避免重复建设、减少数据移动的工作量。


云计算基础设施(包括高性能芯片、存储、计算、网络等)作为算力底座,重要性日益凸显,可以为 AICG 应用以及产业发展提供可持续发展的保障。因此,不少公司选择把模型开发这项“AI 炼丹”的工作通过云来完成,以相对较低的成本,满足突发性的算力需求。积极迎接 AIGC 时代的阿里云,也为客户架起了“炼丹炉”。

配图8-2.png


三、云存储“牵手” AIGC,成本更低、性能更高


AI 大模型的研发动辄要超千亿参数,其难度不容小觑。当下,在 AI 大模型赛道中,巨头派、海归派、创业公司转型派、学院派等各路选手争奇斗艳。国外头部企业偏向于通用场景下的 AIGC 能力,国内在 AIGC 应用方向更加场景聚焦。不过,有的选手在发展 AIGC 业务的过程中,不可避免地遇到了一些挑战:

● 数据贯穿整个 AI 训练环节,存储存在孤岛,需要多套存储系统,在多系统间频繁搬迁数据,存储效率低;

● 训练模型需要百万级图片/文本素材,数据长期保存带来存储较高的成本;

● 在大模型训练任务场景,动辄需要几百甚至几千张 GPU 卡的算力,服务器节点多、跨服务器通信需求巨大,使得网络带宽性能成为 GPU 集群系统的瓶颈。

为了清除这些“拦路虎”,更好地发展 AIGC 业务,就需要一套成熟的方案,来承载训练、推理环节所需要的海量数据。

万兴科技架构图-对外.png

■ 低成本

使用阿里云对象存储 OSS 构建统一的数据存储底座,生命周期分层策略降低冷数据的存储成本。同时提供传输加速方案,降低海外用户的等待时间;围绕业务活动峰谷,文件存储 NAS 进行弹性扩缩容,进一步节省成本。  


■ 高性能

文件存储 CPFS 不仅提供高达百 GB 的访问带宽,可以满足成百上千个节点同时访问的需求,同时支持数据流动功能,加速训练环节的数据读写性能。同时,CPFS 配合 PAI-灵骏智算集群在模型训练上实现了 3 倍以上的加速效果,并且凭借自研高性能网络技术栈,进一步消除性能拓展的瓶颈;在推理场景下,文件存储 NAS 提供了多机 GPU 计算所需的标准文件接口、多机写和读一致性,以及高聚合吞吐性能。


AI 就像继承绝世武功且不走寻常路的江湖游侠,走的是上层路线,打的从来就是排行榜前列的,比如 AlphaGo 一上来就对战顶尖棋手,而 AIGC 则像是一个厚积薄发的一代宗师,自创独门心法,开宗立派。现在,AIGC 已经成为各路英豪必争之地,在影视、娱乐、元宇宙等领域更是不断地揭开新的篇章。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
目录
打赏
0
2
2
5
2366
分享
相关文章
老板点赞!技术人如何用架构优化打赢降本增效战?
大家好,我是小米,一个喜欢分享技术的小架构师。通过亲身经历,我将介绍如何通过架构优化帮助公司降本增效。两年前,我加入一家初创公司,面对成本高企的问题,通过弹性伸缩、微服务化和数据治理等手段,成功降低了40%的技术成本,提升了60%的系统响应速度。希望我的经验能给你启发!关注我的微信公众号“软件求生”,获取更多技术干货。
65 5
作者推荐 | 高并发挑战?试试这些架构优化篇技巧,让你的系统焕发新生!
作者推荐 | 高并发挑战?试试这些架构优化篇技巧,让你的系统焕发新生!
568 1
弯道超车!阿里P5~P8学习路线终发布,程序员进阶的关键所在
我们都知道优秀程序员的成长之路就是一条不断打怪升级之路。相信很多人都思考过以下问题:初级程序员如何快速成长?怎样从—个初学者成长为一名合格的程序员?又如何从一名合格的程序员登上职业高峰,成为一名CTO(首席技术官)呢?
从平凡到非凡 阿里云李克的技术进阶之路
人物简介:李克 阿里云边缘云计算领域技术负责人 2009年硕士毕业加入阿里至今,一直从事CDN及边缘云领域的技术研发工作,在CDN、边缘计算等方向上有丰富的行业经验,全程参与了阿里云CDN商业化转型,边缘云中台体系的建设,研究方向包括数据智能、分布式架构和性能优化、云计算等领域。目前主要负责边缘云的技术研发以及架构演进。
976 1
从平凡到非凡 阿里云李克的技术进阶之路
学习云计算从入门到实践,一大波视频干货拿走不谢!(文末有彩蛋)
什么是云计算?从业者应该如何入门云计算?企业如何选择阿里云云产品来支持自己的业务形态?看行业大咖如何利用云产品来整合及优化自己的架构? 超过三十节课,数十位阿里专家倾情奉献,一一为您解答! 十节课,轻松入门云计算 课程简介:从分布式调度、存储、数据库到分布式系统架构,十节课轻松了解云计算
81337 0
学习云计算从入门到实践,一大波视频干货拿走不谢!(文末有彩蛋)
如何用简单的方式获取C端用户,实力派王素杰说要从B端做起|靠才华
在线教育作为o2o的巨大分支,一个曾经非常显著的优势是提供了新的传播途径。一根网线连接名师和用户,使得老师的个人能力不再局限于地域,用户的学习方式也不再局限于传统课堂。
482 0

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等