随着OpenAI推出ChatGPT,AIGC迎来了前所未有的发展机遇。大模型技术已经不仅仅是技术趋势,而是深刻地塑造着我们交流、工作和思考的方式。本文介绍了笔者理解的大模型和AIGC的密切联系,从历史沿革到实际应用案例,再到面临的技术挑战和伦理监管问题,探讨这一技术浪潮如何引领我们进入一个智能化的未来。
前言
▐ 引言:AI时代,未来已来
2022.11月30号OpenAI推出ChatGPT后随即爆火,五天注册用户数过百万,2个月用户破1亿,成为史上增长最快的消费者应用。随后各大厂也纷纷卷入AIGC领域,迎来国产GPT大模型发布潮(百度"文新一言"、阿里"通义千问"、商汤"商量 SenseChat"等)及AI创业公司成立潮(王小川、李开复等)。
大模型代表一个新的技术AI时代的来临,大模型展现出的强大的语义理解,内容生成以及泛化能力正在逐渐改变我们的工作与生活方式(AI+)、工作方式和思维方式。正如《陆奇的大模型观》所讲当前我们正迎来新范式的新拐点,从信息系统到模型系统过渡,"模型"知识无处不在。人工智能的浪潮正在引领新的技术革命,或许可称为第五次工业革命。
(【注】推荐大家去阅读《陆奇的大模型观》。强烈建议直接看陆奇演讲视频 奇绩创坛| 陆奇最新演讲完整视频|大模型带来的新范式:演讲涵盖陆奇对大模型时代的宏观思考,包括拐点的内在动因、技术演进、创业公司结构性机会点以及给创业者的建议。)
在人工智能的新时代,大模型技术正成为推动AIGC(人工智能生成内容)前沿的关键力量。本文将通过介绍我们的AIGC项目,来深入探讨这一技术的开发、实施与应用。因个人能力限制,文章中可能存在一些理解或表述错误的地方,希望各位大佬能及时批评和指正。
▐ AIGC简介与发展历程
在与业务等交谈过程中,经常会听大家提到AIGC、ChatGPT、大模型、XX等许多概念,但也发现部分内容混淆。首先来解决下当下最火概念AIGC、ChatGPT、大模型到底是什么?
- ChatGPT "Chat Generative Pre-trained Transformer”的缩写,ChatGPT是一种基于人工智能技术的聊天机器人,能用于问答、文本摘要生成、机器翻译、分类、代码生成和对话AI,是一款由OpenAI开发的基于Transformer架构的的自然语言处理工具。
- AIGC,全名“AI generated content”,又称生成式AI,意为人工智能生成内容。狭义概念是利用AI自动生成内容的生产方式(UGC->PGC->AIGC);广义的AIGC可以看作像人类一样具备生成创造能力的AI技术,包括但不限于文本生成、音频生成、图像生成、视频生成及图像、视频、文本间的跨模态生成等等。
- 大模型:大模型通常是指参数量非常大的深度学习模型,如Transformer架构的GPT-3、BERT、T5等模型。这些模型通过在海量数据上进行训练,能够学习到丰富的语言和知识表示,并展现出强大的自然语言处理能力。
AIGC是一个更广泛的概念,包括多种类型的内容生成;ChatGPT则是一个具体的产品。简单可以这么理解:AIGC是平台,ChatGPT是平台上的某个软件。
结合人工智能的演进历程,AIGC发展大致分三个阶段[人工智能行业生成内容(AIGC)白皮书(2022年)(地址:https://www.vzkoo.com/document/20220907cc987d2511ffc7c895ed6dd4.html?spm=ata.21736010.0.0.56075d51YB56mA)]:
- 早期萌芽阶段(1950s-1990s)
早期萌芽阶段(1950s-1990s),受限于当时的科技水平,AIGC仅限于小范围实验。
- 1957 年,莱杰伦·希勒和伦纳德·艾萨克森完成历史第一支由计算机创作的弦乐四重奏《伊利亚克组曲》。
- 1966年,约瑟夫·魏岑鲍姆和肯尼斯·科尔比开发了世界第一款可人机对话的机器人Eliza。
- 80年代中期,IBM基于(Hidden Markov Model,HMM)创造了语音控制打字机Tangora。
- 80年度末-90年度中,由于高昂系统成本无法带来可观的商业化变现,AIGC未取得重大突破。
- 沉淀积累阶段(1990s-2010s)
沉淀积累阶段(1990s-2010s),AIGC从实验性向实用性逐渐转变。
- 2006年,深度学习算法取得重大突破,及图形处理器(GPU)、张量处理器(TPU)等算力设备性能不断提升,互联网规模膨胀提供海量训练数据,但AIGC仍受限算法效率,应用及效果有待提升。
- 2007年,世界第一部完全由人工智能创作的小说《1 The Road》问世,虽其可读性不强,但象征意义远大于实际意义。
- 2012年,微软公开展示了一个全自动同声传译系统,基于深层神经网络(Deep Neural Network,DNN)可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。
- 快速发展阶段(2010s至今)
快速发展阶段(2010s至今),深度学习模型不断迭代,AIGC突破性发展。
- 2014年,随着以生成式对抗网络(Generative Adversarial Network,GAN)为代表深度学习算法的提出和迭代更新,AIGC迎来了新时代,生成内容百花齐放,效果逐渐逼真直至人类难以分辨。
- 2017年,微软人工智能少女“小冰”推出了世界首部100%由人工智能创作的诗集《阳光失了玻璃窗》。
- 2018年英伟达发布了StyleGAN模型可以自动生成图片,目前已经发展到了第四代模型StyleGAN-XL,其生成的高分辨率图片让人难以分辨真假。
- 2019 年,DeepMind 发布了 DVD-GAN 模型用以生成连续视频,在草地、广场等明确场景下表现突出。
- 2021 年,OpenAI 推出了 DALL-E 并于一年后推出了升级版本 DALL-E-2,主要应用于文本与图像的交互生成内容,用户只需输入简短的描述性文字,DALL-E-2 即可创作 出相应极高质量的卡通、写实、抽象等风格的绘画作品。
- 2022年,12月OpenAI的ChatGPT在推出,两个月后用户数量就突破1亿了。在文本生成、代码生成与修改、多轮对话等领域,已经展现了大幅超越过去AI 问答系统的能力。
- 随后各大厂也纷纷卷入AIGC领域(百度“文新一言”、阿里“通义千问”、商汤“商量”SenseChat等),涌现运用AI于写作、编曲、绘画和视频制作等创意领域。目前 AIGC 技术可以自动生成文字、图片、音频、视频,甚至 3D模型和代码,在搜索引擎、艺术创作、影音游戏,以及金融、教育、医疗、工业等领域的应用前景十分广阔。
- 据 TBanic Date 估计,到 2025 年人工智能生成数据占比将达到 10%。
▐ 大模型与AIGC的关联
大模型(Large Models)与AIGC(人工智能生成内容)之间存在密切的关联,AIGC依赖于大型的人工智能模型来生成高质量的内容。它们是人工智能技术发展的两个重要方面。简单来说:
- 技术基础:大模型是实现AIGC的重要技术基础之一。大模型通常经过训练,以从海量数据中学习语言、图像或音频的模式。这些模型能够理解和模仿人类创作的风格和结构,从而在不同的领域中生成新的内容。例如,使用大模型可以生成文本、图像等内容,这些都是AIGC的核心应用场景。
- 性能提升:随着大模型的发展,其生成内容的能力也在不断提高,使得AIGC的质量更加逼真和丰富,从而拓展了应用范围。
- 协同工作:在某些情况下,大模型可能需要与其他技术(如计算机视觉或自然语言理解)结合使用,共同为AIGC服务。
- 产业影响:大模型的广泛应用推动了AIGC相关产业的发展,AIGC利用这些模型在媒体、娱乐、教育、科研和商业领域中创造价值。
总的来说,大模型和AIGC相互促进、共同发展,形成了一个紧密联系的技术生态系统。在这个系统中,大模型提供了底层的技术支持,而AIGC则代表了一种实际的应用形式。
大模型应用实践:AIGC探索之旅(下):https://developer.aliyun.com/article/1443303