《达摩院2023十大科技趋势》——场景变换——生成式 AI

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 《达摩院2023十大科技趋势》——场景变换——生成式 AI

趋势十、生成式AI

生成式AI进入应用爆发期,将极大地推动数字化内容生产与创造。


摘要


生成式 AI(Generative AI 或 AIGC) 是利用现有文本、音频文件或图像创建 新内容的技术。过去一年,其技术上的 进展主要来自于三大领域:图像生成领 域, 以 DALL·E-2、Stable Diffusion 为 代表的扩散模型(Diffusion Model); 自然语言处理(NLP)领域基于 GPT-3.5 的 ChatGPT;代码生成领域基于 Codex 的 Copilot。 现阶段的生成式 AI 通常被 用来生成产品原型或初稿,应用场景涵盖图文创作、代码生成、游戏、广告、 艺术平面设计等。未来,生成式 AI 将成 为一项大众化的基础技术,极大的提高 数字化内容的丰富度、创造性与生产效 率,其应用边界也将随着技术的进步与 成本的降低扩展到更多领域。



image.png


趋势解读


生成式 AI 使用各种机器学习算法, 从数据中学习要素,使机器能够创 建全新的数字视频、图像、文本、音频或 代码等内容。它创建出的内容与训练数据 保持相似,而非复制。它的发展得益于近 年来大模型在基础研究尤其是深度学习上 的突破,真实数据的积累和计算成本的下 降。在过去的这一年,生成式 AI 将人工智 能的价值聚焦到“创造”二字,这标志着人 工智能开始具备定义和呈现新事物的能力。


过去一年,生成式 AI 的进展主要体 现在如下领域:


图像生成领域的进展来自扩散模型 (Diffusion model) 的 应 用, 以 DALL· E-2、Stable Diffusion 为代表。扩散模型 是一种从噪声中生成图像的深度学习技术。 扩散模型技术的背后,是更精准理解人类 语义的预训练模型、以及文本与图像统一 表示模型(CLIP)的支撑。它的出现,让 图像生成变得更具想象力。


自然语言处理(NLP)领域的进展来 自于基于 GPT3.5 的 ChatGPT(Generative  Pre-trained Transformer)。这是一种基于 互联网可用数据训练的文本生成深度学习 模型,用于问答、文本摘要生成、机器翻 译、分类、代码生成和对话 AI。得益于文 本和代码相结合的预训练大模型的发展, ChatGPT 引入了人工标注数据和强化学习 (RLHF)来进行持续训练和优化。加入强 化学习后,大模型能够理解人类的指令以 及背后的含义,根据人类反馈来判断答案 的质量,给出可解释的答案,并对于不合 适的问题给出合理的回复,形成一个可迭 代反馈的闭环。


代码生成领域的进展来自代码生成系 统 AlphaCode 和 Copilot。2022 年 2 月, Deepmind 推出了他们的最新研究成果 AlphaCode。它是一个可以自主编程的系 统,在 Codeforces 举办的编程竞赛中,超 过了 47% 的人类工程师。这标志着 AI 代 码生成系统,首次在编程竞赛中,达到了 具有竞争力的水平。 基于开源代码训练的 Copilot 开始商业化,作为订阅服务提供给 开发者,用户可以通过使用 Copilot 自动补 全代码。 Copilot 作为一个基于大型语言模 型的系统,尽管在多数情况下仍需要人工 二次修正,但在简单、重复性的代码生成上, 将帮助开发者提升工作效率,并给 IDE(集 成开发环境)行业带来重大影响。


随着内容创造的爆发式增长,如何做 到内容在质量和语义上的可控,成为可控 式生成,将是生成式 AI 面临的主要挑战。 在产业化方面,降成本仍是关键挑战。只 有像 ChatGPT 这样的大模型训练成本和推 理成本足够低,才有可能规模化推广。此外, 数据的安全可控、创作版权和信任问题也 需要随着产业化加快逐一解决。


未来三年,生成式 AI 将步入技术产品 化的快车道,在商业模式上会有更多探索, 产业生态也会随着应用的普及逐步完善。届时,生成式 AI 的内容创造能力将达到人类 水平。拥有数据、计算能力、产品化经验的 大型科技公司将成为生成式 AI 落地的主要 参与者。基于生成模型的计算基础设施和平 台会逐步发展起来,模型变成随手可得的服 务,客户不需要部署和运行生成式模型的专 业技能就可以使用。生成模型将在交互能力、 安全可信、认知智能上取得显著进展,以辅 助人类完成各类创造性工作。


专家点评


生成式AI 在2022年迎来了突破。不管是图片生成, 代码生成还是开放域文本生成, 在生成内容的质量, 逻辑性和安全性方面都有明显的提升。基于AI 生成技术的应用场景在今后几年会更多涌现。但是,安全可控有伦理负责任的生成技术仍然需要重点研发,对于虚假生成内容造成的不良社会影响需要尤其关注。


黄非 达摩院语言技术实 验室负责人


参考文献


[1]    Gautam Kumar, et al. Swift: Delay  is Simple and Effective for Conges - tion Control in the Datacenter. SIG - COMM 2020.  

[2]    Wang, Shuai, et al. Predictable vFab - ric on Informative Data Plane. SIG - COMM 2022.

[3]    Gibson, Dan, et al. Aquila: A Unified,  Low-latency Fabric for Datacenter  Networks. NSDI 2022.  

[4]    V. Olteanu, et al. An Edge-queued  Datagram Service for all Datacenter  Traffic. NSDI 2022.

[5]    H. Bao, L. Dong, S. Piao, F. Wei.  BEiT: BERT Pre-Training of Im - age Transformers ,Microsoft Re - search. https: //aka.ms/beit. arX - iv:2106.08254v2,2022.

[6]    X. Pan, T. Ye, D. Han, et al. Contras - tive Language-Image Pre-Training  with Knowledge Graphs. arX - iv:2210.08901,2022.

[7]    C. Saharia, W. Chan, S. Saxena, et  al. Photorealistic Text-to-Image Diffusion Models with Deep Language  Understanding. arXiv:2205.11487,  2022.

[8]    R. Zhang, B.Li, W. Zhang, et al. Col - laboration of Pre-trained Models  Makes Better Few-shot Learner.  arXiv:2209.12255,2022.

[9]    W. Ma, M. Zhao, X. Xie, et al. Is  Self-Attention Powerful to Learn  Code Syntax and Semantics?. arX - iv:2212.10017.2022.

[10] G. Gao et al. Die to Wafer Hybrid  Bonding for Chiplet and Heteroge - neous Integration: Die Size Effects  Evaluation-Small Die Applications.  2022 IEEE 72nd Electronic Com - ponents and Technology Conference  (ECTC), 2022, pp. 1975-1981, doi:  10.1109/ECTC51906.2022.00310.

[11] John H. Lau. Recent Advances and  Trends in Advanced Packaging.  IEEE Transactions on Compo - nents,w Packaging and Manufactur - ing Technology ( Volume: 12, Issue:  2, February 2022).

[12] T. Tang, Y. Xi. Cost-Aware Explora - tion for Chiplet-Based Architecture  with Advanced Packaging Technol - ogies. arXiv:2206.07308.2022.

[13] A. Mullen et al., Gartner Top Stra - tegic Technology Trends for 2022  [EB/OL].2021. https://www. gartner.com/en/newsroom/pressreleases/2021-10-18-gartner-identifies-the-top-strategic-technologytrends-for-2022.

[14] Gartner. 中国云安全市场概览 [EB/ OL].2022.

[15] 中国信息通信研究院 . 云原生架构安 全白皮书 . [R] ,2021.

[16] 何宝宏 . 云与安全深度融合推动原 生云安全发展 .[J]. 中国信息安全 , 2022. [17] 袁曙光 . 云安全的未来是云原生安 全 .[J]. 中国信息安全 ,2022.

[18] 宋胜攀等 . 零信任在云原生安全中的 应用研究 .[J]. 保密科学技术 ,2021.

[19] 世界经济论坛 . 数字孪生城市:框架 与全球实践洞察力报告 .[R] ,2022.

[20] 中国信息通信研究院 , 中国互联网协 会 , 中国通信标准化协会 . 数字孪生 城市白皮书 .[R] ,2021.

[21] IDC. 中国数字孪生城市市场分析, 2021.[R] ,2022.

[22] 左超,陈钱 . 计算光学成像:何来, 何处,何去,何从? .[J]. 红外与激 光工程 ,2022 ,51(2).

[23] 戴琼海 ,赵建林 ,司徒国海 ,方璐 .  计算光学成像专题 .[J]. 光学学报 , 2020 ,40(1).


致谢


外部专家(以姓氏拼音为序)


image.png


编纂委员会


指导组

张建锋:阿里巴巴达摩院院长

周靖人:阿里巴巴达摩院副院长、阿里云智能首席技术官


工作组

刘湘雯(组长):阿里巴巴达摩院秘书长,阿里云智能副总裁

段佳惠、翟恩南、李俊平、李贝、尹泊明、余建平、朱逸菲、范博佳、李博、薛达、王婧璇、刘洋、杨柳林、朱迅垚、钱蓓、陈振华、程弢、肖成、刘湘琳、刘书好、肖剑、谢婞敏、麻芃、秦钖、唐佩、余婧、任妍、刘建强、李亚英


翻译组

邴孝娟、Eric Naik、魏之婷、张宁、林蓉、张紫琦、孙峭、单依依、张彩霞、王娇、樊敏、张佳杰、何婷、陈洁

相关文章
|
4天前
|
人工智能 前端开发 小程序
2024年12月30日蜻蜓蜻蜓AI工具系统v1.0.0发布-优雅草科技本产品前端源代码已对外开源可免费商用-优雅草老八
2024年12月30日蜻蜓蜻蜓AI工具系统v1.0.0发布-优雅草科技本产品前端源代码已对外开源可免费商用-优雅草老八
2024年12月30日蜻蜓蜻蜓AI工具系统v1.0.0发布-优雅草科技本产品前端源代码已对外开源可免费商用-优雅草老八
|
23天前
|
机器学习/深度学习 人工智能 自然语言处理
转载:【AI系统】AI的领域、场景与行业应用
本文概述了AI的历史、现状及发展趋势,探讨了AI在计算机视觉、自然语言处理、语音识别等领域的应用,以及在金融、医疗、教育、互联网等行业中的实践案例。随着技术进步,AI模型正从单一走向多样化,从小规模到大规模分布式训练,企业级AI系统设计面临更多挑战,同时也带来了新的研究与工程实践机遇。文中强调了AI基础设施的重要性,并鼓励读者深入了解AI系统的设计原则与研究方法,共同推动AI技术的发展。
转载:【AI系统】AI的领域、场景与行业应用
|
15天前
|
机器学习/深度学习 人工智能 算法
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
X-AnyLabeling是一款集成了多种深度学习算法的图像标注工具,支持图像和视频的多样化标注样式,适用于多种AI训练场景。本文将详细介绍X-AnyLabeling的功能、技术原理以及如何运行该工具。
80 2
X-AnyLabeling:开源的 AI 图像标注工具,支持多种标注样式,适于目标检测、图像分割等不同场景
|
29天前
|
机器学习/深度学习 人工智能 JSON
【实战干货】AI大模型工程应用于车联网场景的实战总结
本文介绍了图像生成技术在AIGC领域的发展历程、关键技术和当前趋势,以及这些技术如何应用于新能源汽车行业的车联网服务中。
362 34
|
14天前
|
存储 人工智能 开发工具
AI场景下的对象存储OSS数据管理实践
本文介绍了对象存储(OSS)在AI业务中的应用与实践。内容涵盖四个方面:1) 对象存储作为AI数据基石,因其低成本和高弹性成为云上数据存储首选;2) AI场景下的对象存储实践方案,包括数据获取、预处理、训练及推理阶段的具体使用方法;3) 国内主要区域的默认吞吐量提升至100Gbps,优化了大数据量下的带宽需求;4) 常用工具介绍,如OSSutil、ossfs、Python SDK等,帮助用户高效管理数据。重点讲解了OSS在AI训练和推理中的性能优化措施,以及不同工具的特点和应用场景。
72 10
|
14天前
|
弹性计算 人工智能 数据管理
AI场景下的对象存储OSS数据管理实践
本文介绍了ECS和OSS的操作流程,分为两大部分。第一部分详细讲解了ECS的登录、密码重置、安全组设置及OSSUTIL工具的安装与配置,通过实验创建并管理存储桶,上传下载文件,确保资源及时释放。第二部分则聚焦于OSSFS工具的应用,演示如何将对象存储挂载为磁盘,进行大文件加载与模型训练,强调环境搭建(如Conda环境)及依赖安装步骤,确保实验结束后正确清理AccessKey和相关资源。整个过程注重操作细节与安全性,帮助用户高效利用云资源完成实验任务。
70 10
|
23天前
|
人工智能 Cloud Native 调度
阿里云容器服务在AI智算场景的创新与实践
本文源自张凯在2024云栖大会的演讲,介绍了阿里云容器服务在AI智算领域的创新与实践。从2018年推出首个开源GPU容器共享调度方案至今,阿里云容器服务不断推进云原生AI的发展,包括增强GPU可观测性、实现多集群跨地域统一调度、优化大模型推理引擎部署、提供灵活的弹性伸缩策略等,旨在为客户提供高效、低成本的云原生AI解决方案。
|
24天前
|
人工智能 搜索推荐 安全
数百名研发人员用通义灵码,33%新增代码由AI生成,信也科技研发模式焕新升级
目前,信也科技数百名研发人员正在使用通义灵码,周活跃用户占比70%,新增代码中有33%由通义灵码编写,整体研发效率提升了11%,真正实现了数百研发人员开发效能的全面提升。
|
2月前
|
人工智能 自然语言处理 算法
【AI问爱答-双十一返场周直播】AI产品专家直播解读重点AI应用场景怎么用?
阿里云【AI问爱答】栏目强势回归,11月25日至28日每晚19:00,连续四天直播,涵盖AI营销、企业办公、社交娱乐及大模型推理调优四大主题,助您深入了解AI应用,解决实际问题。欢迎预约观看!
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
【AI系统】AI的领域、场景与行业应用
本文概述了AI的历史、现状及发展趋势,涵盖AI系统的初步设计原则,并深入探讨了AI在计算机视觉、自然语言处理和音频处理三个领域的具体应用。同时,文中还介绍了AI在金融、医疗、教育、互联网及自动驾驶等行业中的广泛应用,强调了AI基础设施的重要性及其对企业竞争力的影响。通过阅读本文,读者不仅可以获得系统的AI知识,还能激发对AI系统研究的兴趣,掌握相关的设计原则与方法。
96 1