2022 年,是 AIGC 爆发的一年。
从 DALL-E 2 到 Stable Diffusion,AIGC 赛道在这一年突然变得热闹起来,也引来了资本的青睐。前不久,Stable Diffusion 背后的 Stability AI 更是获得上亿美元投资,估值已高达 10 亿美元。
对于行业之外的普通人来说,不管 AI 作画还是 AI 写作,都是颇具新鲜感的前沿技术应用。而相关领域从业者或 AI 研究者可能思考得更深入一些。
具体到应用场景中,AIGC 是如何落地的?生成式 AI 技术将带来哪些想象空间?又将如何推动相关产业链的升级?
在最新一期的线上分享中,机器之心邀请到了阿里达摩院团队的多位 AI 专家,为我们介绍 AIGC 领域的最新进展。
在线上分享中,阿里巴巴达摩院机器智能语言技术实验室研究员黄非将作开场介绍。
嘉宾简介:黄非,阿里巴巴达摩院机器智能语言技术实验室研究员,自然语言基础技术,对话技术和多模态翻译团队负责人。他领导了 AliNLP 基础技术研发和业务落地,云小蜜对话技术和多模态翻译技术,并支持集团内外的国际化业务需求。黄非博士毕业于卡耐基梅隆大学计算机学院,之后在 IBM 和 Facebook 从事自然语言处理的研发和技术管理等职位。曾在自然语言处理和人工智能的顶级会议和期刊发表文章 40 多篇,获得美国专利 10 多项,曾担任 ACL,IJCAI,COLING 等多个 NLP 国际会议的领域主席 / 资深程序委员和多个期刊会议论文的审稿人。
分享主题一:阿里通义 - 文生图大模型技术解析与应用探索
分享摘要:本次分享将介绍大规模预训练扩散生成模型「通义 - 文生图」,它基于十亿量级图文数据训练,并通过对数据、模型、训练方式等多个维度优化以提升其收敛稳定性与可扩展性。「通义 - 文生图」的图文匹配得分超过 Imagen,目前已在魔搭ModelScope 平台开放体验,后续迭代版本将公开代码及预训练模型。
- modelscope 模型主页:https://www.modelscope.cn/models/damo/cv_diffusion_text-to-image-synthesis/summary
- 体验页面:https://decoder.modelscope.cn
嘉宾简介:黄梁华,阿里巴巴算法专家,2020 年博士毕业于中国科学院自动化研究所。主要研究领域包括预训练表征与生成建模,在 TPAMI, CVPR, ICCV, ECCV, TIP, AAAI, ACMMM 等会议或期刊发表论文十余篇,引用量 1000+。其 TPAMI 论文曾多期入选 ESI 高被引论文与热点论文(全球 Top 0.1%)。近期的研究工作集中在多模态生成大模型预训练、通义 - 文生图大模型的技术研发。
分享主题二:AliceMind 预训练大模型在 AIGC 文本创作的探索
分享摘要:本次分享围绕AliceMind预训练大模型在AIGC 文本创作方向展开,介绍预训练生成大模型如何在AIGC领域发力,涉及到以下几个大模型模型的分享:1)中文超大规模生成模型PLUG;2)GPT-3的中文复现版本;3)多模态统一理解生成模型mPLUG。
相关模型链接
- 中文GPT-3:https://modelscope.cn/models/damo/nlp_gpt3_text-generation_13B/summary
- mPLUG:https://modelscope.cn/models/damo/mplug_visual-question-answering_coco_large_en/summary
- PLUG:https://modelscope.cn/models/damo/nlp_plug_text-generation_27B/summary
嘉宾简介:李晨亮,现为阿里巴巴达摩院高级算法工程师。2019 年硕士毕业于北京邮电大学。主要研究方向为自然语言处理,包括预训练语言模型、文本生成、多模态等。曾经在相关领域顶级会议如 ACL、EMNLP、AAAI 等发表十多篇相关论文。参与多个国际评测和比赛,在生成、结构化、多模态的多个相关评测榜单上达到第一,并在多模态 VQA 榜单上首次超越人类水平。
分享主题三:OFASys:一个面向多模态多任务统一学习的开源 AI 库
分享摘要:本次分享将介绍即将开源的一个用于构建单一模型来完成多模态多任务的开源库 OFASys。它首次支持了包括语音、视频、动作等 7 种模态及其 20 多种任务,可以在十行代码内引入一个新任务和数据集并协同训练。我们训练了一个 OFA + 模型可以同时完成以上 7 种模态的多数生成和理解任务,并达到下游单独 Finetune 效果平均的 90% 以上。
嘉宾简介:白金泽,阿里巴巴算法专家,2021 年博士毕业于北京大学。主要研究领域包括大模型预训练和多模态表征学习,曾在 AAAI、WWW、ICML 等会议发表多篇论文。近期的研究工作集中于多模态大模型 M6 的预训练基础技术,以及参与多模态多任务学习 OFA & OFASys 的技术研发。