业界首个支持9种语言的文图生成模型!智源AltDiffusion开源技术解读

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 业界首个支持9种语言的文图生成模型!智源AltDiffusion开源技术解读


AIGC(AI-Generated Content 人工智能生成内容)是当前 AI 领域最热门的话题之一,受到学界、业界的广泛关注。尤其是伴随着 OpenAI DALL·E 2 的推出到 Stable Diffusion 的开源,文图生成也从之前的研究探索发展到了具有商业化落地潜力的新兴技术。最近一段时间,随着文本生成图像跨模态应用的不断涌现,AIGC 更是火爆出圈,广受关注。


然而,中文和其他语言的文图生成发展滞后于英语世界,大部分团队主要是基于翻译 API + 英文 Stable Diffusion 模型进行开发。在这个背景下,来自智源研究院的研究者通过搭建多语言文图表征模型 AltCLIP,提出了首个支持 9 种语言(英文、中文、日语、法语、韩语、西班牙语、俄语、意大利语、阿拉伯语)的文图生成模型 AltDiffusion。


该研究的主要贡献是搭建了一个多语言文图生成模型的基石,使得更多使用不同语言的创作者可以通过 AltDiffusion 模型进行创作。在 AltDiffusion 中可以观测到一些十分有意思的现象:不同的语言背后蕴含了不同的文化背景,这一点也在 AltDiffusion 生成的图片中有一定程度的反映。


为了方面大家更好的了解这一研究,在最新一期的线上分享中,机器之心邀请到了智源人工智能研究院自然语言和多模态研究负责人及 FlagAI 飞智开源项目负责人伍昱 (Ledell Wu) 为我们介绍关于多语言文图生成模型 AltDiffusion 和多语言多模态表征模型 AltCLIP。




分享主题:AltDiffusion: A multilingual text-to-image generation model


分享摘要:本次分享将介绍多语言文图生成模型 AltDiffusion 和多语言多模态表征模型 AltCLIP。AltCLIP 通过创新换塔和语言对齐等方式,搭建了一个支持多种语言的文图表征模型。AltDiffusion 使用 AltCLIP 作为文本表征,基于 Stable Diffusion 训练了支持 9 种语言的文图生成模型,为目前业界首个支持多种语言的文图生成模型。


嘉宾简介:伍昱(Ledell Wu),智源人工智能研究院自然语言和多模态研究负责人及 FlagAI 飞智开源项目负责人。Facebook AI Research(FAIR)初期成员之一,主导了 StarSpace、PyTorch-BigGraph 和 BLINK 等多个深度学习研究项目和相应工程落地。热爱研究,热爱技术,崇尚极客。

相关文章
|
7月前
|
人工智能 自然语言处理 机器人
Jina AI 发布中英和英德双语 8K 向量模型,魔搭社区开源最佳实践!
在 Jina Embeddings 英语向量模型突破百万下载后,今天,Jina AI正式开源了两款双语向量模型:中英双语(Chinese-English)和英德双语(English-German)向量模型,这也是全球首次推出支持 8K 双语文本的开源向量模型。
|
11天前
|
机器学习/深度学习 人工智能 文字识别
POINTS 1.5:腾讯微信开源的多模态大模型,超越了业界其他的开源视觉语言模型,具备强大的视觉和语言处理能力
POINTS 1.5是腾讯微信推出的多模态大模型,基于LLaVA架构,具备强大的视觉和语言处理能力。它在复杂场景的OCR、推理能力、关键信息提取等方面表现出色,是全球10B以下开源模型中的佼佼者。
132 58
POINTS 1.5:腾讯微信开源的多模态大模型,超越了业界其他的开源视觉语言模型,具备强大的视觉和语言处理能力
|
13天前
|
数据采集 人工智能 编解码
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准(MMMU)上表现优异,超越了许多商业模型,适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。
58 7
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
|
22天前
|
人工智能 测试技术 API
FlagEvalMM:智源开源的多模态模型评测框架
FlagEvalMM 是由北京智源人工智能研究院开源的多模态模型评测框架,旨在全面评估处理文本、图像、视频等多种模态的模型。该框架支持多种任务和指标,采用评测与模型推理解耦的设计,提升评测效率,便于快速适配新任务和模型。
63 11
FlagEvalMM:智源开源的多模态模型评测框架
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
FunAudioLLM与知名模型对比
FunAudioLLM与知名模型对比
|
4月前
|
人工智能 API 异构计算
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
震惊AI界!DeepSeek挑战GPT-4o霸主地位,发布超低价开源大模型
146 2
|
7月前
|
编解码 人工智能 物联网
CogVLM2: 智谱开源新一代多模态大模型!
智谱·AI推出了新一代 CogVLM2 系列模型,并开源了使用 Meta-Llama-3-8B-Instruct 构建的两个模型。 与上一代CogVLM开源模型相比,CogVLM2系列开源模型有了很多改进...
|
7月前
|
人工智能 Apache
社区供稿 | 140B参数、可商用!OpenBuddy 发布首个开源千亿中文 MoE 模型的早期预览版
我们很自豪地于今天发布OpenBuddy最新一代千亿MoE大模型的早期预览版本:OpenBuddy-Mixtral-22Bx8-preview0-65k。此次发布的早期预览版对应约50%的训练进度。
|
人工智能 达摩院 自然语言处理
达摩院联合高德发布业界首个多模态地理文本预训练模型MGeo,并在ModelScope社区开源!
达摩院联合高德发布业界首个多模态地理文本预训练模型MGeo,并在ModelScope社区开源!
|
人工智能 达摩院 开发者
魔搭中文开源模型社区:模型即服务-视觉AI能力的开放现状及ModelScope实战(下)
魔搭中文开源模型社区:模型即服务-视觉AI能力的开放现状及ModelScope实战
873 1

热门文章

最新文章