多模态大模型的下一站在哪里?

简介: 多模态大模型的下一站在哪里?


“基于多模态的预训练大模型将成为人工智能基础设施”,这一观点已成为业内共识。建立统一的、跨场景、多任务的多模态基础模型正在成为人工智能研究的一个关键课题。未来,大模型作为基础设施,将实现图像、文本、音频统一知识表示,并朝着能推理、能回答问题、能总结、能创作的认知智能方向演进。


2023 世界人工智能大会多模态大模型创新应用论坛将于 7 月 7 日下午在上海世博中心 517 会议室举办。


本次论坛聚焦多模态前沿技术探索、行业应用、生态合作等关键核心议题,汇聚国内外研究机构和顶尖学者代表以及国内知名企业代表,搭建全球视野的大模型技术创新与应用落地的交流平台,聚集大模型产业创新要素聚集,为人工智能产业发展注入创新动能。


本次论坛设置主旨演讲、重磅发布、圆桌对话和生态签约等精彩活动模块,多形式展现当下多模态大模型的最新技术研究和行业成果,深入讨论多模态大模型时代如何实现加速推动多模态大模型技术对传统产业、多样化应用场景的创新赋能,实现多模态大模型技术、产品与服务对千行百业的赋能价值。



大咖汇聚:海内外顶级行业专家


当前,大模型竞赛如火如荼。国内赛道玩家竞相推出的大模型多倾向 To B 路线,国际赛道中玩家更聚焦基础模型(Foundation Models)开发,各类研究机构和应用企业则加速利用开源、应用生态等机会,加速布局。


多模态大模型创新应用论坛邀请了行业顶尖技术大咖与行业专家汇聚一堂。包括中国工程院院士潘云鹤,中国电子技术标准化研究院信息技术研究中心主任范科峰,卡内基梅隆大学计算机学院助理教授、博士生导师 Yonatan Bisk,联汇科技首席科学家、浙江大学滨江研究院 Om 人工智能中心主任赵天成,香港科技大学(广州)助理教授、博士生导师梁俊卫等学者专家,将带来多模态大模型的最新技术研究。


重磅发布:联汇科技多模态大模型成果


面对国内外大模型赛道的白热化竞争,联汇科技将在现场重磅发布 OmModel V3.0(欧姆)多模态大模型的最新技术创新和成果,为 AGI 时代提供高效、可依赖的技术路径。


高端对话:多模态大模型落地的机遇期


论坛邀请中国电工技术学会副理事长、会士、国家电网公司原总经理助理张文亮,中央广播电视总台云听总经理李向荣,中国移动(浙江)创新研究院副院长蒋健,深圳市投控资本有限公司总监杨帆,上海市动漫行业协会秘书长张炜等行业应用端企业嘉宾,围绕大模型在行业中的创新赋能、落地应用等关键问题分享典型案例经验及展望。


生态共建:携手伙伴加速 AI 创新联合


为了加速多模态大模型的技术赋能和落地,论坛邀请行业活动共同参与大模型创新应用生态共同体建设,吸引产业链各环节企业加入,加速大模型行业资源汇聚和优化,共同打造大模型生态和创新应用新平台。

相关文章
|
19天前
|
人工智能 测试技术
Ola:清华联合腾讯等推出的全模态语言模型!实现对文本、图像、视频和音频的全面理解
Ola 是由清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型,支持文本、图像、视频和音频输入,并具备实时流式解码功能。
140 16
|
4月前
|
人工智能 文字识别 测试技术
苹果多模态模型大升级!文本密集、多图理解,全能小钢炮
苹果公司近日发布了其最新版本的多模态模型MM1.5,该模型在文本密集图像理解、视觉引用和定位以及多图推理等方面进行了显著升级。MM1.5基于MM1模型,具备更强的文本处理、视觉理解和多图推理能力,适用于多种下游任务。此外,还推出了专门用于视频理解和移动UI理解的变体。
89 3
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
音频基座大模型FunAudioLLM评测
通义语音团队最新开源了音频基座大模型FunAudioLLM,包含两大模型SenseVoice和CosyVoice。本文对这两种大模型进行整体的评测。
195 1
音频基座大模型FunAudioLLM评测
统一多模态模型来了!智源发布多模态世界模型Emu3!
2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。
|
5月前
|
自然语言处理 语音技术
交大x-lance跨媒体语言智能实验室等联合开源F5-TTS!零样本语音复刻,生成流畅,情感丰富!
上海交大x-lance跨媒体语言智能实验室联合剑桥大学、吉利汽车研究院(宁波)公司开源了一种基于流匹配的扩散变换器(Diffusion Transformer,DiT)的完全非自回归TTS模型-F5-TTS。
|
6月前
|
机器学习/深度学习 自然语言处理 人机交互
音频基座大模型FunAudioLLM体验评测
一文带你详细了解音频基座大模型FunAudioLLM
724 5
|
6月前
|
编解码 定位技术 计算机视觉
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
129 10
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
CosyVoice 与 SenseVoice:阿里FunAudioLLM两大语音生成项目的深度评测
近年来,基于大模型的语音人工智能技术发展迅猛,为自然语音人机交互带来新的可能。通义语音大模型无疑是这一领域的佼佼者。它涵盖了语音理解与语音生成两大核心能力,可支持多种语音任务,包括多语种语音识别、语种识别、情感识别、声音事件检测以及语音合成等
1718 1
|
8月前
|
vr&ar 计算机视觉
太全了!苹果上新视觉模型4M-21,搞定21种模态
【7月更文挑战第4天】苹果携手EPFL发布4M-21模型,能处理21种模态,如图像、文本、音频,实现多模态任务处理。该模型通过多任务学习和模态转换技术,提升泛化与生成能力,广泛应用于内容创作及分析。然而,高数据需求、计算资源消耗和可解释性是其挑战。[链接: https://arxiv.org/pdf/2406.09406]
88 1
|
10月前
|
机器学习/深度学习 人工智能 语音技术
AI让失语者重新说话!纽约大学发布全新神经-语音解码器
【5月更文挑战第19天】纽约大学研发的神经-语音解码器,结合深度学习与语音合成,为失语者带来新希望。此脑机接口技术能将大脑神经信号转化为语音参数,再通过合成器转为可听语音。使用癫痫患者的数据进行训练,解码器已成功重现语音,尽管质量有待提升。该技术有望革新沟通方式,但也面临数据复杂性、隐私保护及社会接受度等挑战。[论文链接](https://www.nature.com/articles/s42256-024-00824-8)
103 5