多模态模型可能是大模型的终局

简介: 多模态模型可能是大模型的终局

计算机视觉、机器学习领域国际顶级专家颜水成在学术界钻研 8 年、工业界实践 8 年,今年 9 月正式宣布加入昆仑万维,出任天工智能联席 CEO,并兼任昆仑万维 2050 全球研究院院长。


长期以来,业界的目光聚集于他,为什么是昆仑万维?对人工智能领域而言意味着什么?在大模型火热发展的当下,他试图以 Foundation Models(基座大模型)为基准点,探寻通往通用人工智能领域的道路。


自昆仑万维的天工大模型在今年 4 月正式发布并启动邀请测试以来,一直以较快的节奏发布更新,也始终在百模大战中保持着一定的竞争力。11 月,「天工」大模型通过《生成式人工智能服务管理暂行办法》备案,面向全社会开放服务。紧接着,昆仑万维正式开源了「天工 Skywork-13B 系列」。13B,在颜水成看来是最适合商用的尺寸,未来将迸发出多大能量?他一直追求学术界和工业界的 Double Satisfactions,产学研的有机结合能否在 Foundation Models 领域结出硕果?令人期待~


本期《涛滔不绝》,CSDN 创始人&董事长、中国开源软件推进联盟副主席蒋涛与天工智能联席 CEO、兼任昆仑万维 2050 全球研究院院长颜水成,从 AGI 的本质谈到基座大模型的重要性,从基座大模型到“更高一层”的 Agent 智能体,带领我们探寻 AI 发展更高维度的世

协议,转载请附上原文出处链接及本声明。


目录
打赏
0
1
1
1
1
分享
相关文章
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好
OmniAlign-V 是由上海交通大学、上海AI Lab等机构联合推出的高质量多模态数据集,旨在提升多模态大语言模型与人类偏好的对齐能力。该数据集包含约20万个多模态训练样本,涵盖自然图像和信息图表,结合开放式问答对,支持知识问答、推理任务和创造性任务。
68 10
OmniAlign-V:20万高质量多模态数据集开源,让AI模型真正对齐人类偏好
R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V
R1-Onevision 是一款开源的多模态视觉推理模型,基于 Qwen2.5-VL 微调,专注于复杂视觉推理任务。它通过整合视觉和文本数据,能够在数学、科学、深度图像理解和逻辑推理等领域表现出色,并在多项基准测试中超越了 Qwen2.5-VL-7B 和 GPT-4V 等模型。
115 0
R1-Onevision:开源多模态推理之王!复杂视觉难题一键解析,超越GPT-4V
AIGC核心技术——多模态预训练大模型
【1月更文挑战第14天】AIGC核心技术——多模态预训练大模型
536 4
AIGC核心技术——多模态预训练大模型
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」
305 0
统一多模态模型来了!智源发布多模态世界模型Emu3!
2024年10月21日,智源研究院正式发布原生多模态世界模型Emu3。
多模态LLM视觉推理能力堪忧,浙大领衔用GPT-4合成数据构建多模态基准
【9月更文挑战第2天】浙江大学领衔的研究团队针对多模态大型模型(MLLM)在抽象图像理解和视觉推理上的不足,提出了一种利用GPT-4合成数据构建多模态基准的方法。该研究通过合成数据提高了MLLM处理图表、文档等复杂图像的能力,并构建了一个包含11,193条指令的基准,涵盖8种视觉场景。实验表明,这种方法能显著提升模型性能,但依赖闭源模型和高计算成本是其局限。论文详细内容见:https://arxiv.org/pdf/2407.07053
155 10
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
249 1