CLIPer:开创性框架提升CLIP空间表征,实现开放词汇语义分割突破
对比语言-图像预训练(CLIP)在多种图像级任务上表现出强大的零样本分类能力,促使研究行人尝试将CLIP应用于像素级开放词汇语义分割,而无需额外训练。关键在于提升图像级CLIP的空间表征能力,例如,用自-自注意力图或基于视觉基础模型的自注意力图替换最后一层的自注意力图。本文提出了一种新颖的分层框架CLIPer,该框架分层提升了CLIP的空间表征能力。
C-3PO:多智能体强化学习赋能检索增强生成
检索增强生成(Retrieval-augmented generation,RAG)作为一种关键范式,它通过融入外部知识来提升大型语言模型(LLMs)的能力。RAG的有效性很大程度上取决于检索器和大语言模型之间的对齐程度以及各组件间的紧密交互和协作。
春节来司南大模型对战竞技场,pick你的专属大模型搭档
春节的脚步渐近,街头巷尾已经开始洋溢着浓浓的节日气氛,准备迎接新年的到来。怎么书写创意拉满的春联?年夜饭怎么规划才完美?什么样的祝福更有新意?家庭聚会、出游如何安排?
Uni-AdaFocus:清华大学开源高效视频理解框架,根据视频内容动态分配计算资源
Uni-AdaFocus 是清华大学推出的高效视频理解框架,通过自适应聚焦机制动态调整计算资源分配,显著提升视频处理效率。
MiniRAG:迷你 RAG 系统加成小型语言模型,爆发出与大型语言模型相当的性能
MiniRAG 是香港大学推出的新型 RAG 系统,专为资源受限场景设计,支持高效知识检索与推理,适用于多种应用场景。
muAgent v2.2版本发布,支持ekg-sdk使用
CodeFuse-muAgent 是一款创新的 Agent 框架,将知识图谱(KG)直接升级为 Agent 编排引擎。它基于大语言模型(LLM)和事理图谱(EKG),结合多智能体、工具学习等技术,通过拖拽式画布和轻量级文本编辑,实现复杂 SOP 流程的自动化。支持复杂推理、在线协同、人工交互和即时知识应用。该框架已在蚂蚁集团多个 DevOps 场景中成功落地。
SPRIGHT:提升文本到图像模型空间一致性的数据集
SPRIGHT 是一个专注于空间关系的大型视觉-语言数据集,通过重新描述600万张图像,显著提升文本到图像模型的空间一致性。
VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则
VideoPhy 是 UCLA 和谷歌联合推出的首个评估视频生成模型物理常识能力的基准测试,旨在衡量模型生成的视频是否遵循现实世界的物理规则。
社区供稿 | Para-Former:DUAT理论指导下的CV神经网络并行化,提速多层模型推理
神经网络正越来越多地朝着使用大数据训练大型模型的方向发展,这种解决方案在许多任务中展现出了卓越的性能。然而,这种方法也引入了一个迫切需要解决的问题:当前的深度学习模型基于串行计算,这意味着随着网络层数的增加,训练和推理时间也会随之增长。
资讯 | CodeFuse邀你12月28日参加OSC源创会年终盛典活动
2024年OSC源创会年终盛典将于12月28日在珠海举行,CodeFuse将在主论坛分享《CodeFuse基座模型介绍》并展示最新项目。欢迎扫码报名!
社区供稿 | 引入隐式模型融合技术,中山大学团队推出 FuseChat-3.0
在大语言模型(LLM)领域,结合多个模型的优势以提升单个模型的能力已成为一大趋势。然而,以往的模型融合方法例如 FuseLLM[1], FuseChat-1.0/2.0[2] 等存在词表对齐困难、效率低下等问题。
BrushEdit:腾讯和北京大学联合推出的图像编辑框架,通过自然语言指令实现对图像的编辑和修复
BrushEdit是由腾讯、北京大学等机构联合推出的先进图像编辑框架,结合多模态大型语言模型和双分支图像修复模型,支持基于指令引导的图像编辑和修复。
直击强化学习前沿,RL专场来袭丨AI Insight Talk直播预告
在知识爆炸、信息过载的时代,如何洞悉 AI 领域前沿趋势?OpenMMLab 联合 Hugging Face、ModelScope、知乎及机智流等重磅推出 AI Insight Talk
搭友来碰头|魔搭核心开发者共创会精彩回顾
周五,首期"搭友来碰头"——魔搭核心开发者共创会在 [杭州·阿里巴巴云谷园区] 圆满落幕。来自杭州、上海、南京、北京等各地的魔搭社区核心开发者齐聚一堂,共同探索从模型开源到技术突破的转化路径。
OceanBase × 魔搭社区 “SQL 遇上 AI” 城市交流会杭州站即将启动!
由 OceanBase 社区 & 魔搭社区联合主办的「OceanBase 城市交流会 · SQL 遇上 AI」杭州站,将于 8 月 16 日(周六)重磅开启!
京东零售重磅开源 | OxyGent:像搭乐高一样组装AI团队,实现群体智能
京东零售Oxygen团队正式开源发布多智能体协作框架——OxyGent。这一创新框架致力于帮助开发者高效组装多智能体协作系统,实现智能体间的无缝协作、弹性扩展与全链路可追溯。推动人工智能从“单点突破”迈向“群体智能”时代。
利用OpenVINO™ 快速部署端侧可用的MiniCPM-V4.0视觉大模型
MiniCPM-V4.0是MiniCPM-V系列中最新的高效模型,参数总量为4B。该模型在 OpenCompass评测中图像理解能力超越了GPT-4.1-mini-20250414、Qwen2.5-VL-3B-Instruct和InternVL2.5-8B。凭借小巧的参数规模和高效的架构,MiniCPM-V4.0是移动端部署的理想选择。