RWKV-7 2.9B 开源发布!纯 RNN 无 KV cache,支持世界所有语言
2025 年 2 月 11 日,RWKV 基金会正式发布 RWKV-7-World-2.9B-V3 模型(以下简称 RWKV-7-2.9B)。
MFTCoder 重磅升级v0.5.0发布,支持SST加训与DPO
CodeFuse于2023年9月开源了多任务微调框架MFTCoder,支持多个任务并行微调,解决数据量不平衡等问题。具备高效训练、PEFT微调等特性,支持多种主流LLMs。最新v0.5.0版本新增DPO、SST加训等功能,代码已开源至GitHub,欢迎试用和贡献。
Inf-DiT:清华联合智谱AI推出超高分辨率图像生成模型,生成的空间复杂度从 O(N^2) 降低到 O(N)
Inf-DiT 是清华大学与智谱AI联合推出的基于扩散模型的图像上采样方法,能够生成超高分辨率图像,突破传统扩散模型的内存限制,适用于多种实际应用场景。
VideoPhy:UCLA 和谷歌联合推出评估视频生成模型物理模拟能力的评估工具,衡量模型生成的视频是否遵循现实世界的物理规则
VideoPhy 是 UCLA 和谷歌联合推出的首个评估视频生成模型物理常识能力的基准测试,旨在衡量模型生成的视频是否遵循现实世界的物理规则。
128_自我监督变体:SimCLR for Text - 推导对比学习的文本应用,代码实现无标注预训练的独特目标
在大型语言模型快速发展的今天,自我监督学习已成为训练高质量模型的核心技术。然而,传统的掩码语言建模(MLM)和因果语言建模(CLM)方法存在一些局限性,如计算效率低下和上下文利用不充分等问题。对比学习作为一种新兴的自我监督学习范式,通过学习相似性和差异性来提取数据的内在表示,为语言模型预训练提供了新的思路。
44_Falcon与Phi:高效开源模型
在大语言模型的发展历程中,长期存在一种主流观点:模型参数量越大,性能越好。然而,随着计算资源消耗和能源成本的持续攀升,这种"越大越好"的发展路径面临着严峻挑战。2025年,业界开始重新审视AI模型的发展方向,"效率"成为新的关键词。在这一背景下,阿联酋阿布扎比技术创新研究院(TII)的Falcon系列和微软的Phi系列模型以其"小而强"的特点脱颖而出,成为高效开源模型的典范。
魔搭社区携手AFAC2025金融智能创新大赛,共同孵化金融科技新星
8月27日,在上海市科学技术委员会指导下,由北京大学、清华大学、复旦大学、香港大学、蚂蚁集团等近30家海内外顶级院校、头部企业、孵化器等机构联合发起的AFAC2025金融智能创新大赛总决赛路演圆满结束。
产教融合结成果 与阿里云合作的结晶
近日,上海市计算机学会公布2024年度教学成果奖名单,赵卫东老师荣获一等奖。他长期专注计算机科学教学与科研,在课程体系创新和人才培养方面成效显著。获奖项目《面向新工科的计算机专业实践教学体系构建与创新》聚焦工程教育需求,通过教学改革提升学生实践能力。该成果包含与阿里云合作结晶,其深度学习教材涵盖多个实际应用案例,如图像分类、声音识别等,助力读者深入理解算法实践。
ModelScope魔搭25年5月发布月报
不知不觉间,日历已经翻过了立夏,而开源模型的世界中似乎并没有春夏秋冬。在刚刚过去的四月份,见证了开源社区又一次蓬勃发展的浪潮。以Qwen3家族为代表,一系列新模型的开源为整个生态注入了新的活力。通过全面覆盖多种规格的 dense 与 MoE 模型架构,Qwen3 首次在开源模型中引入“快思考与慢思考” 双模式的支持,获得了广大开发者的热烈欢迎,成为新一代开源大模型的标杆之作。
UGMathBench:评估语言模型数学推理能力的动态基准测试数据集
近年来,人工智能蓬勃发展,自然语言模型(LLM)进展显著。语言模型被广泛应用于自动翻译、智能客服、甚至医疗、金融、天气等领域。而研究者们仍在不断努力,致力于提高语言模型的规模和性能。随着语言模型的蓬勃发展,评估一个语言模型的性能变得越来越重要。其中一个重要的评估指标,就是衡量语言模型的推理能力和解决数学问题的能力。
Open AI Model
Open AI Model is an open model for defining AI. Focused on AI rather than application, Open AI Model [OAM] brings simplest but most powerful design for modeling AI.
视觉分词器突破天花板!GigaTok:港大字节联手打造3B参数视觉分词器,突破图像生成瓶颈
GigaTok是香港大学与字节跳动联合研发的3B参数视觉分词器,通过语义正则化技术和创新架构设计,解决了图像重建与生成质量间的矛盾,显著提升自回归模型的表示学习能力。
快速切换多种画风!FlexIP:腾讯开源双适配器图像生成框架,精准平衡身份保持与个性化编辑
本文解析腾讯最新开源的FlexIP图像框架,其通过双适配器架构与动态门控机制实现身份保持与个性化编辑的精准平衡,在CLIP-I指标上取得0.873的高分验证了技术突破。
Llama Nemotron:英伟达开源基于Llama架构优化的推理模型,253B参数持平DeepSeek R1!
NVIDIA推出的Llama Nemotron系列推理模型,基于Llama架构优化,包含Nano/Super/Ultra三款,在数学推理、编程和工具调用等任务中展现卓越性能。
用通义万象做一个动态海报庆祝4月24日中国航天日
这段文案描述了一幅动画海报的设计理念,融合传统与现代、科技与梦想。画面以上海黄浦江为背景,明月升起象征传统,火箭升空代表科技探索。穿着旗袍的女孩和多元人群展现文化传承,火箭化为飞船遨游宇宙寓意人类追求未知。古代天文仪器与现代科技呼应,体现历史与未来的对话。整体传达对科技成就的喜悦及对未来的美好期许,致敬中国科学家与宇航员,祝福祖国繁荣昌盛。
昆仑万维开源 Skywork R1V:开源多模态推理核弹!视觉链式分析超越人类专家
Skywork R1V 是昆仑万维开源的多模态思维链推理模型,具备强大的视觉链式推理能力,能够在多个权威基准测试中取得领先成绩,推动多模态推理模型的发展。
热门论文推荐:TPDiff、Block Diffusion、Reangle-A-Video、GTR
由新加坡国立大学Show Lab的Lingmin Ran和Mike Zheng Shou提出,TPDiff是一个创新的视频扩散模型框架,针对视频生成的高计算需求问题,通过分阶段逐步提高帧率优化了训练和推理效率。核心贡献包括提出“时间金字塔”方法和阶段式扩散训练策略,实验表明训练成本降低50%,推理效率提升1.5倍。
weixin050高校体育场管理系统+ssm(文档+源码)_kaic
本文针对高校体育场管理系统的开发与实现进行详细介绍。随着经济快速发展,人们对手机软件需求增加,高校体育场管理系统应运而生。系统采用JAVA技术、Mysql数据库和SSM框架等成熟技术,通过分析功能需求、可行性及性能,设计出包含管理员、用户和学生角色的功能模块。系统实现用户注册登录、信息管理等功能,简化传统手工统计模式,提高管理效率,满足用户对信息获取的及时性与准确性需求。
MV-MATH:中科院开源多模态数学推理基准,多视觉场景评估新标杆
MV-MATH 是中科院自动化所推出的多模态数学推理基准数据集,旨在评估多模态大语言模型在多视觉场景中的数学推理能力。该数据集包含2009个高质量的数学问题,涵盖11个数学领域和3个难度级别,适用于智能辅导系统和多模态学习研究。
“同西游,见万相” 主题LoRA风格挑战赛来袭!万元奖金池+猫超卡+限定周边来赢!
在通义万相Wan2.1的文生视频模型的基础上训练LoRA模型,以《西游记》的经典人物或故事为背景,描绘一个创作者心中的西游场景。参赛者根据自己的创意自定义故事内容,选择用任意的视觉风格和叙事手法进行演绎,展现 AI 在风格迁移、内容创意和叙事变化上的可能性。
C-3PO:多智能体强化学习赋能检索增强生成
检索增强生成(Retrieval-augmented generation,RAG)作为一种关键范式,它通过融入外部知识来提升大型语言模型(LLMs)的能力。RAG的有效性很大程度上取决于检索器和大语言模型之间的对齐程度以及各组件间的紧密交互和协作。
ENEL:3D建模革命!上海AI Lab黑科技砍掉编码器,7B模型性能吊打13B巨头
ENEL是由上海AI Lab推出的无编码器3D大型多模态模型,能够在多个3D任务中实现高效语义编码和几何结构理解,如3D对象分类、字幕生成和视觉问答。
Collaborative Gym:斯坦福人机协作框架开源!异步交互+三方感知,让你的AI学会主动补位
介绍Collaborative Gym,一个专注于人机协作的框架,支持异步交互和多种任务环境。
AxBench:斯坦福大学推出评估语言模型控制方法的基准测试框架
AxBench 是由斯坦福大学推出,用于评估语言模型可解释性方法的基准测试框架,支持概念检测和模型转向任务,帮助研究者系统地比较不同控制技术的有效性。
春节来司南大模型对战竞技场,pick你的专属大模型搭档
春节的脚步渐近,街头巷尾已经开始洋溢着浓浓的节日气氛,准备迎接新年的到来。怎么书写创意拉满的春联?年夜饭怎么规划才完美?什么样的祝福更有新意?家庭聚会、出游如何安排?
VARGPT:将视觉理解与生成统一在一个模型中,北大推出支持混合模态输入与输出的多模态统一模型
VARGPT是北京大学推出的多模态大语言模型,专注于视觉理解和生成任务,支持混合模态输入和高质量图像生成。