|
2月前
|
人工智能 资源调度 数据可视化
|

ModelScope魔搭25年7月发布月报

七月流火,这个夏天火热的开场已然揭开。6月30号,我们在北京举办了首届魔搭开发者大会(ModelScope DevCon 2025),邀请了国内外知名的开源模型,以及头部开源工具的研发团队,与广大开发者共聚一堂进行分享。顶尖的AI 模型首次从线上 Hub走进线下盛会,为大家呈现了一场“模型全明星”盛会。同时我们还邀请了社区开发者参加我们的“搭友之夜”(aka 大规模面基大会)。大会分享场场爆满,现场只能用一句话来描述:“好~多~人~啊”,不提前占位根本挤不进去~~

190 2
|
3月前
|
机器学习/深度学习 数据采集 人工智能
|

合成数据也能通吃真实世界?首个融合重建-预测-规划的生成式世界模型AETHER开源

上海人工智能实验室开源了生成式世界模型AETHER,该模型仅用合成数据训练,却能在真实环境中展现强大的零样本泛化能力。AETHER首创「重建—预测—规划」一体化框架,融合几何重建与生成建模,大幅提升模型在动态环境中的决策、规划和预测能力。其核心技术包括目标导向视觉规划、4D动态重建和动作条件视频预测,实验结果表明其性能达到或超越现有SOTA水平。论文、模型及项目主页均已开源。

135 2
|
3月前
|

开赛啦!AFAC2025金融智能创新大赛正式启动,等你来报名

开赛啦!AFAC2025金融智能创新大赛正式启动,等你来报名

257 13
|
4月前
|
机器学习/深度学习 算法 计算机视觉
|

产教融合结成果 与阿里云合作的结晶

近日,上海市计算机学会公布2024年度教学成果奖名单,赵卫东老师荣获一等奖。他长期专注计算机科学教学与科研,在课程体系创新和人才培养方面成效显著。获奖项目《面向新工科的计算机专业实践教学体系构建与创新》聚焦工程教育需求,通过教学改革提升学生实践能力。该成果包含与阿里云合作结晶,其深度学习教材涵盖多个实际应用案例,如图像分类、声音识别等,助力读者深入理解算法实践。

112 2
|
5月前
|
前端开发 语音技术
|

面向对话语音合成的模态间与模态内上下文交互建模

面向对话语音合成的模态间与模态内上下文交互建模

128 15
|
5月前
|
人工智能
|

Open AI Model

Open AI Model is an open model for defining AI. Focused on AI rather than application, Open AI Model [OAM] brings simplest but most powerful design for modeling AI.

123 4
|
5月前
|
数据可视化 搜索推荐
|

Ollama-Deep-Researcher-本地Mac结合魔搭社区模型搭建网页研究助手

Ollama Deep Researcher 是一款完全本地化的网络研究助手,可使用Ollama托管的任何 LLM 。输入一个主题,它将生成网络搜索查询,收集网络搜索结果(默认通过Tavily),总结网络搜索结果,反思总结以检查知识差距,生成新的搜索查询以解决差距,搜索并改进总结,循环次数由用户定义。它将为用户提供最终的 markdown 摘要,其中包含所有使用的来源。

174 2
|
5月前
|
机器学习/深度学习 人工智能 算法
|

HumanRig:高德地图提出在大规模数据集中学习人形角色的自动绑定技术,数据集开源!

HumanRig:高德地图提出在大规模数据集中学习人形角色的自动绑定技术,数据集开源!

363 88
|
5月前
|
人工智能 编解码
|

导演失业预警!Seaweed-7B:字节7B参数模型让剧本自动变电影!20秒长镜头丝滑生成

Seaweed-7B是字节跳动推出的70亿参数视频生成模型,支持从文本、图像或音频生成高质量视频内容,具备长镜头生成、实时渲染等先进特性,通过优化架构显著降低计算成本。

242 10
来自: 多模态  版块
|
5月前
|
机器学习/深度学习 人工智能 搜索推荐
|

快速切换多种画风!FlexIP:腾讯开源双适配器图像生成框架,精准平衡身份保持与个性化编辑

本文解析腾讯最新开源的FlexIP图像框架,其通过双适配器架构与动态门控机制实现身份保持与个性化编辑的精准平衡,在CLIP-I指标上取得0.873的高分验证了技术突破。

129 9
来自: 多模态  版块
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
|

这个模型让AI角色会说话还会演!MoCha:Meta联手滑铁卢大学打造对话角色视频生成黑科技

MoCha是由Meta与滑铁卢大学联合开发的端到端对话角色视频生成模型,通过创新的语音-视频窗口注意力机制实现精准的唇语同步和全身动作生成。

281 12
来自: 计算机视觉  版块
|
5月前
|
机器学习/深度学习 人工智能 数据可视化
|

智谱AI新突破!GLM-Z1-Rumination:新一代沉思模型,推动AI助手进入"高智商+高自主"的新阶段

GLM-Z1-Rumination是智谱推出的新一代沉思模型,通过扩展强化学习训练实现长程推理能力,支持动态工具调用与自我验证机制,显著提升AI自主研究能力。

271 13
来自: 自然语言处理  版块
|
6月前
|
机器学习/深度学习 人工智能
|

ObjectMover:港大联合Adobe打造图像编辑黑科技,移动物体光影自动匹配

香港大学与Adobe联合研发的ObjectMover模型,通过视频生成先验迁移技术,实现图像中物体的自然移动、删除和插入,自动保持光影一致性。

126 21
来自: 计算机视觉  版块
|
6月前
|
机器学习/深度学习 人工智能 机器人
|

上周多模态论文推荐:MAPS、MapGlue、OmniGeo、OThink-MR1

由西安交通大学、新加坡国立大学和南洋理工大学联合提出,该工作推出了MAPS框架,利用基于Big Seven人格理论的七个智能体和苏格拉底式引导,解决多模态科学问题(MSPs)。通过四阶段求解策略和批判性反思智能体,MAPS在EMMA、Olympiad和MathVista数据集上超越当前最佳模型15.84%,展现了卓越的多模态推理与泛化能力。

245 1

用通义万象做一个动态海报庆祝4月24日中国航天日

这段文案描述了一幅动画海报的设计理念,融合传统与现代、科技与梦想。画面以上海黄浦江为背景,明月升起象征传统,火箭升空代表科技探索。穿着旗袍的女孩和多元人群展现文化传承,火箭化为飞船遨游宇宙寓意人类追求未知。古代天文仪器与现代科技呼应,体现历史与未来的对话。整体传达对科技成就的喜悦及对未来的美好期许,致敬中国科学家与宇航员,祝福祖国繁荣昌盛。

144 0
|
6月前
|
机器学习/深度学习 自动驾驶 搜索推荐
|

今日热门论文推荐:多模态CoT综述、BlobCtrl、Being-0、DreamRenderer、WideRange4D 等

这篇调查论文是首个系统回顾多模态思维链(MCoT)推理的综述。论文阐明了相关基础概念和定义,提供了全面的分类法,并从不同角度对当前方法进行了深入分析。MCoT将思维链推理的优势扩展到多模态环境中,设计了各种方法和创新推理范式来解决图像、视频、语音、音频、3D和结构化数据等不同模态的独特挑战,在机器人技术、医疗保健、自动驾驶和多模态生成等应用中取得了广泛成功。

151 1
|
6月前
|
机器学习/深度学习 人工智能 测试技术
|

昆仑万维开源 Skywork R1V:开源多模态推理核弹!视觉链式分析超越人类专家

Skywork R1V 是昆仑万维开源的多模态思维链推理模型,具备强大的视觉链式推理能力,能够在多个权威基准测试中取得领先成绩,推动多模态推理模型的发展。

175 4
来自: 多模态  版块
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
|

TrajectoryCrafter:腾讯黑科技!单目视频运镜自由重构,4D生成效果媲美实拍

TrajectoryCrafter 是腾讯与香港中文大学联合推出的单目视频相机轨迹重定向技术,支持后期自由调整视频的相机位置和角度,生成高质量的新型轨迹视频,广泛应用于沉浸式娱乐、创意视频制作等领域。

155 12
来自: 计算机视觉  版块
|
6月前
|
人工智能 自然语言处理 文字识别
|

解读 | 金融长上下文基准测试FailSafeQA:解锁金融领域LLM真实的审慎性和容错性

近年来,大型语言模型(LLMs)在金融领域的应用如火如荼,从风险分析到客户服务,它们正逐步改变行业的游戏规则。然而,这些模型是否真的足够“靠谱”?面对复杂的金融数据和多变的用户输入,它们还能保持精准和稳健吗?

161 8
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
|

VidSketch:手残党逆袭!浙大AI神器草图秒变4K动画,三连提示词玩转影视级特效

VidSketch 是浙江大学推出的创新视频生成框架,通过手绘草图和简单文本提示生成高质量视频动画,降低视频创作的技术门槛,满足多样化的艺术需求。

196 6
来自: 计算机视觉  版块
|
7月前
|
人工智能 缓存 并行计算
|

FlashMLA:DeepSeek最新开源!MLA解码内核让NVIDIA Hopper开启性能狂暴模式,推理速度飙升至3000GB/s

FlashMLA 是 DeepSeek 开源的高效 MLA 解码内核,专为 NVIDIA Hopper 架构 GPU 优化,支持 BF16 精度和页式 KV 缓存,适用于大语言模型推理和自然语言处理任务。

257 2
来自: 自然语言处理  版块
|
7月前
|
并行计算 异构计算
|

llama factory微调报错CUDA未被检测!

775 0
|
7月前
|
编解码 API 开发工具
|

ModelScope魔搭25年2月版本发布月报

新春佳节的鞭炮声已经渐渐远去,在刚刚过去的一个月里,小鲸鱼给全球的开发者带来了一个不平凡的春节。DeepSeek-R1一系列开源模型的发布,给大家带来了惊喜和震动。所有人的热情,也给ModelScope社区带来了前所未见的巨大下载需求和流量,在这个月里,我们进行了数次紧急扩容和线上优化,尽量为大家提供更好的支持与服务。非常感谢大家的陪伴和理解,我们会持续进行平台优化和开源工具的建设,服务好整个开源社区。

255 9
|
7月前
|
机器学习/深度学习 决策智能 网络架构
|

C-3PO:多智能体强化学习赋能检索增强生成

检索增强生成(Retrieval-augmented generation,RAG)作为一种关键范式,它通过融入外部知识来提升大型语言模型(LLMs)的能力。RAG的有效性很大程度上取决于检索器和大语言模型之间的对齐程度以及各组件间的紧密交互和协作。

127 1
|
7月前
|
机器学习/深度学习 人工智能 测试技术
|

仅7B的模型数学推理能力完虐70B?MIT哈佛推出行动思维链COAT让LLM实现自我反思并探索新策略

Satori 是由 MIT 和哈佛大学等机构联合推出的 7B 参数大型语言模型,专注于提升推理能力,具备强大的自回归搜索和自我纠错功能。

241 6
来自: 自然语言处理  版块
|
7月前
|
人工智能 算法 数据挖掘
|

AAAI 2025| S5VH: 基于选择性状态空间的高效自监督视频哈希

随着短视频、流媒体平台的爆发式增长,如何高效地索引和检索视频数据成为计算机视觉和多媒体领域的重要研究问题。视频哈希(Video Hashing) 是一种通过学习紧凑的二进制编码来高效索引和检索视频的技术,其核心目标是使哈希码的汉明距离(Hamming Distance)能够准确地反映视频之间的语义相似性。

129 18
|
7月前
|
机器学习/深度学习 自然语言处理
|

RWKV-7 2.9B 开源发布!纯 RNN 无 KV cache,支持世界所有语言

2025 年 2 月 11 日,RWKV 基金会正式发布 RWKV-7-World-2.9B-V3 模型(以下简称 RWKV-7-2.9B)。

218 17
|
7月前
|
机器学习/深度学习 存储 人工智能
|

Satori:快速体验MIT与哈佛推出7B参数的推理专家模型,具备自回归搜索和自我纠错能力

Satori 是由 MIT 和哈佛大学等机构联合推出的 7B 参数大型语言模型,专注于提升推理能力,具备强大的自回归搜索和自我纠错功能。

138 5
来自: 自然语言处理  版块
|
7月前
|
人工智能 自然语言处理 搜索推荐
|

浙大通义联手推出慢思考长文本生成框架OmniThink,让AI写作突破知识边界

随着大模型(LLMs)的发展,AI 写作取得了较大进展。然而,现有的方法大多依赖检索知识增强生成(RAG)和角色扮演等技术,其在信息的深度挖掘方面仍存在不足,较难突破已有知识边界,导致生成的内容缺乏深度和原创性。

400 46
|
7月前
|
人工智能
|

春节来司南大模型对战竞技场,pick你的专属大模型搭档

春节的脚步渐近,街头巷尾已经开始洋溢着浓浓的节日气氛,准备迎接新年的到来。怎么书写创意拉满的春联?年夜饭怎么规划才完美?什么样的祝福更有新意?家庭聚会、出游如何安排?

135 10
|
7月前
|
存储 机器学习/深度学习
|

MustDrop:多阶段去除冗余视觉token,提升多模态大模型推理效率

本文提出了一种高效的多模态大模型,多阶段去除冗余视觉token——MustDrop。多模态大模型中的视觉tokens通常表现出显著的空间和时间冗余,并且大模型的大部分输入令牌是视觉tokens,这极大程度上影响了多模态大模型推理效率。

356 11
|
8月前
|
机器学习/深度学习 自然语言处理
|

Deepseek开源R1系列模型,纯RL助力推理能力大跃升!

近期Deepseek正式发布 DeepSeek-R1,并同步开源模型权重。DeepSeek-R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。

2676 25
|
8月前
|
数据采集 人工智能 自然语言处理
|

魔搭社区每周速递(1.5-1.18)

🙋魔搭ModelScope本期社区进展:新增3239个模型,711个数据集,192个创新应用, 16篇内容

429 11
|
8月前
|
机器学习/深度学习 人工智能 安全
|

GLM-Zero:智谱AI推出与 OpenAI-o1-Preview 旗鼓相当的深度推理模型,开放在线免费使用和API调用

GLM-Zero 是智谱AI推出的深度推理模型,专注于提升数理逻辑、代码编写和复杂问题解决能力,支持多模态输入与完整推理过程输出。

437 24
来自: 自然语言处理  版块
|
8月前
|
人工智能 编解码 自然语言处理
|

Aria-UI:港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型,整合动作历史信息实现更加准确的定位

Aria-UI 是香港大学与 Rhymes AI 联合开发的多模态模型,专为 GUI 智能交互设计,支持高分辨率图像处理,适用于自动化测试、用户交互辅助等场景。

315 11
来自: 多模态  版块
|
8月前
|
人工智能 并行计算 PyTorch
|

SPRIGHT:提升文本到图像模型空间一致性的数据集

SPRIGHT 是一个专注于空间关系的大型视觉-语言数据集,通过重新描述600万张图像,显著提升文本到图像模型的空间一致性。

160 18
来自: 计算机视觉  版块
|
8月前
|
人工智能 搜索推荐 前端开发
|

MiniPerplx:基于 Grok 2.0 的开源 AI 搜索引擎,支持网页、学术、视频搜索

MiniPerplx 是一款基于 Grok 2.0 模型的开源 AI 搜索引擎,支持网页、学术论文、YouTube 视频等多种内容搜索,提供代码解释、天气预报等功能。

269 17
来自: 多模态  版块
|
8月前
|
人工智能
|

CreatiLayout:复旦与字节联合推出布局到图像生成技术,支持高质量图像生成与布局优化

CreatiLayout 是复旦大学与字节跳动联合推出的创新布局到图像生成技术,通过大规模数据集和孪生多模态扩散变换器,实现高质量图像生成与布局优化。

235 20
来自: 计算机视觉  版块
|
8月前
|
机器学习/深度学习 人工智能 文字识别
|

魔搭社区每周速递(12.29-1.4)

魔搭ModelScope本期社区进展:828个模型,72个数据集,61个创新应用,9篇内容

242 10
|
8月前
|
机器学习/深度学习 数据采集 人工智能
|

GeneralDyG:南洋理工推出通用动态图异常检测方法,支持社交网络、电商和网络安全

GeneralDyG 是南洋理工大学推出的通用动态图异常检测方法,通过时间 ego-graph 采样、图神经网络和时间感知 Transformer 模块,有效应对数据多样性、动态特征捕捉和计算成本高等挑战。

210 18
来自: 多模态  版块
|
8月前
|
人工智能 Python
|

ImBD:复旦联合华南理工推出 AI 内容检测模型,快速辨别文本内容是否为 AI 生成

ImBD是一款由复旦大学、华南理工大学等机构联合推出的AI内容检测器,能够快速识别机器修订文本,适用于多种场景,显著提升检测性能。

515 8
来自: 自然语言处理  版块

ModelScope模型即服务

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352

0
今日
14243
内容
6
活动
3577
关注
你好!
登录掌握更多精彩内容

相关产品

  • 人工智能平台 PAI
  • 文字识别
  • 智能语音交互