modelscope_社区达人页_第6页-阿里云开发者社区

modelscope

已加入开发者社区388天

勋章更多

阿里博主

江湖新秀

成就

已发布402篇文章

203条评论

已回答0个问题

0条评论

已发布13个视频

github地址

我关注的人更多

粉丝更多

技术能力

兴趣领域

擅长领域

技术认证

暂时未有相关云产品技术能力~

暂无个人介绍

精选

高分内容

最新动态

文章
问答
视频

暂无精选文章

暂无更多信息

2025年04月

04.24 18:27:20

发表了文章 2025-04-24 18:27:20

HumanRig：高德地图提出在大规模数据集中学习人形角色的自动绑定技术，数据集开源！

HumanRig：高德地图提出在大规模数据集中学习人形角色的自动绑定技术，数据集开源！
04.24 18:25:30

发表了文章 2025-04-24 18:25:30

通义万相2.1首尾帧模型开源！细节真实生动+过渡丝滑，指令遵循表现出色！

通义万相2.1首尾帧模型开源！细节真实生动+过渡丝滑，指令遵循表现出色！
04.24 18:21:59

发表了文章 2025-04-24 18:21:59

"一丹一世界"二等奖 | TPSZ_二次元卡通梦幻插画风格-童梦拾光创作分享

"一丹一世界"二等奖 | TPSZ_二次元卡通梦幻插画风格-童梦拾光创作分享
04.24 18:20:49

发表了文章 2025-04-24 18:20:49

"一丹一世界"一等奖 | 曙光_麦橘超然创作分享

"一丹一世界"一等奖 | 曙光_麦橘超然创作分享
04.16 09:53:12

发表了文章 2025-04-16 09:53:12

全新GLM模型登场：9B/32B系列模型全面开源，性能媲美顶尖选手，MIT协议商用无忧！

智谱开源 32B/9B 系列 GLM 模型，涵盖基座、推理、沉思模型，均遵循 MIT 许可协议。该系列模型现已发布魔搭社区。其中，推理模型 GLM-Z1-32B-0414 性能媲美 DeepSeek-R1 等顶尖模型，实测推理速度可达 200 Tokens/秒。
04.16 09:51:47

发表了文章 2025-04-16 09:51:47

魔搭上线最大MCP中文社区，支付宝、MiniMax等MCP独家首发

4月15日，中国第一AI开源社区魔搭（ModelScope）推出全新MCP广场，上架千余款热门的MCP服务，包括支付宝、MiniMax等全新MCP服务在魔搭独家首发。魔搭社区为AI开发者提供丰富的MCP服务及调试工具，并支持第三方平台集成和调用，通过开源开放的方式加速Agent及AI应用的创新和落地。
04.15 13:17:28

发表了文章 2025-04-15 13:17:28

MCP的蝴蝶效应：生产力还没实质提升的当下，与生产关系改变带来的大模型应用无限未来

从 LangChain 创始人Twitter激辩 MCP，到 Manus 项目火爆出圈，以及OpenAI & Google纷纷下场兼容MCP，这场由Anthropic发起的技术变革正引发全球科技圈的关注。作为国内首批接入MCP生态的企业级平台和开源社区，阿里云百炼与ModelScope社区深度拥抱MCP全套生态工具并提供大量深度应用实践，并收获到大家的热烈反馈。在各类宣传稿中，MCP似乎无所不能，那么它真的是技术上的万能灵药么？我们将从技术祛魅与生态重构的双重视角，和大家深度讨论下MCP的现状与对未来的展望。
04.14 13:42:21

发表了文章 2025-04-14 13:42:21

魔搭社区模型速递（3.30-4.12）

魔搭ModelScope本期社区进展：新增1911个模型，297个数据集，113个创新应用， 10篇内容。
04.14 13:39:07

发表了文章 2025-04-14 13:39:07

Kimi开源MoE架构多模态推理模型，小激活参数，大能量！

最近Moonshot AI推出了 Kimi-VL，这是一个高效的开源混合专家（MoE）视觉-语言模型（VLM），它提供了先进的多模态推理、长上下文理解以及强大的代理能力——所有这些功能都只需激活其语言解码器中的2.8B参数（Kimi-VL-A3B）。
04.11 11:28:33

发表了文章 2025-04-11 11:28:33

突破自动驾驶"交规困境"：高德&西交发布交规+高精地图基准MapDR，车道级交通规则在线理解，让AI更懂交规！

作为专业领先的出行和位置服务提供商，高德地图以数据准确率高、鲜度高著称。当前自动驾驶技术总是关注到矢量地图的构建，往往忽略了车道级驾驶规则的制作。对应图商而言，车道级的领航不仅需要有正确的车道级矢量表达，还要明确每条路的驾驶规则，保证引导的准确率。
04.11 11:25:27

发表了文章 2025-04-11 11:25:27

把大模型变成微信私人助手，三步搞定！

随着大模型的应用越来越广泛，相信大家都对拥有一个自己的私人AI助手越来越感兴趣。然而基于大模型遵循的"规模效应"(Scaling Law)原理，传统部署方式面临三重阻碍：高昂的运维成本、复杂的技术门槛（需掌握模型部署、量化等技术概念）以及系统集成难题。
04.09 11:16:56

发表了文章 2025-04-09 11:16:56

智源开源FlagOS升级：首次实现DeepSeek-R1满血版多种芯片高效快速部署

近日，DeepSeek-R1以低训练成本实现比肩一流模型的高性能并全面开源，引发了海量部署及场景应用，推理计算需求迅猛增长。
04.09 10:57:54

发表了文章 2025-04-09 10:57:54

Llama 4上线魔搭社区！社区推理、微调实战教程来啦！

近期，Meta推出了Llama 4系列的首批模型： Llama 4 Scout 和 Llama 4 Maverick。
04.03 19:16:45

发表了文章 2025-04-03 19:16:45

开箱即用的可视化AI应用编排工具 Langflow，可调用魔搭免费API作为tool

ModelScope 社区基于优秀的开源可视化AI应用编排工具 Langflow 搭建了创空间，以方便社区开发者基于社区开源模型及免费魔搭 API-Inference，快速创建Agent应用、RAG应用并将其部署为API服务。
04.02 16:24:04

发表了文章 2025-04-02 16:24:04

杭州六小龙最新开源「空间理解模型」，保姆级教程来了！

前几天，“杭州六小龙”之一「群核科技」在GTC 2025大会开源了空间理解模型：SpatialLM。
04.02 16:22:44

发表了文章 2025-04-02 16:22:44

通义灵码与魔搭Notebook深度集成：在线编码开箱即用，开发效率倍增

通义灵码2.0 AI程序员于2025年1月上线，目前已支持超过百万开发者。该工具的智能编程能力现已与阿里云AI模型开发平台魔搭ModelScope实现技术集成
04.02 16:02:53

发表了文章 2025-04-02 16:02:53

重磅发布｜支持东方40语种+中国22方言的新SOTA语音大模型Dolphin开源啦！

在当今数字化时代，语音识别技术已成为人机交互的关键桥梁，广泛应用于智能客服、语音助手、会议转录等众多领域。

2025年03月

03.31 11:38:42

发表了文章 2025-03-31 11:38:42

魔搭社区模型速递（3.23-3.29）

🙋魔搭ModelScope本期社区进展：619个模型，93个数据集，151个创新应用，7篇内容。
03.31 11:34:50

发表了文章 2025-03-31 11:34:50

WritingBench：阿里最新大模型写作能力多维测评工具，开源32B深度思考写作模型

近日，阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景，共包含1239条评测数据，以期为生成式写作提供全面的评估。团队进一步发现，凭借思维链技术和动态评估体系的加持，基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1，为高效能创作开辟了新路径。
03.31 11:32:33

发表了文章 2025-03-31 11:32:33

看听说写四维突破：Qwen2.5-Omni 端到端多模态模型开源！

今天，通义千问团队发布了 Qwen2.5-Omni，Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。
03.26 14:44:17

发表了文章 2025-03-26 14:44:17

Qwen2.5-VL-32B: 更聪明、更轻量!

年前，阿里通义千问团队推出了 Qwen2.5-VL 系列模型，获得了社区的广泛关注和积极反馈。在 Qwen2.5-VL 系列的基础上，研究团队使用强化学习持续优化模型，并使用 Apache 2.0 协议开源 32B 这个备受喜爱的参数规模的新 VL 模型—— Qwen2.5-VL-32B-Instruct。相比此前发布的 Qwen2.5-VL 系列模型，本次推出的 32B 模型的特点如下：
03.26 14:00:35

发表了文章 2025-03-26 14:00:35

DeepSeek-V3小版本升级，非推理模型王者归来

今天，DeepSeek低调地在魔搭社区开源 DeepSeek-V3-0324 模型，虽然官方低调称之为小版本升级，但能力提升一点也不小。
03.26 13:59:17

发表了文章 2025-03-26 13:59:17

今日论文推荐：MAPS、RoboFactory、OpenVLThinker等

由 AIRI 和 MIPT 等机构提出的这项工作，聚焦于视觉编码器生成的大量视觉 token 如何在保持高质量表征的同时减少计算成本。他们提出了一种自适应 token 削减方法，通过结合自编码器和 Gumbel-Softmax 选择机制，筛选出最具信息量的 token。实验表明，在 OCR 任务中可削减超 50% 的视觉上下文而不损失性能，为高效多模态推理开辟了新方向。
03.25 11:16:30

发表了文章 2025-03-25 11:16:30

4G显存部署Flux，2分钟Wan2.1-14B视频生成，DiffSynth-Engine引擎开源！

魔搭社区的开源项目 DiffSynth-Studio 自推出以来，凭借其前沿的技术探索和卓越的创新能力，持续受到开源社区的高度关注与广泛好评。截至目前，该项目已在 GitHub 上斩获超过 8,000 颗星，成为备受瞩目的开源项目之一。作为以技术探索为核心理念的实践平台，DiffSynth-Studio 基于扩散模型（Diffusion Model），在图像生成和视频生成领域孵化出了一系列富有创意且实用的技术成果，其中包括 ExVideo、ArtAug、EliGen 等代表性模块。
03.25 11:09:59

发表了文章 2025-03-25 11:09:59

上周多模态论文推荐：MAPS、MapGlue、OmniGeo、OThink-MR1

由西安交通大学、新加坡国立大学和南洋理工大学联合提出，该工作推出了MAPS框架，利用基于Big Seven人格理论的七个智能体和苏格拉底式引导，解决多模态科学问题（MSPs）。通过四阶段求解策略和批判性反思智能体，MAPS在EMMA、Olympiad和MathVista数据集上超越当前最佳模型15.84%，展现了卓越的多模态推理与泛化能力。
03.24 13:22:13

发表了文章 2025-03-24 13:22:13

魔搭社区模型速递（3.16-3.22）

魔搭ModelScope本期社区进展：📟1177个模型，📁216个数据集，416个创新应用，📄 11篇内容
03.24 13:21:18

发表了文章 2025-03-24 13:21:18

不写一行代码，用MCP+魔搭API-Inference 搭建一个本地数据助手! 附所有工具和清单

还在为大模型开发的复杂技术栈、框架不兼容和工具调用问题头疼吗？MCP（Model Context Protocol servers）来拯救你了！它用统一的技术栈、兼容主流框架和简化工具调用的方式，让大模型开发变得简单高效。
03.24 13:18:20

发表了文章 2025-03-24 13:18:20

今日论文推荐：DeepMesh、TULIP、Cube、STEVE及LEGION

由上海 AI 实验室、西安交通大学等机构提出的 φ-Decoding，是一种全新的推理时间优化策略。该工作通过前瞻采样和聚类技术，平衡了探索与利用的关系，显著提升了大语言模型（LLM）的推理性能。实验表明，其在七个基准测试中超越了强基线，且具备跨模型通用性和计算预算扩展性。
03.21 14:26:28

发表了文章 2025-03-21 14:26:28

阶跃星辰开源Step-Video-TI2V 图生视频模型介绍

在今年 2 月，阶跃星辰开源了两款 Step 系列多模态大模型——Step-Video-T2V 视频生成模型和 Step-Audio 语音模型，为开源社区贡献了自己的多模态力量。
03.21 14:17:08

发表了文章 2025-03-21 14:17:08

RWKV-7革新序列建模，Impossible Videos探索超现实，Creation-MMBench点燃创意火花: 今日论文

由 RWKV 项目（Linux Foundation AI & Data）和 EleutherAI 等机构提出的 RWKV-7 "Goose"，是一种全新的序列建模架构。它在30亿参数规模上刷新了多语言任务的下游性能纪录，媲美顶级英文语言模型，同时仅需恒定内存和推理时间。核心创新包括广义delta规则和上下文学习率优化，超越了传统Transformer的表达能力。作者还开源了3.1万亿token的多语言数据集和代码，助力社区研究。
03.20 14:12:50

发表了文章 2025-03-20 14:12:50

Gemma3：Google开源多模态神器，轻量高效，精通140+语言，解锁文本与图像任务

在当今快速发展的 AI 领域，多模态模型正逐渐成为推动技术革新的重要力量。Google 最新推出的 Gemma 3 模型，凭借其轻量级、多模态的特性，为文本生成和图像理解任务带来了全新的可能性。它不仅支持文本和图像输入，还具备强大的语言处理能力，覆盖超过 140 种语言，并且能够在资源有限的设备上高效运行。从问答到摘要，从推理到图像分析，Gemma 3 正在重新定义 AI 模型的边界，为开发者和研究人员提供了一个极具潜力的工具。
03.20 14:11:21

发表了文章 2025-03-20 14:11:21

MiniMax开源超长文本处理神器，魔搭社区助力开发者推理部署

Transfermor架构与生俱来的二次计算复杂度，及其所带来的上下文窗口瓶颈，一直为业界所关注。此前，MiniMax开源了MiniMax-01系列模型，采用创新的线性注意力架构，使得模型能够在100万个token长度的上下文窗口上进行预训练；而在推理时，实现了高效处理全球最长400万token的上下文，是目前最长上下文窗口的20倍。
03.20 14:09:26

发表了文章 2025-03-20 14:09:26

今日热门论文推荐：多模态CoT综述、BlobCtrl、Being-0、DreamRenderer、WideRange4D 等

这篇调查论文是首个系统回顾多模态思维链(MCoT)推理的综述。论文阐明了相关基础概念和定义，提供了全面的分类法，并从不同角度对当前方法进行了深入分析。MCoT将思维链推理的优势扩展到多模态环境中，设计了各种方法和创新推理范式来解决图像、视频、语音、音频、3D和结构化数据等不同模态的独特挑战，在机器人技术、医疗保健、自动驾驶和多模态生成等应用中取得了广泛成功。
03.20 14:06:19

发表了文章 2025-03-20 14:06:19

今日AI论文推荐：ReCamMaster、PLADIS、SmolDocling、FlowTok

由浙江大学、快手科技等机构提出的ReCamMaster是一个相机控制的生成式视频重渲染框架，可以使用新的相机轨迹重现输入视频的动态场景。该工作的核心创新在于利用预训练的文本到视频模型的生成能力，通过一种简单但强大的视频条件机制。为克服高质量训练数据的稀缺问题，研究者使用虚幻引擎5构建了一个全面的多相机同步视频数据集，涵盖多样化的场景和相机运动。
03.20 14:02:57

发表了文章 2025-03-20 14:02:57

琶洲算法大赛首场高校巡回赛中山大学站圆满收官

近日，琶洲算法大赛高校巡回赛全国首站在中山大学珠海校区圆满收官。琶洲算法大赛定位为国际性算法领域权威赛事，旨在推动人工智能技术创新与产业融合‌，举办三届以来，琶洲已经评选出41位琶洲领军算法师，落地人才团队170个，极大程度扩充丰富了本地算法人才数量和层级。
03.18 14:47:02

发表了文章 2025-03-18 14:47:02

ModelScope魔搭25年3月发布月报

在这个春天里，小鲸鱼的DeepSeek-R1系列在模型社区掀起的巨大浪潮尚未平息，我们又迎来了千问的QwQ-32B正式版本，社区在Reasoning模型上的热情还在升温。除此之外，业界其他模型在过去一
03.18 14:45:14

发表了文章 2025-03-18 14:45:14

魔搭社区模型速递（3.9-3.15）

魔搭ModelScope本期社区进展：1066个模型，153个数据集，125个创新应用，13篇内容
03.18 14:43:50

发表了文章 2025-03-18 14:43:50

本周 AI Benchmark 方向论文推荐

由北京大学和微软亚洲研究院的魏李等人提出的 FEA-Bench，是一个专为评估大型语言模型（LLMs）在代码库级别进行增量开发能力的基准测试。它从 83 个 GitHub 仓库中收集了 1,401 个任务实例，专注于新功能的实现。研究表明，即使是先进的 LLMs 在此任务中的表现仍远低于预期，揭示了仓库级代码开发的重大挑战。
03.18 14:41:38

发表了文章 2025-03-18 14:41:38

论文推荐：R1-Omni、VisualPRM、4D LangSplat、Vision-R1、GoT

简要介绍：由复旦大学、上海AI实验室等机构提出了首个统一多模态理解和生成的奖励模型UnifiedReward。该工作构建了大规模人类偏好数据集，包含图像和视频生成/理解任务，并利用该模型进行自动构建高质量偏好对数据，最终通过DPO优化视觉模型。实验结果表明，联合学习评估多样化视觉任务可以带来显著的相互益处。
03.18 14:39:00

发表了文章 2025-03-18 14:39:00

论文推荐：CoSTAast、Transformers without Normalization

由马里兰大学团队提出的CoSTA*，针对多轮图像编辑任务设计了一种成本敏感的工具路径代理。该工作结合大语言模型（LLM）的子任务规划与A搜索算法，构建了一个高效的工具选择路径，不仅降低了计算成本，还提升了图像编辑质量。通过视觉语言模型评估子任务输出，CoSTA能在失败时快速调整路径，并在全新多轮图像编辑基准测试中超越现有最佳模型。
03.18 14:19:13

发表了文章 2025-03-18 14:19:13

驱动“超真人”虚拟助手Maya的实时语音对话模型CSM-1b开源！

3月14日，创造出病毒级虚拟助手 Maya 的Sesame团队开源了他们的语音生成模型 CSM-1b，可根据文本和音频输入生成 RVQ 音频代码。这意味着，我们每个人都可以0成本拥有一个真正的AI伴侣了，甚至可以自己动手搭建、测试和改进模型。
03.18 14:15:59

发表了文章 2025-03-18 14:15:59

有效的思考：模型思考效率评测

随着大语言模型的迅速发展，模型的推理能力得到了显著提升。特别是长推理模型（Long Reasoning Models），如OpenAI的o1、DeepSeek-R1、QwQ-32B和Kimi K1.5等，因其展现出类似人类的深度思考能力而备受关注。这些模型通过长时间推理（Inference-Time Scaling），能够在解码阶段不断思考并尝试新的思路来得到正确的答案。
03.18 14:14:50

发表了文章 2025-03-18 14:14:50

热门论文推荐：TPDiff、Block Diffusion、Reangle-A-Video、GTR

由新加坡国立大学Show Lab的Lingmin Ran和Mike Zheng Shou提出，TPDiff是一个创新的视频扩散模型框架，针对视频生成的高计算需求问题，通过分阶段逐步提高帧率优化了训练和推理效率。核心贡献包括提出“时间金字塔”方法和阶段式扩散训练策略，实验表明训练成本降低50%，推理效率提升1.5倍。
03.14 16:52:21

发表了文章 2025-03-14 16:52:21

线上共学 | Mac本地玩转大模型

本文介绍如何在Mac本地部署和使用大模型，包括基础运行、多模态扩展、交互优化、知识增强、定制进化等技术链路，并提供Ollama、Stable Diffusion、LM-Studio等工具的详细操作指南。
03.14 10:30:00

发表了文章 2025-03-14 10:30:00

今日热门论文推荐：Seedream、LMM-R1、YuE、Gemini Embedding

由Cohere、SEACrowd等机构联手打造，SEA-VL是一个面向东南亚地区的多文化视觉-语言数据集，填补了AI模型在该地区文化细微差别理解上的空白。该工作通过众包、爬取和生成三种方式收集了128万张文化相关图像，结合本地贡献者确保数据的高质量和多样性，推动了更具包容性的AI发展。
03.13 11:13:15

发表了文章 2025-03-13 11:13:15

R1-Omni开源！多模态模型+RLVR，让各模态作用清晰可见

随着 DeepSeek R1 的推出，强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward (RLVR) 方法的出现，为多模态任务提供了全新的优化思路，无论是几何推理、视觉计数，还是经典图像分类和物体检测任务，RLVR 都展现出了显著优于传统监督微调（SFT）的效果。
03.13 11:10:45

发表了文章 2025-03-13 11:10:45

“同西游，见万相” 主题LoRA风格挑战赛来袭！万元奖金池+猫超卡+限定周边来赢！

在通义万相Wan2.1的文生视频模型的基础上训练LoRA模型，以《西游记》的经典人物或故事为背景，描绘一个创作者心中的西游场景。参赛者根据自己的创意自定义故事内容，选择用任意的视觉风格和叙事手法进行演绎，展现 AI 在风格迁移、内容创意和叙事变化上的可能性。
03.13 11:02:13

发表了文章 2025-03-13 11:02:13

今日热门论文推荐：EuroBERT、S2S-Arena、R1-Searcher

由俄罗斯多家机构提出的RuCCoD，聚焦于俄语临床编码自动化的可行性研究。俄语作为生物医学资源有限的语言，该工作构建了一个包含超过1万实体和1500+独特ICD码的电子健康记录数据集，并测试了BERT、LLaMA和RAG等模型。实验表明，使用自动预测编码训练的模型显著优于医生手动标注，提升了准确性。这一成果为资源匮乏语言的临床效率和数据精度提供了宝贵洞见。