modelscope_高分内容_社区达人页-阿里云开发者社区

发表了文章 2025-12-16

通义百聆语音双子星，同步开源！

通义百聆全新升级，推出Fun-CosyVoice3与Fun-ASR系列模型。3秒录音即可实现9种语言、18种方言及多情感音色克隆，支持中英混说、跨语种合成；Fun-ASR识别准确率高达93%，支持31种语言自由混说、歌词说唱识别，并开源轻量级模型，助力高效本地部署与定制开发。

发表了文章 2025-12-15

Z-Image Turbo LoRA训练魔法：如何保持加速生图能力

ModelScope DiffSynth团队推出Z-Image-Turbo-DistillPatch，解决LoRA训练后丢失Turbo加速问题。支持8步高质量生成，兼容标准SFT流程，即插即用，无需重训。开源地址：modelscope.cn/models/DiffSynth-Studio/Z-Image-Turbo-DistillPatch

发表了文章 2025-12-12

魔珐星云：免费体验企业级3D AI数字人智能客服！告别枯燥对话框！

魔珐科技携手魔搭社区上线「魔珐星云智能客服Demo」，基于超写实3D数字人技术，打造具身智能交互新体验。通过文生多模态3D大模型，实现语音、表情、动作实时生成，支持Web端低延时互动，百元级芯片即可运行，助力企业构建自然高效的人机对话系统。

发表了文章 2025-12-12

送给GLM Coding Plan用户和开源社区的“AI手机”

智谱推出“AI手机”新体验，通过Claude Code输入提示词，即可自动部署开源Agent模型AutoGLM。三步操作，轻松拥有专属AI设备，享受技术平权。倡导开源生态与AI协同，推动人人可用的AGI未来。

发表了文章 2025-12-11

智谱开源GLM-ASR：动动嘴，活就干了

智谱发布并开源GLM-ASR系列语音识别模型，推出桌面端AI输入法。包含云端旗舰模型GLM-ASR-2512与端侧轻量版GLM-ASR-Nano-2512（仅1.5B参数），实现高精度、低延迟、强隐私保护的语音转写。输入法集成大模型能力，支持语音指令、翻译、改写、人设切换、Vibe Coding等功能，让用户“动嘴干活”，提升办公效率。现已免费开放体验。

发表了文章 2025-12-09

智谱 GLM-4.6V开源！能看、能想还能执行「百变」任务

智谱发布GLM-4.6V系列多模态大模型，含106B基础版与9B轻量版，支持128k长上下文，视觉理解达同规模SOTA。原生融合工具调用能力，打通“视觉感知-行动执行”闭环，降价50%，API低至1元/百万tokens，助力图文创作、识图购物、前端复刻等复杂场景。

发表了文章 2025-12-08

智源RoboCOIN重磅开源！全球本体数最多、标注最精细、使用最便捷的高质量双臂机器人真机数据集来了

北京智源研究院联合多家机构发布全球首个“本体数最多、标注最精细、使用最便捷”的双臂机器人真机数据集RoboCOIN，覆盖15类机器人、18万条轨迹、421项任务，首创“层级能力金字塔”标注体系，推动具身智能迈向真实场景应用。

发表了文章 2025-12-03

告别 GUI Agent 工程基建噩梦！阶跃星辰开源 4B 模型，本地轻松部署，玩转安卓应用

阶跃星辰开源GELab-Zero，首发4B GUI Agent模型及完整基建，支持一键部署，在多端性能达SOTA。同步推出真实场景评测基准AndroidDaily，推动GUI智能体规模化落地。

发表了文章 2025-12-03

DeepSeek V3.2 正式版：强化 Agent 能力，融入思考推理

DeepSeek发布正式版V3.2与高性能Speciale版本，支持思考模式下工具调用，推理能力达全球领先水平。V3.2平衡效率与性能，适用于通用任务；Speciale专注复杂推理，在数学与编程竞赛中表现卓越，已开源并上线API。

发表了文章 2025-12-03

LET数据集来魔搭了！开源首批超60,000分钟全尺寸人形机器人真机数据

国内最大全尺寸人形机器人真机数据集“LET数据集”正式发布，首批开源超6万分钟高质量数据，覆盖6大真实场景，支持多模态融合与标准化应用，助力具身智能研发，已在魔搭社区开放共享。

发表了文章 2025-12-03

Z-Image：冲击体验上限的下一代图像生成模型

通义实验室推出全新文生图模型Z-Image，以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成，支持16GB显存设备，中英双语理解与文字渲染尤为出色，真实感和美学表现媲美国际顶尖模型，被誉为“最值得关注的开源生图模型之一”。

发表了文章 2025-11-27

字节推出VeAgentBench + veADK，打造可评估、可复现的智能体开发新范式

字节跳动推出VeAgentBench与veADK，打造智能体“开发-评估”闭环。VeAgentBench是覆盖教育、金融、法律等四大场景的开源评估基准，veADK为高效易用的开发框架，支持工具调用、RAG与记忆管理，助力AI智能体可度量、可复现、可落地。

发表了文章 2025-11-26

杭州AI开源生态大会·魔搭社区开发者嘉年华全回顾

11月22日，杭州AI开源生态大会暨“魔搭社区”开发者中心启用仪式在云谷中心举行。大会汇聚超3000名开发者，发布“两张清单”与AI开源政策包，启用首个线下开发者空间，推动开放、共建、共创的AI生态发展。

发表了文章 2025-11-26

混元OCR模型宣布开源，参数仅1B，多项核心能力SOTA

腾讯混元推出全新开源OCR模型HunyuanOCR，仅1B参数，基于原生多模态架构，实现端到端高效推理。在复杂文档解析、文字检测识别等多场景表现卓越，支持14种小语种翻译，广泛适用于票据抽取、视频字幕识别等应用，多项指标达业界SOTA水平。

发表了文章 2025-11-26

新的LLM交互模式！大模型终于能自己生成交互式 UI 了

Google Research推出的Generative UI，让大模型不仅能生成内容，还能一键创建含地图、图表、小游戏等交互功能的完整网页。告别“文字墙”，迈向“内容即应用”的新时代，82.8%用户偏爱此创新体验。

发表了文章 2025-11-25

腾讯混元 HunyuanVideo 1.5 开源！

腾讯混元团队开源HunyuanVideo 1.5，一款8.3B参数的轻量级视频生成模型，基于DiT架构，支持文生视频、图生视频，可在14G显存设备运行，生成5-10秒高清视频，具备强指令响应、流畅动作与电影级画质。

发表了文章 2025-11-24

AgentEvolver：让智能体系统学会「自我进化」

AgentEvolver 是一个自进化智能体系统，通过自我任务生成、经验导航与反思归因三大机制，推动AI从“被动执行”迈向“主动学习”。它显著提升强化学习效率，在更少参数下实现更强性能，助力智能体持续自我迭代。开源地址：https://github.com/modelscope/AgentEvolver

发表了文章 2025-11-24

Meta SAM3开源：让图像分割，听懂你的话

Meta发布并开源SAM 3，首个支持文本或视觉提示的统一图像视频分割模型，可精准分割“红色条纹伞”等开放词汇概念，覆盖400万独特概念，性能达人类水平75%–80%，推动视觉分割新突破。

发表了文章 2025-11-21

Meta SAM3开源：让图像分割，听懂你的话

Meta发布并开源SAM 3，首个支持文本、点、框等提示进行图像与视频分割的统一基础模型，突破传统限制，实现开放词汇概念的精准识别与跟踪，涵盖超400万独特概念，推动视觉分割新发展。

发表了文章 2025-11-20

MemOS 正式上线魔搭社区 MCP 广场，让你的智能体拥有「长期记忆」

MemOS 正式上线魔搭社区 MCP 广场，作为首个大模型记忆操作系统，支持标准化记忆读写，7天调用量超14.9万次。开发者可一键集成，让AI具备持久化、可调度的记忆能力，实现连续思考与长期进化。

发表了文章 2025-11-19

ModelScope魔搭社区发布月报 -- 25年11月

魔搭ModelScope三周年庆！见证开源大模型从追赶到领跑，11月硬核更新不断：Qwen3-VL、MiniMax-M2等新模态齐发，AIGC生态爆发，OCR、语音、Agent全面进化。11月22日杭州AI开源生态大会，不见不散！

发表了文章 2025-11-18

码上生花：用API链接Qwen-Image系列及衍生LoRA生态模型

Qwen-Image系列开源三月成爆款，凭借中文场景优势与ModelScope平台深度集成，支持文生图、图像编辑及LoRA生态API调用，助力开发者高效创作。

发表了文章 2025-11-17

腾讯混元&清华开源15M高质量多模态训练数据，全面开放MLLM迎来质变时刻

腾讯混元与清华推出Bee项目，首创“以数据为中心”的全栈开源方案，通过Honey-Data-15M高质量数据集、HoneyPipe数据增强管线及Bee-8B模型，显著提升全开源多模态大模型性能，缩小与闭源模型差距。

发表了文章 2025-11-14

美团 LongCat 团队发布全模态一站式评测基准UNO-Bench：揭示单模态与全模态能力的组合规律

美团LongCat团队推出一站式全模态大模型评测基准UNO-Bench，首创“组合定律”揭示多模态能力协同增益，支持中文场景，以98%跨模态问题占比和创新多步开放式题型，科学评估模型真实融合能力。

发表了文章 2025-11-12

仅3B激活参数，更强的多模态理解与推理能力，百度文心 ERNIE-4.5-VL-28B-A3B-Thinking正式开源！

11月11日，百度开源文心ERNIE-4.5-VL-28B-A3B-Thinking多模态模型，仅3B激活参数，性能媲美顶级大模型。具备强大视觉语言理解、跨模态推理与“图像思考”等创新功能，支持工具调用与视频分析，适用于复杂图文任务，全面开放商用。

发表了文章 2025-11-11

阶跃星辰发布首个开源 LLM 级音频编辑大模型 Step-Audio-EditX

阶跃星辰发布全球首个开源LLM级音频编辑大模型Step-Audio-EditX，支持零样本TTS、多语言方言及情感、风格、副语言特征精准控制，采用统一LLM框架，实现文本驱动音频创作。

发表了文章 2025-11-10

Mcore Bridge：迈向Megatron训练"零门槛"时代

魔搭社区推出Mcore-Bridge与Megatron-SWIFT，显著降低大模型训练门槛。支持safetensors格式、一键启动、无需权重转换，兼容MoE等架构，实现高性能与易用性统一，让Megatron训练开箱即用。

发表了文章 2025-11-10

ChatPPT+魔搭社区：MCP 2.0全面升级！

ChatPPT MCP2.0正式发布，联合魔搭ModelScope推出云端智能体服务，支持生成、编辑、演讲、动画等全链路功能，开放Streamable HTTP协议与本地Stdio双模式，已接入20+平台，服务300+开发者。

发表了文章 2025-11-03

Soul App联合西工大和上交大开源语音合成模型SoulX-Podcast，已登顶Hugging Face TTS趋势榜！

Soul AI Lab联合西工大、上交大开源SoulX-Podcast，支持中英粤川等多语种方言及副语言生成，可稳定输出超60分钟自然流畅的多人对话音频，已在Huggingface登顶TTS趋势榜。

发表了文章 2025-10-31

Thinking Machines Lab最新研究结果如何复现？On-Policy Distillation让训练成本直降10倍

Thinking Machines Lab提出On-Policy Distillation技术，让小模型高效继承大模型能力。相比传统强化学习，训练成本降低90%，效率提升十倍，支持本地部署、降低成本与延迟。结合vLLM加速与独立DeepSpeed配置，MS-SWIFT框架实现开箱即用的高效蒸馏训练，助力轻量模型具备“会思考、能纠错、可进化”的智能。

发表了文章 2025-10-30

UI-Ins：让 GUI 智能体真正“看懂”用户指令的新范式

通义实验室联合人大发布全新GUI Grounding模型UI-Ins，首创“指令即推理”范式，通过多视角动态推理实现SOTA性能，在五大基准全面领先，支持开源复现与应用。

发表了文章 2025-10-29

全新框架 Glyph 开源：用视觉理解文本，3–4 倍上下文压缩，近 5 倍推理提速！

清华CoAI与智谱AI提出Glyph新范式，将长文本渲染为图像，通过视觉语言模型实现高效长上下文处理。3-4倍压缩比，性能媲美主流大模型，显存占用降2/3，低成本支持百万token任务，开源可商用。

发表了文章 2025-10-27

仅100多元，他给视障人群装上AI“眼睛”

上海两名开发者为验证AI助盲实效，亲手打造百元AI眼镜，蒙眼实测过马路、识盲道，并开源项目鼓励更多人参与。技术导航，人心照亮。

发表了文章 2025-10-27

腾讯混元世界模型1.1开源：支持多视图及视频输入，单卡部署，秒级生成_魔搭ModelScope社区-ModelScope魔搭社区

混元世界模型1.1（WorldMirror）发布，支持多视图、视频输入，单卡秒级生成3D场景。兼容CG管线，开源可部署，实现点云、深度、相机等多任务统一预测，性能领先。

发表了文章 2025-10-27

「超级开发个体」在诞生：一份白皮书带你理解AI时代开发者

10月24日程序员节，魔搭社区联合知乎发布《THE NEXT WAVE：AI时代开发者生态白皮书》，揭示AI时代开发者新画像：以“超级个体”为核心，兼具技术与商业闭环能力，工具平权让个人开发者崛起。报告涵盖年龄、学历、组织分布及认知行为特征，展现开发者如何用AI提效、实现从“写代码”到“搭系统”的跃迁。点击下载完整报告。

发表了文章 2025-10-23

Qwen3-VL新成员 2B、32B来啦！更适合开发者体质

Qwen3-VL家族重磅推出2B与32B双版本，轻量高效与超强推理兼备，一模型通吃多模态与纯文本任务！

发表了文章 2025-10-17

Face-to-Photo 模型开源！联名麦橘MERJIC，遇见另一个你！

魔搭 DiffSynth-Studio 团队携手知名创作者麦橘MERJIC，正式开源全新 AI 图像生成模型——Face-to-Photo！该模型基于 Qwen-Image-Edit，采用 LoRA 的模型结构，专为人脸图像生成而优化，将一张普通的人脸照片转化…

发表了文章 2025-10-17

ModelScope魔搭社区发布月报 -- 25年10月

2025年10月，ModelScope密集发布多模态与大模型更新，并上线国际站、科学智能专区及AIGC工具FlowBench，加速开源生态发展。

发表了文章 2025-10-14

用Macbook微调Qwen3！手把手教你用微调给Qwen起一个新名字

本文介绍如何在MacBook上使用苹果MLX框架高效微调Qwen3大模型。借助MLX的高性能计算与统一内存架构，仅需2分钟即可完成训练，内存占用低至2GB，推理速度达400 Token/s，并支持快速部署为本地API服务，展现Mac轻薄本的强大AI生产力潜力。

发表了文章 2025-10-13

图像理解与生成统一模型——前沿模型架构理解

前言生成式多模态模型近年来一直是业界的研究热点。视觉语言模型（VLM）一直是多模态文本生成领域的核心路线，能够完成图像理解任务；扩散模型（Diffusion Model）则一直是图像和视频生成领域的核心方法。

发表了文章 2025-10-10

Ling-1T，智渊、思简

今天，我们正式发布Ling 2.0系列的第一款旗舰非思考模型 - 拥有万亿参数的Ling-1T。推理，是智能的核心表达，更是通用智能体的认知基石。因此，我们持续扩展Ling 2.0 系列模型的自然语言推理能力。Ling-1T沿用 Li…

发表了文章 2025-10-09

智谱旗舰模型GLM-4.6开源发布，代码能力对齐Claude Sonnet 4

作为GLM系列的最新版本，GLM-4.6是系列最强的代码Coding模型（较GLM-4.5提升27%）

发表了文章 2025-09-30

DeepSeek-V3.2-Exp 发布，训练推理提效，API 同步降价

今天，我们正式发布 DeepSeek-V3.2-Exp 模型，这是一个实验性（ Experimental）的版本。作为迈向新一代架构的中间步骤，V3.2-Exp 在 V3.1-Terminus 的基础上引入了 DeepSeek Sparse Attention（一种稀疏注意力机制…

发表了文章 2025-09-30

腾讯混元图像3.0正式开源发布！80B，首个工业级原生多模态生图模型

腾讯混元图像3.0，真的来了——开源，免费开放使用。正式介绍一下：混元图像3.0（HunyuanImage 3.0），是首个工业级原生多模态生图模型，参数规模80B，也是目前测评效果最好、参数量最大的开源生图模型，效果可对…

发表了文章 2025-09-30

Tongyi DeepResearch的技术报告探秘

引言阿里通义实验室悄悄（其实动静不小）发布了一个叫 Tongyi DeepResearch 的 Agent 项目。它没有开发布会，没请明星站台，甚至没发通稿——但它在 GitHub 上架当天，就登顶了“每日趋势榜”。这速度，比人类发现…

发表了文章 2025-09-30

PDF解析迎来技术革新！阿里新产品实现复杂文档端到端结构化处理

前言9月24日云栖大会现场，由阿里巴巴爱橙科技数据技术及产品团队自主研发的 PDF解析神器正式亮相并同步开源模型。这款基于Logics-Parsing模型构建的AI工具直指当前PDF解析领域的技术痛点，显著提升复杂文档的结构…

发表了文章 2025-09-29

云栖现场｜让评测与标注成为AI进化引擎！阿里发布全新评测平台，3大创新评测集亮相

发表了文章 2025-09-29

腾讯自研 FastMTP 重磅开源：推理速度暴涨 203%，消费级显卡也能跑出无损速度翻倍！

发表了文章 2025-09-29

科大讯飞开源星火化学大模型、文生音效模型

近期，科大讯飞在魔搭社区（ModelScope）和Gitcode上开源两款模型：讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly，助力前沿化学技术研究，以及声音生成技术和应用的探索。

发表了文章 2025-09-29

LongCat-Flash-Thinking 正式发布，更强、更专业，保持极速！

modelscope_社区达人页

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

勋章 更多

成就

我关注的人 更多

粉丝 更多

技术能力

通义百聆语音双子星，同步开源！

Z-Image Turbo LoRA训练魔法：如何保持加速生图能力

魔珐星云：免费体验企业级3D AI数字人智能客服！告别枯燥对话框！

送给GLM Coding Plan用户和开源社区的“AI手机”

智谱开源GLM-ASR：动动嘴，活就干了

智谱 GLM-4.6V开源！能看、能想还能执行「百变」任务

智源RoboCOIN重磅开源！全球本体数最多、标注最精细、使用最便捷的高质量双臂机器人真机数据集来了

告别 GUI Agent 工程基建噩梦！阶跃星辰开源 4B 模型，本地轻松部署，玩转安卓应用

DeepSeek V3.2 正式版：强化 Agent 能力，融入思考推理

LET数据集来魔搭了！开源首批超60,000分钟全尺寸人形机器人真机数据

Z-Image：冲击体验上限的下一代图像生成模型

字节推出VeAgentBench + veADK，打造可评估、可复现的智能体开发新范式

杭州AI开源生态大会·魔搭社区开发者嘉年华全回顾

混元OCR模型宣布开源，参数仅1B，多项核心能力SOTA

新的LLM交互模式！大模型终于能自己生成交互式 UI 了

腾讯混元 HunyuanVideo 1.5 开源！

AgentEvolver：让智能体系统学会「自我进化」

Meta SAM3开源：让图像分割，听懂你的话

Meta SAM3开源：让图像分割，听懂你的话

MemOS 正式上线魔搭社区 MCP 广场，让你的智能体拥有「长期记忆」

ModelScope魔搭社区发布月报 -- 25年11月

码上生花：用API链接Qwen-Image系列及衍生LoRA生态模型

腾讯混元&清华开源15M高质量多模态训练数据，全面开放MLLM迎来质变时刻

美团 LongCat 团队发布全模态一站式评测基准UNO-Bench：揭示单模态与全模态能力的组合规律

仅3B激活参数，更强的多模态理解与推理能力，百度文心 ERNIE-4.5-VL-28B-A3B-Thinking正式开源！

阶跃星辰发布首个开源 LLM 级音频编辑大模型 Step-Audio-EditX

Mcore Bridge：迈向Megatron训练"零门槛"时代

ChatPPT+魔搭社区：MCP 2.0全面升级！

Soul App联合西工大和上交大开源语音合成模型SoulX-Podcast，已登顶Hugging Face TTS趋势榜！

Thinking Machines Lab最新研究结果如何复现？On-Policy Distillation让训练成本直降10倍

UI-Ins：让 GUI 智能体真正“看懂”用户指令的新范式

全新框架 Glyph 开源：用视觉理解文本，3–4 倍上下文压缩，近 5 倍推理提速！

仅100多元，他给视障人群装上AI“眼睛”

腾讯混元世界模型1.1开源：支持多视图及视频输入，单卡部署，秒级生成_魔搭ModelScope社区-ModelScope魔搭社区

「超级开发个体」在诞生：一份白皮书带你理解AI时代开发者

Qwen3-VL新成员 2B、32B来啦！更适合开发者体质

Face-to-Photo 模型开源！联名麦橘MERJIC，遇见另一个你！

ModelScope魔搭社区发布月报 -- 25年10月

用Macbook微调Qwen3！手把手教你用微调给Qwen起一个新名字

图像理解与生成统一模型——前沿模型架构理解

Ling-1T，智渊、思简

智谱旗舰模型GLM-4.6开源发布，代码能力对齐Claude Sonnet 4

DeepSeek-V3.2-Exp 发布，训练推理提效，API 同步降价

腾讯混元图像3.0正式开源发布！80B，首个工业级原生多模态生图模型

Tongyi DeepResearch的技术报告探秘

PDF解析迎来技术革新！阿里新产品实现复杂文档端到端结构化处理

云栖现场｜让评测与标注成为AI进化引擎！阿里发布全新评测平台，3大创新评测集亮相

腾讯自研 FastMTP 重磅开源：推理速度暴涨 203%，消费级显卡也能跑出无损速度翻倍！

科大讯飞开源星火化学大模型、文生音效模型

LongCat-Flash-Thinking 正式发布，更强、更专业，保持极速！

BOSS直聘3B超越Qwen3-32B，更多训练数据刷新小模型极限

一张图秒生 LoRA ? Qwen-Image-i2L 诞生记

ModelScope魔搭社区发布月报 -- 25年12月

通义百聆语音双子星，同步开源！

Z-Image Turbo LoRA训练魔法：如何保持加速生图能力

魔珐星云：免费体验企业级3D AI数字人智能客服！告别枯燥对话框！

送给GLM Coding Plan用户和开源社区的“AI手机”

智谱开源GLM-ASR：动动嘴，活就干了

勋章更多

我关注的人更多

粉丝更多