modelscope_社区达人页-阿里云开发者社区

modelscope

已加入开发者社区384天

勋章更多

阿里博主

江湖新秀

成就

已发布401篇文章

203条评论

已回答0个问题

0条评论

已发布13个视频

github地址

我关注的人更多

粉丝更多

技术能力

兴趣领域

擅长领域

技术认证

暂时未有相关云产品技术能力~

暂无个人介绍

精选

高分内容

最新动态

文章
问答
视频

暂无精选文章

暂无更多信息

2025年12月

12.19 09:49:04

发表了文章 2025-12-19 09:49:04

BOSS直聘3B超越Qwen3-32B，更多训练数据刷新小模型极限

BOSS直聘Nanbeige实验室开源Nanbeige4-3B模型，仅30亿参数却在数学、推理、代码等多领域超越320亿参数大模型。通过23万亿高质量token训练、千万级指令微调及双重蒸馏强化学习，实现小模型性能跃升，为端侧部署与低成本推理提供新范式。
12.18 14:02:42

发表了文章 2025-12-18 14:02:42

一张图秒生 LoRA ? Qwen-Image-i2L 诞生记

我们发布了Qwen-Image的“图生LoRA”模型，输入一张图即可端到端生成LoRA权重。通过多阶段迭代，构建了具备细节与风格保持能力的Image-to-LoRA系统，可用于高效LoRA训练初始化，推动个性化生成技术发展。
12.17 09:22:18

发表了文章 2025-12-17 09:22:18

ModelScope魔搭社区发布月报 -- 25年12月

魔搭社区12月重磅更新DeepSeek 3.2、Mistral-3等模型，Z-Image-Turbo引领文生图生态，平台全面升级加速开源模型落地。
12.16 10:00:36

发表了文章 2025-12-16 10:00:36

通义百聆语音双子星，同步开源！

通义百聆全新升级，推出Fun-CosyVoice3与Fun-ASR系列模型。3秒录音即可实现9种语言、18种方言及多情感音色克隆，支持中英混说、跨语种合成；Fun-ASR识别准确率高达93%，支持31种语言自由混说、歌词说唱识别，并开源轻量级模型，助力高效本地部署与定制开发。
12.15 16:04:02

发表了文章 2025-12-15 16:04:02

Z-Image Turbo LoRA训练魔法：如何保持加速生图能力

ModelScope DiffSynth团队推出Z-Image-Turbo-DistillPatch，解决LoRA训练后丢失Turbo加速问题。支持8步高质量生成，兼容标准SFT流程，即插即用，无需重训。开源地址：modelscope.cn/models/DiffSynth-Studio/Z-Image-Turbo-DistillPatch
12.12 11:35:05

发表了文章 2025-12-12 11:35:05

魔珐星云：免费体验企业级3D AI数字人智能客服！告别枯燥对话框！

魔珐科技携手魔搭社区上线「魔珐星云智能客服Demo」，基于超写实3D数字人技术，打造具身智能交互新体验。通过文生多模态3D大模型，实现语音、表情、动作实时生成，支持Web端低延时互动，百元级芯片即可运行，助力企业构建自然高效的人机对话系统。
12.12 09:51:05

发表了文章 2025-12-12 09:51:05

送给GLM Coding Plan用户和开源社区的“AI手机”

智谱推出“AI手机”新体验，通过Claude Code输入提示词，即可自动部署开源Agent模型AutoGLM。三步操作，轻松拥有专属AI设备，享受技术平权。倡导开源生态与AI协同，推动人人可用的AGI未来。
12.11 10:37:32

发表了文章 2025-12-11 10:37:32

智谱开源GLM-ASR：动动嘴，活就干了

智谱发布并开源GLM-ASR系列语音识别模型，推出桌面端AI输入法。包含云端旗舰模型GLM-ASR-2512与端侧轻量版GLM-ASR-Nano-2512（仅1.5B参数），实现高精度、低延迟、强隐私保护的语音转写。输入法集成大模型能力，支持语音指令、翻译、改写、人设切换、Vibe Coding等功能，让用户“动嘴干活”，提升办公效率。现已免费开放体验。
12.09 10:20:06

发表了文章 2025-12-09 10:20:06

智谱 GLM-4.6V开源！能看、能想还能执行「百变」任务

智谱发布GLM-4.6V系列多模态大模型，含106B基础版与9B轻量版，支持128k长上下文，视觉理解达同规模SOTA。原生融合工具调用能力，打通“视觉感知-行动执行”闭环，降价50%，API低至1元/百万tokens，助力图文创作、识图购物、前端复刻等复杂场景。
12.08 09:34:58

发表了文章 2025-12-08 09:34:58

智源RoboCOIN重磅开源！全球本体数最多、标注最精细、使用最便捷的高质量双臂机器人真机数据集来了

北京智源研究院联合多家机构发布全球首个“本体数最多、标注最精细、使用最便捷”的双臂机器人真机数据集RoboCOIN，覆盖15类机器人、18万条轨迹、421项任务，首创“层级能力金字塔”标注体系，推动具身智能迈向真实场景应用。
12.03 13:27:49

发表了文章 2025-12-03 13:27:49

告别 GUI Agent 工程基建噩梦！阶跃星辰开源 4B 模型，本地轻松部署，玩转安卓应用

阶跃星辰开源GELab-Zero，首发4B GUI Agent模型及完整基建，支持一键部署，在多端性能达SOTA。同步推出真实场景评测基准AndroidDaily，推动GUI智能体规模化落地。
12.03 10:40:13

发表了文章 2025-12-03 10:40:13

DeepSeek V3.2 正式版：强化 Agent 能力，融入思考推理

DeepSeek发布正式版V3.2与高性能Speciale版本，支持思考模式下工具调用，推理能力达全球领先水平。V3.2平衡效率与性能，适用于通用任务；Speciale专注复杂推理，在数学与编程竞赛中表现卓越，已开源并上线API。
12.03 10:34:02

发表了文章 2025-12-03 10:34:02

LET数据集来魔搭了！开源首批超60,000分钟全尺寸人形机器人真机数据

国内最大全尺寸人形机器人真机数据集“LET数据集”正式发布，首批开源超6万分钟高质量数据，覆盖6大真实场景，支持多模态融合与标准化应用，助力具身智能研发，已在魔搭社区开放共享。
12.03 09:21:15

发表了文章 2025-12-03 09:21:15

Z-Image：冲击体验上限的下一代图像生成模型

通义实验室推出全新文生图模型Z-Image，以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成，支持16GB显存设备，中英双语理解与文字渲染尤为出色，真实感和美学表现媲美国际顶尖模型，被誉为“最值得关注的开源生图模型之一”。

2025年11月

11.27 09:27:41

发表了文章 2025-11-27 09:27:41

字节推出VeAgentBench + veADK，打造可评估、可复现的智能体开发新范式

字节跳动推出VeAgentBench与veADK，打造智能体“开发-评估”闭环。VeAgentBench是覆盖教育、金融、法律等四大场景的开源评估基准，veADK为高效易用的开发框架，支持工具调用、RAG与记忆管理，助力AI智能体可度量、可复现、可落地。
11.26 17:28:50

发表了文章 2025-11-26 17:28:50

杭州AI开源生态大会·魔搭社区开发者嘉年华全回顾

11月22日，杭州AI开源生态大会暨“魔搭社区”开发者中心启用仪式在云谷中心举行。大会汇聚超3000名开发者，发布“两张清单”与AI开源政策包，启用首个线下开发者空间，推动开放、共建、共创的AI生态发展。
11.26 15:54:35

发表了文章 2025-11-26 15:54:35

混元OCR模型宣布开源，参数仅1B，多项核心能力SOTA

腾讯混元推出全新开源OCR模型HunyuanOCR，仅1B参数，基于原生多模态架构，实现端到端高效推理。在复杂文档解析、文字检测识别等多场景表现卓越，支持14种小语种翻译，广泛适用于票据抽取、视频字幕识别等应用，多项指标达业界SOTA水平。
11.26 15:43:54

发表了文章 2025-11-26 15:43:54

新的LLM交互模式！大模型终于能自己生成交互式 UI 了

Google Research推出的Generative UI，让大模型不仅能生成内容，还能一键创建含地图、图表、小游戏等交互功能的完整网页。告别“文字墙”，迈向“内容即应用”的新时代，82.8%用户偏爱此创新体验。
11.25 10:45:24

发表了文章 2025-11-25 10:45:24

腾讯混元 HunyuanVideo 1.5 开源！

腾讯混元团队开源HunyuanVideo 1.5，一款8.3B参数的轻量级视频生成模型，基于DiT架构，支持文生视频、图生视频，可在14G显存设备运行，生成5-10秒高清视频，具备强指令响应、流畅动作与电影级画质。
11.24 11:46:26

发表了文章 2025-11-24 11:46:26

AgentEvolver：让智能体系统学会「自我进化」

AgentEvolver 是一个自进化智能体系统，通过自我任务生成、经验导航与反思归因三大机制，推动AI从“被动执行”迈向“主动学习”。它显著提升强化学习效率，在更少参数下实现更强性能，助力智能体持续自我迭代。开源地址：https://github.com/modelscope/AgentEvolver
11.24 11:20:36

发表了文章 2025-11-24 11:20:36

Meta SAM3开源：让图像分割，听懂你的话

Meta发布并开源SAM 3，首个支持文本或视觉提示的统一图像视频分割模型，可精准分割“红色条纹伞”等开放词汇概念，覆盖400万独特概念，性能达人类水平75%–80%，推动视觉分割新突破。
11.21 10:02:03

发表了文章 2025-11-21 10:02:03

Meta SAM3开源：让图像分割，听懂你的话

Meta发布并开源SAM 3，首个支持文本、点、框等提示进行图像与视频分割的统一基础模型，突破传统限制，实现开放词汇概念的精准识别与跟踪，涵盖超400万独特概念，推动视觉分割新发展。
11.20 11:17:46

发表了文章 2025-11-20 11:17:46

MemOS 正式上线魔搭社区 MCP 广场，让你的智能体拥有「长期记忆」

MemOS 正式上线魔搭社区 MCP 广场，作为首个大模型记忆操作系统，支持标准化记忆读写，7天调用量超14.9万次。开发者可一键集成，让AI具备持久化、可调度的记忆能力，实现连续思考与长期进化。
11.19 09:32:23

发表了文章 2025-11-19 09:32:23

ModelScope魔搭社区发布月报 -- 25年11月

魔搭ModelScope三周年庆！见证开源大模型从追赶到领跑，11月硬核更新不断：Qwen3-VL、MiniMax-M2等新模态齐发，AIGC生态爆发，OCR、语音、Agent全面进化。11月22日杭州AI开源生态大会，不见不散！
11.18 17:06:56

发表了文章 2025-11-18 17:06:56

码上生花：用API链接Qwen-Image系列及衍生LoRA生态模型

Qwen-Image系列开源三月成爆款，凭借中文场景优势与ModelScope平台深度集成，支持文生图、图像编辑及LoRA生态API调用，助力开发者高效创作。
11.17 09:33:28

发表了文章 2025-11-17 09:33:28

腾讯混元&清华开源15M高质量多模态训练数据，全面开放MLLM迎来质变时刻

腾讯混元与清华推出Bee项目，首创“以数据为中心”的全栈开源方案，通过Honey-Data-15M高质量数据集、HoneyPipe数据增强管线及Bee-8B模型，显著提升全开源多模态大模型性能，缩小与闭源模型差距。
11.14 09:27:01

发表了文章 2025-11-14 09:27:01

美团 LongCat 团队发布全模态一站式评测基准UNO-Bench：揭示单模态与全模态能力的组合规律

美团LongCat团队推出一站式全模态大模型评测基准UNO-Bench，首创“组合定律”揭示多模态能力协同增益，支持中文场景，以98%跨模态问题占比和创新多步开放式题型，科学评估模型真实融合能力。
11.13 13:40:50

发表了文章 2025-11-13 13:40:50

Agent Skills技术协议与开源实现，让大模型拥有“即插即用”技能

Anthropic推出Agent Skills协议，通过模块化技能封装提升大模型智能体的专业能力。ModelScope开源项目MS-Agent已实现该协议，支持技能的动态加载、自主执行与安全沙箱运行，推动智能体能力的可组合与可扩展发展。
11.12 09:30:23

发表了文章 2025-11-12 09:30:23

仅3B激活参数，更强的多模态理解与推理能力，百度文心 ERNIE-4.5-VL-28B-A3B-Thinking正式开源！

11月11日，百度开源文心ERNIE-4.5-VL-28B-A3B-Thinking多模态模型，仅3B激活参数，性能媲美顶级大模型。具备强大视觉语言理解、跨模态推理与“图像思考”等创新功能，支持工具调用与视频分析，适用于复杂图文任务，全面开放商用。
11.11 10:25:52

发表了文章 2025-11-11 10:25:52

阶跃星辰发布首个开源 LLM 级音频编辑大模型 Step-Audio-EditX

阶跃星辰发布全球首个开源LLM级音频编辑大模型Step-Audio-EditX，支持零样本TTS、多语言方言及情感、风格、副语言特征精准控制，采用统一LLM框架，实现文本驱动音频创作。
11.10 14:24:12

发表了文章 2025-11-10 14:24:12

Mcore Bridge：迈向Megatron训练"零门槛"时代

魔搭社区推出Mcore-Bridge与Megatron-SWIFT，显著降低大模型训练门槛。支持safetensors格式、一键启动、无需权重转换，兼容MoE等架构，实现高性能与易用性统一，让Megatron训练开箱即用。
11.10 14:11:02

发表了文章 2025-11-10 14:11:02

ChatPPT+魔搭社区：MCP 2.0全面升级！

ChatPPT MCP2.0正式发布，联合魔搭ModelScope推出云端智能体服务，支持生成、编辑、演讲、动画等全链路功能，开放Streamable HTTP协议与本地Stdio双模式，已接入20+平台，服务300+开发者。
11.03 16:53:28

发表了文章 2025-11-03 16:53:28

Soul App联合西工大和上交大开源语音合成模型SoulX-Podcast，已登顶Hugging Face TTS趋势榜！

Soul AI Lab联合西工大、上交大开源SoulX-Podcast，支持中英粤川等多语种方言及副语言生成，可稳定输出超60分钟自然流畅的多人对话音频，已在Huggingface登顶TTS趋势榜。

2025年10月

10.31 11:21:21

发表了文章 2025-10-31 11:21:21

Thinking Machines Lab最新研究结果如何复现？On-Policy Distillation让训练成本直降10倍

Thinking Machines Lab提出On-Policy Distillation技术，让小模型高效继承大模型能力。相比传统强化学习，训练成本降低90%，效率提升十倍，支持本地部署、降低成本与延迟。结合vLLM加速与独立DeepSpeed配置，MS-SWIFT框架实现开箱即用的高效蒸馏训练，助力轻量模型具备“会思考、能纠错、可进化”的智能。
10.30 18:03:06

发表了文章 2025-10-30 18:03:06

UI-Ins：让 GUI 智能体真正“看懂”用户指令的新范式

通义实验室联合人大发布全新GUI Grounding模型UI-Ins，首创“指令即推理”范式，通过多视角动态推理实现SOTA性能，在五大基准全面领先，支持开源复现与应用。
10.29 09:59:22

发表了文章 2025-10-29 09:59:22

全新框架 Glyph 开源：用视觉理解文本，3–4 倍上下文压缩，近 5 倍推理提速！

清华CoAI与智谱AI提出Glyph新范式，将长文本渲染为图像，通过视觉语言模型实现高效长上下文处理。3-4倍压缩比，性能媲美主流大模型，显存占用降2/3，低成本支持百万token任务，开源可商用。
10.27 10:44:06

发表了文章 2025-10-27 10:44:06

仅100多元，他给视障人群装上AI“眼睛”

上海两名开发者为验证AI助盲实效，亲手打造百元AI眼镜，蒙眼实测过马路、识盲道，并开源项目鼓励更多人参与。技术导航，人心照亮。
10.27 10:26:57

发表了文章 2025-10-27 10:26:57

「超级开发个体」在诞生：一份白皮书带你理解AI时代开发者

10月24日程序员节，魔搭社区联合知乎发布《THE NEXT WAVE：AI时代开发者生态白皮书》，揭示AI时代开发者新画像：以“超级个体”为核心，兼具技术与商业闭环能力，工具平权让个人开发者崛起。报告涵盖年龄、学历、组织分布及认知行为特征，展现开发者如何用AI提效、实现从“写代码”到“搭系统”的跃迁。点击下载完整报告。
10.27 10:24:49

发表了文章 2025-10-27 10:24:49

腾讯混元世界模型1.1开源：支持多视图及视频输入，单卡部署，秒级生成_魔搭ModelScope社区-ModelScope魔搭社区

混元世界模型1.1（WorldMirror）发布，支持多视图、视频输入，单卡秒级生成3D场景。兼容CG管线，开源可部署，实现点云、深度、相机等多任务统一预测，性能领先。
10.23 11:44:30

发表了文章 2025-10-23 11:44:30

Qwen3-VL新成员 2B、32B来啦！更适合开发者体质

Qwen3-VL家族重磅推出2B与32B双版本，轻量高效与超强推理兼备，一模型通吃多模态与纯文本任务！