魔搭社区模型速递(7.20-7.26)

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 魔搭ModelScope本期社区进展:1698个模型,216个数据集,103个创新应用, 7 篇内容


image.gif 编辑

🙋魔搭ModelScope本期社区进展:

📟1698个模型:Qwen3-Coder-480B-A35B-InstructIntern-S1、HunyuanWorld-1、Qwen3-235B-A22B-Instruct-2507、Qwen3-235B-A22B-Thinking-2507、KAT-V1-40B 等;

📁216个数据集:Doc-750K、ru-arena-hard、TransEvalnia等;

🎨103个创新应用Qwen3-Coder-WebDev、记忆消除术、index-tts-vllm等;

📄 7 篇内容:

  • 来了!腾讯混元3D世界模型正式发布并开源
  • 全能高手&科学明星,上海AI实验室开源发布『书生』科学多模态大模型Intern-S1 | WAIC 2025
  • 上海创智学院联合无问芯穹发布Megrez2.0,本征架构突破端模型不可能三角,以终端算力撬动云端智能
  • Agent×MCP线下沙龙来咯,8.2杭州见!
  • Qwen3-“SmVL”:超小中文多模态LLM的多模型拼接微调之路
  • Qwen3 双弹发布!Qwen3-Coder + Instruct 更新版来袭
  • 体验有礼!全新平台级 ModelScope MCP 实验场重磅上线!

 

01.模型推荐

Qwen3-Coder-480B-A35B-Instruct

Qwen3-Coder-480B-A35B-Instruct 是Qwen团队在本周开源的Qwen3-Coder系列的旗舰版本,模型采用480B参数总量、35B激活参数的MoE架构,原生支持256K上下文长度(通过YaRN可扩展至1M),在Agentic Coding、Browser-Use和Tool-Use等任务中达到开源模型的SOTA水平,表现接近Claude Sonnet4。

 

此外,Qwen团队还开源了配套工具Qwen Code ,其基于Gemini Code二次开发,通过Prompt工程与工具调用协议适配,最大化Qwen3-Coder在代理式编程场景下的表现。该模型还可与Claude Code、Cline等工具集成,推动“Agentic Coding in the World”的落地实践。

 

模型链接:

https://www.modelscope.cn/models/Qwen/Qwen3-Coder-480B-A35B-Instruct

 

示例代码:

推荐使用vLLM进行推理

VLLM_USE_MODELSCOPE=True vllm serve Qwen/Qwen3-Coder-480B-A35B-Instruct-FP8 \
  --enable-expert-parallel \
  --data-parallel-size 8 \
  --enable-auto-tool-choice \
  --tool-call-parser qwen3-coder

image.gif

Intern-S1

上海人工智能实验室在WAIC 2025发布并开源了『书生』科学多模态大模型Intern-S1,基于2350亿参数MoE语言架构与60亿参数视觉编码器,该模型首创"跨模态科学解析引擎",可精准解读化学分子式、蛋白质结构、地震波信号等复杂科学数据。

 

Intern-S1支持规划化合物合成路线、分析蛋白质序列等专业科研任务。在5万亿个多模态数据token上预训练,其中超2.5万亿来自科学领域。多模态综合能力超越同期最优开源模型,多学科性能超Grok4等前沿闭源模型,兼具强大的通用任务处理与顶尖科学领域性能,为开发者提供专业级科学推理能力。

 

模型链接:https://modelscope.cn/models/Shanghai_AI_Laboratory/Intern-S1

 

示例代码:

提供基于文本和多模态输入的推理代码示例,需使用 transformers>=4.53.0 以确保模型正常工作

  • 文本输入
from modelscope import AutoProcessor, AutoModelForCausalLM
import torch
model_name = "Shanghai_AI_Laboratory/Intern-S1"
processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torch_dtype="auto", trust_remote_code=True)
messages = [
    {
        "role": "user",
        "content": [
            {"type": "text", "text": "tell me about an interesting physical phenomenon."},
        ],
    }
]
inputs = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt").to(model.device, dtype=torch.bfloat16)
generate_ids = model.generate(**inputs, max_new_tokens=32768)
decoded_output = processor.decode(generate_ids[0, inputs["input_ids"].shape[1] :], skip_special_tokens=True)
print(decoded_output)

image.gif

 

 

  • 图像输入
from modelscope import AutoProcessor, AutoModelForCausalLM
import torch
model_name = "Shanghai_AI_Laboratory/Intern-S1"
processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torch_dtype="auto", trust_remote_code=True)
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "http://images.cocodataset.org/val2017/000000039769.jpg"},
            {"type": "text", "text": "Please describe the image explicitly."},
        ],
    }
]
inputs = processor.apply_chat_template(messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt").to(model.device, dtype=torch.bfloat16)
generate_ids = model.generate(**inputs, max_new_tokens=32768)
decoded_output = processor.decode(generate_ids[0, inputs["input_ids"].shape[1] :], skip_special_tokens=True)
print(decoded_output)

image.gif

HunyuanWorld-1

在WAIC 2025腾讯论坛上,腾讯正式发布混元3D世界模型 1.0(HunyuanWorld-1),并全面开源。这是业界首个开源可沉浸漫游、可交互、可仿真的世界生成模型,为游戏开发、VR、数字内容创作等领域带来了全新可能。

 

腾讯混元3D世界模型1.0融合了全景视觉生成与分层3D重建技术,同时支持文字和图片输入,实现高质量、风格多样的可漫游3D场景生成。混元3D世界模型1.0在文生世界、图生世界的美学质量和指令遵循能力等关键维度均全面超越当前SOTA的开源模型。

模型链接:https://modelscope.cn/models/Tencent-Hunyuan/HunyuanWorld-1

 

Qwen3-235B-A22B-Instruct-2507

作为Qwen3系列的旗舰通用模型更新版,Qwen3-235B-A22B-Instruct-2507 延续了Qwen3-235B-A22B的非思考模式(Non-Thinking)架构设计,但针对关键指标进行了系统性优化。该模型保持94层深度、分组查询注意力(GQA, Q=64, KV=4)及MoE结构(128专家,激活8专家),总参数量235B(激活22B),非嵌入参数占比达234B。其原生支持262,144 tokens上下文长度,为复杂长文本任务提供底层支持。在GPQA(知识)、AIME25(数学)、LiveCodeBench(编程)等评测中,超越了目前主流开源模型 及 Claude-Opus4-Non-thinking等闭源模型。

 

Qwen团队通过预训练与后训练双阶段范式进一步提升模型性能,具体优化方向包括:

  • 多语言长尾知识覆盖 :通过数据增强提升低频语言与领域的泛化能力;
  • 用户偏好对齐 :在主观任务中增强回复有用性与文本质量;
  • 长文本建模 :将上下文理解能力扩展至256K tokens,优化复杂场景下的推理连贯性。

 

模型链接:

  • Qwen3-235B-A22B-Instruct-2507:

https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507

 

  • Qwen3-235B-A22B-Instruct-2507-FP8:

https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Instruct-2507-FP8

 

示例代码:

  • SGLang
SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Instruct-2507 --tp 8 --context-length 262144

image.gif

  • vLLM
VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3-235B-A22B-Instruct-2507 --tensor-parallel-size 8 --max-model-len 262144

image.gif

更多模型微调实战教程,详见

Qwen3 双弹发布!Qwen3-Coder + Instruct 更新版来袭

 

Qwen3-235B-A22B-Thinking-2507

Qwen3-235B-A22B-Thinking-2507是Qwen3-235B-A22B 的思考模式(Thinking)强化版本,该模型专为复杂推理任务设计,强制启用思维链机制以实现深度问题拆解。其推理性能突破开源模型极限,在编程(LiveCodeBench)、数学(AIME25)等核心领域达到 SOTA 水平,同时知识广度(SuperGPQA)、创意写作(WritingBench)及多语言理解(MultilF)均有显著进步,综合能力可对标 Gemini-2.5 Pro 等闭源方案。同时,模型支持 256K 长文本理解 ,处理超长上下文不费力。

 

模型链接:

  • Qwen3-235B-A22B-Thinking-2507

https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507

 

  • Qwen3-235B-A22B-Thinking-2507-FP8

https://www.modelscope.cn/models/Qwen/Qwen3-235B-A22B-Thinking-2507-FP8

 

示例代码:

使用sglang>=0.4.6.post1或vllm>=0.8.5

  • SGLang
SGLANG_USE_MODELSCOPE=true python -m sglang.launch_server --model-path Qwen/Qwen3-235B-A22B-Thinking-2507 --tp 8 --context-length 262144  --reasoning-parser deepseek-r1

image.gif

  • vLLM
VLLM_USE_MODELSCOPE=true vllm serve Qwen/Qwen3-235B-A22B-Thinking-2507 --tensor-parallel-size 8 --max-model-len 262144 --enable-reasoning --reasoning-parser deepseek_r1

image.gif

KAT-V1-40B

KAT (Kwaipilot-AutoThink) 是由快手科技近期开源的一款融合思考与非思考能力、并且可以根据问题难度自动切换思考形态的模型。

 

KAT-V1模型共有40B和200B两个版本。在自动思考模式下,40B版本的性能可追平DeepSeek-R1-0528(参数量6850亿)。而200B版本的模型,则在多项基准测试中超过了主流开源模型家族中的旗舰模型。

 

 

image.gif 编辑

 

模型链接:

https://www.modelscope.cn/models/Kwaipilot/KAT-V1-40B

 

示例代码:

from modelscope import AutoTokenizer, AutoModelForCausalLM
model_name = "Kwaipilot/KAT-V1-40B"
# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
# conduct text completion
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=65536,
    temperature=0.6,
    top_p=0.95,
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 
content = tokenizer.decode(output_ids, skip_special_tokens=True).strip("\n")
print("prompt:\n", prompt)
print("content:\n", content)
"""
prompt:
Give me a short introduction to large language model.
content:
<judge>
The user's request is to provide a concise factual introduction to large language models, which involves retrieving and summarizing basic information. This task is straightforward as it only requires recalling and presenting well-known details without deeper analysis. No complex reasoning is needed here—just a simple explanation will suffice.
</judge>
<think_off>
<answer>
A **Large Language Model (LLM)** is an advanced AI system trained on vast amounts of text data to understand, generate, and process human-like language. Here’s a concise introduction:
### Key Points:
1. **Training**: Trained on diverse text sources (books, websites, etc.) using deep learning.
2. **Capabilities**: 
   - Answer questions, generate text, summarize content, translate languages.
   - Understand context, sentiment, and nuances in language.
3. **Architecture**: Often based on **transformer models** (e.g., BERT, GPT, LLaMA).
4. **Scale**: Billions of parameters, requiring massive computational resources.
5. **Applications**: Chatbots, content creation, coding assistance, research, and more.
### Examples:
- **OpenAI’s GPT-4**: Powers ChatGPT.
- **Google’s Gemini**: Used in Bard.
- **Meta’s LLaMA**: Open-source alternative.
### Challenges:
- **Bias**: Can reflect biases in training data.
- **Accuracy**: May hallucinate "facts" not grounded in reality.
- **Ethics**: Raises concerns about misinformation and job displacement.
LLMs represent a leap forward in natural language processing, enabling machines to interact with humans in increasingly sophisticated ways. 🌐🤖
</answer>
"""

image.gif

02.数据集推荐

Doc-750K

Doc-750K 数据集适用于文档图像识别、文档内容理解、文档检索等场景,能够帮助提升文档处理系统的性能和效率。

数据集链接:

https://modelscope.cn/datasets/OpenGVLab/Doc-750K

 

ru-arena-hard

ru-arena-hard 数据集专用于俄语大模型竞技场的高难度对抗评测,为俄语 LLM 在复杂指令、推理与安全性场景下的能力极限测试提供基准。

数据集链接:

https://modelscope.cn/datasets/t-tech/ru-arena-hard

 

TransEvalnia

TransEvalnia 数据集适用于评估跨语言机器翻译模型在多语言(尤其是日语相关)场景下的翻译质量与鲁棒性。

数据集链接:

https://modelscope.cn/datasets/SakanaAI/TransEvalnia

 

03.创空间推荐

Qwen3-Coder-WebDev

Qwen3-Coder-WebDev 在线体验空间可让开发者通过自然语言直接生成、修改并实时预览前端网页代码,实现零门槛快速原型开发。

 

体验链接:

https://modelscope.cn/studios/Qwen/Qwen3-Coder-WebDev

 

记忆消除术

“记忆消除术”在线体验空间可让用户快速擦除大模型对话历史,实现一键隐私清零与上下文重置。

体验链接:

https://modelscope.cn/studios/Datawhale/firePage_run

 

index-tts-vllm

index-tts-vllm 在线体验空间可让用户输入任意文本并秒级生成高质量语音,用于快速配音、朗读或语音原型测试。

体验链接:

https://modelscope.cn/studios/chuanSir/index-tts-vllm

 

 

 

04.社区精选文章

 


目录
相关文章
|
3月前
|
边缘计算 测试技术 数据格式
小体积,大潜力 - 腾讯混元Dense模型多尺寸正式开源
混元是腾讯开源的高效大型语言模型系列,旨在在各种计算环境中灵活部署。从边缘设备到高并发生产系统,这些模型通过先进的量化支持和超长上下文能力提供了最佳性能。
259 0
|
3月前
|
人工智能
万相妙思+创意视频大赛开赛啦!双重赛道,奖励叠加!10万奖金池 + 新模型内测资格!
万相妙思+创意视频大赛开赛啦!双重赛道,奖励叠加!10万奖金池 + 新模型内测资格!
222 0
|
4月前
|
机器学习/深度学习 弹性计算 测试技术
Kimi Playground与ModelScope MCP合作,共建更智能的Agent
月之暗面发布开源模型Kimi K2,参数总量达1T,激活参数32B,基于MoE架构,具备强大的代码能力与通用Agent任务处理能力。在多项基准测试中取得SOTA成绩,并已开源。ModelScope与Kimi Playground集成,支持一键同步MCP服务,方便开发者使用。
314 0
|
4月前
|
人工智能 JavaScript API
零基础构建MCP服务器:TypeScript/Python双语言实战指南
作为一名深耕技术领域多年的博主摘星,我深刻感受到了MCP(Model Context Protocol)协议在AI生态系统中的革命性意义。MCP作为Anthropic推出的开放标准,正在重新定义AI应用与外部系统的交互方式,它不仅解决了传统API集成的复杂性问题,更为开发者提供了一个统一、安全、高效的连接框架。在过去几个月的实践中,我发现许多开发者对MCP的概念理解透彻,但在实际动手构建MCP服务器时却遇到了各种技术壁垒。从环境配置的细节问题到SDK API的深度理解,从第一个Hello World程序的调试到生产环境的部署优化,每一个环节都可能成为初学者的绊脚石。因此,我决定撰写这篇全面的实
889 67
零基础构建MCP服务器:TypeScript/Python双语言实战指南
|
4月前
|
SQL XML 缓存
控制接口RT暴降80%!CompletableFuture异步编排实战代码模板
Springboot 控制接口RT暴降80%!CompletableFuture异步编排实战代码模板
|
监控 网络架构
CAN-TP传输协议详解
CAN-TP传输协议详解
CAN-TP传输协议详解
|
3月前
|
Web App开发 人工智能 自然语言处理
从搜索到执行,全自动|AutoHub重塑ModelScope使用体验
自 2022 年 11 月成立以来,魔搭社区(ModelScope)已迅速成长为中国最大 AI 开源平台。 目前,社区已托管超 7 万个开源模型,覆盖大语言模型(LLM)、对话、语音、图像生成、视频生成、AI 作曲等多个领域;支持模型的 体验、下载、调优、训练、推理与部署全流程操作。
222 0
|
4月前
|
人工智能 自然语言处理 运维
【新模型速递】PAI-Model Gallery云上一键部署Qwen3-Coder模型
Qwen3-Coder 是通义千问最新开源的 AI 编程大模型正式开源,拥有卓越的代码和 Agent 能力,在多领域取得了开源模型的 SOTA 效果。PAI 已支持最强版本 Qwen3-Coder-480B-A35B-Instruct 的云上一键部署。
|
3月前
智谱发布GLM-4.5V,全球开源多模态推理新标杆,Day0推理微调实战教程到!
视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外,逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。
664 0

热门文章

最新文章

下一篇
oss云网关配置