魔搭社区模型速递(6.2-6.7)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 魔搭ModelScope本期社区进展:1910个模型,183个数据集,47个创新应用,5 篇内容

🙋魔搭ModelScope本期社区进展:

📟1910个模型:MiniCPM 4.0系列、Qwen3-Embedding、Qwen3-Reranker、BAGEL-7B-MoT 等;

📁183个数据集:VideoMathQA、AceReason-Math、svla_so101_pickplace等;

🎨47个创新应用MagicColor、浏览器操作标注工具、RapidOCRv3.0.0等;

📄 5 篇内容:

  • 面壁小钢炮MiniCPM 4.0开源,端侧推理常规提速5倍!
  • 基于Qwen3的Embedding和Rerank模型系列,开源!
  • 更丰富的视频创作能力,ModelScope AIGC专区更新!
  • “一丹一世界”三等奖 | 南柯一梦 经验分享
  • 字节Seed开源统一多模态理解和生成模型 BAGEL!

01.模型推荐

MiniCPM 4.0系列

面壁智能重磅推出MiniCPM 4.0 ——一个极致高效的端侧大模型,通过其 CPM.cu 自研推理框架,可实现220倍极致的速度提升,5 倍常规提速。本次在开源社区核心推出 8B 和 0.5B 两个参数规模的版本,均在同级别模型对比中实现了最佳性能。

MiniCPM4系列通过系统性技术创新实现端侧大模型极致推理效率:采用InfLLM v2可训练稀疏注意力架构,在128K长文本处理中将词元关联计算量压缩至不足5%;结合BitCPM三值量化技术实现模型位宽90%压缩,配合FP8低精度计算与多词元预测策略显著降低训练成本;依托UltraClean数据清洗和UltraChat v2合成技术构建高质量多维训练集;推理端集成CPM.cu高效CUDA框架,融合稀疏注意力、模型量化与投机采样技术,并通过ArkInfer跨平台系统实现灵活部署。

模型合集:

https://www.modelscope.cn/collections/MiniCPM-4-ec015560e8c84d

示例代码:

推荐使用CPM.cu对MiniCPM4进行推理。CPM.cu是OpenBMB开发的一个CUDA推理框架,集成了高效的稀疏、推测采样和量化技术,充分利用了MiniCPM4的效率优势。

可以通过运行以下命令来安装CPM.cu:

git clone https://github.com/OpenBMB/cpm.cu.git --recursive
cd cpm.cu
python3 setup.py install

MiniCPM4原生支持最长达到32,768 tokens的上下文长度。为了重现论文中的长文本加速效果,建议使用已经验证过的LongRoPE因子。通过修改config.json文件中的rope_scaling字段来启用LongRoPE

{
    ...,
    "rope_scaling": {
        "rope_type": "longrope", 
        "long_factor": [0.9977997200264581, 1.014658295992452, 1.0349680404997148, 1.059429246056193, 1.0888815016813513, 1.1243301355211495, 1.166977103606075, 1.2182568066927284, 1.2798772354275727, 1.3538666751582975, 1.4426259039919596, 1.5489853358570191, 1.6762658237220625, 1.8283407612492941, 2.0096956085876183, 2.225478927469756, 2.481536379650452, 2.784415934557119, 3.1413289096347365, 3.560047844772632, 4.048719380066383, 4.752651957515948, 5.590913044973868, 6.584005926629993, 7.7532214876576155, 9.119754865903639, 10.704443927019176, 12.524994176518703, 14.59739595363613, 16.93214476166354, 19.53823297353041, 22.417131025031697, 25.568260840911098, 28.991144156566317, 32.68408069090375, 36.65174474170465, 40.90396065611201, 45.4664008671033, 50.37147343433591, 55.6804490772103, 61.470816952306556, 67.8622707390618, 75.00516023410414, 83.11898235973767, 92.50044360202462, 103.57086856690864, 116.9492274587385, 118.16074567836519, 119.18497548708795, 120.04810876261652, 120.77352815196981, 121.38182790207875, 121.89094985353891, 122.31638758099915, 122.6714244963338, 122.9673822552567, 123.21386397019609, 123.41898278254268, 123.58957065488238, 123.73136519024158, 123.84917421274221, 123.94701903496814, 124.02825801299717, 124.09569231686116],
        "short_factor": [0.9977997200264581, 1.014658295992452, 1.0349680404997148, 1.059429246056193, 1.0888815016813513, 1.1243301355211495, 1.166977103606075, 1.2182568066927284, 1.2798772354275727, 1.3538666751582975, 1.4426259039919596, 1.5489853358570191, 1.6762658237220625, 1.8283407612492941, 2.0096956085876183, 2.225478927469756, 2.481536379650452, 2.784415934557119, 3.1413289096347365, 3.560047844772632, 4.048719380066383, 4.752651957515948, 5.590913044973868, 6.584005926629993, 7.7532214876576155, 9.119754865903639, 10.704443927019176, 12.524994176518703, 14.59739595363613, 16.93214476166354, 19.53823297353041, 22.417131025031697, 25.568260840911098, 28.991144156566317, 32.68408069090375, 36.65174474170465, 40.90396065611201, 45.4664008671033, 50.37147343433591, 55.6804490772103, 61.470816952306556, 67.8622707390618, 75.00516023410414, 83.11898235973767, 92.50044360202462, 103.57086856690864, 116.9492274587385, 118.16074567836519, 119.18497548708795, 120.04810876261652, 120.77352815196981, 121.38182790207875, 121.89094985353891, 122.31638758099915, 122.6714244963338, 122.9673822552567, 123.21386397019609, 123.41898278254268, 123.58957065488238, 123.73136519024158, 123.84917421274221, 123.94701903496814, 124.02825801299717, 124.09569231686116],
        "original_max_position_embeddings": 32768
    }
}

修改后,你可以运行以下命令来重现长上下文加速效果

python3 tests/test_generate.py

有关CPM.cu的更多详细信息,请参阅 CPM.cu仓库(https://github.com/OpenBMB/cpm.cu).

更多推理、微调实战教程详见:

面壁小钢炮MiniCPM 4.0开源,端侧推理常规提速5倍!

Qwen3-Embedding、Qwen3-Reranker系列

阿里巴巴通义实验室正式发布Qwen3-Embedding系列模型, Qwen模型家族的新成员。该系列模型专为文本表征、检索与排序任务设计,基于Qwen3基础模型进行训练,充分继承了Qwen3在多语言文本理解能力方面的优势。

基于Qwen3基础模型,Embedding模型和Reranker模型分别采用了双塔结构和单塔结构的设计。通过LoRA微调,最大限度地保留并继承了基础模型的文本理解能力。

模型链接:

Qwen3-Embedding

https://modelscope.cn/collections/Qwen3-Embedding-3edc3762d50f48

Qwen3-Reranker

https://modelscope.cn/collections/Qwen3-Reranker-6316e71b146c4f

示例代码:

使用modelscope推理

import torch
import torch.nn.functional as F
from torch import Tensor
from modelscope import AutoTokenizer, AutoModel
def last_token_pool(last_hidden_states: Tensor,
                 attention_mask: Tensor) -> Tensor:
    left_padding = (attention_mask[:, -1].sum() == attention_mask.shape[0])
    if left_padding:
        return last_hidden_states[:, -1]
    else:
        sequence_lengths = attention_mask.sum(dim=1) - 1
        batch_size = last_hidden_states.shape[0]
        return last_hidden_states[torch.arange(batch_size, device=last_hidden_states.device), sequence_lengths]
def get_detailed_instruct(task_description: str, query: str) -> str:
    return f'Instruct: {task_description}\nQuery:{query}'
def tokenize(tokenizer, input_texts, eod_id, max_length):
    batch_dict = tokenizer(input_texts, padding=False, truncation=True, max_length=max_length-2)
    for seq, att in zip(batch_dict["input_ids"], batch_dict["attention_mask"]):
        seq.append(eod_id)
        att.append(1)
    batch_dict = tokenizer.pad(batch_dict, padding=True, return_tensors="pt")
    return batch_dict
# Each query must come with a one-sentence instruction that describes the task
task = 'Given a web search query, retrieve relevant passages that answer the query'
queries = [
    get_detailed_instruct(task, 'What is the capital of China?'),
    get_detailed_instruct(task, 'Explain gravity')
]
# No need to add instruction for retrieval documents
documents = [
    "The capital of China is Beijing.",
    "Gravity is a force that attracts two bodies towards each other. It gives weight to physical objects and is responsible for the movement of planets around the sun."
]
input_texts = queries + documents
tokenizer = AutoTokenizer.from_pretrained('Qwen/Qwen3-Embedding-8B', padding_side='left')
model = AutoModel.from_pretrained('Qwen/Qwen3-Embedding-8B')
# We recommend enabling flash_attention_2 for better acceleration and memory saving.
# model = AutoModel.from_pretrained('Qwen/Qwen3-Embedding-8B', attn_implementation="flash_attention_2", torch_dtype=torch.float16).cuda()
eod_id = tokenizer.convert_tokens_to_ids("<|endoftext|>")
max_length = 8192
# Tokenize the input texts
batch_dict = tokenize(tokenizer, input_texts, eod_id, max_length)
batch_dict.to(model.device)
outputs = model(**batch_dict)
embeddings = last_token_pool(outputs.last_hidden_state, batch_dict['attention_mask'])
# normalize embeddings
embeddings = F.normalize(embeddings, p=2, dim=1)
scores = (embeddings[:2] @ embeddings[2:].T)
print(scores.tolist())

使用ollama推理

ollama pull modelscope.cn/Qwen/Qwen3-Embedding-0.6B-GGUF

查看运行结果

curl http://localhost:11434/api/embed -d '{
  "model": "modelscope.cn/Qwen/Qwen3-Embedding-0.6B-GGUF:latest",
  "input": "Hello, World!"
}'

更多推理、微调详见教程:

基于Qwen3的Embedding和Rerank模型系列,开源!

BAGEL-7B-MoT

字节跳动Seed推出了 BAGEL—— 一个开源的多模态理解和生成础模型,具有70亿个激活参数(总共140亿个),并在大规模交错多模态数据上进行训练。BAGEL 在标准多模态理解排行榜上超越了当前顶级的开源VLMs,如Qwen2.5-VL和InternVL-2.5,并且提供了与强大的专业生成器如SD3竞争的文本到图像质量。

模型地址:

https://modelscope.cn/models/ByteDance-Seed/BAGEL-7B-MoT

示例代码:

1. 下载代码仓库,并安装依赖

git clone https://github.com/bytedance-seed/BAGEL.git
cd BAGEL
pip install -r requirements.txt

2. 下载模型

modelscope download ByteDance-Seed/BAGEL-7B-MoT --local_dir ./models/BAGEL-7B-MoT/

3. 开启WebUI

pip install gradio
python app.py

更多技术详解文章:

字节Seed开源统一多模态理解和生成模型 BAGEL!

02.数据集推荐

VideoMathQA

VideoMathQA 是一个旨在评估现实教育视频中数学推理能力的基准测试。它要求模型解释并整合来自三种模态(视觉、音频和文本)的信息,并且这些信息是随着时间变化的。该基准测试解决了多模态干草堆中的针问题,其中关键信息稀少且分布在不同的模态和视频的不同时间点。

数据集链接:

https://modelscope.cn/datasets/MBZUAI/VideoMathQA

AceReason-Math

AceReason-Nemotron-14B是一个通过强化学习训练的数学和代码推理模型,基于DeepSeek-R1-Distilled-Qwen-14B。它在AIME 2024、2025和LiveCodeBench v5、v6等基准测试中表现优异,显著提升了数学和代码推理性能。

数据集链接:

https://modelscope.cn/datasets/nv-community/AceReason-Math

svla_so101_pickplace

这是一个由LeRobot创建的机器人操作数据集,包含50个episode,11939帧,1个任务,100个视频,数据集结构详细记录了动作、状态、图像等信息,采用Apache-2.0许可。

数据集链接:

https://modelscope.cn/datasets/lerobot/svla_so101_pickplace

03.创空间

MagicColor

MagicColor 是一个基于扩散模型的多实例草图上色框架,能够通过一键式流程实现精准且自然的色彩填充,适用于动漫草图着色等场景 。

体验链接:

https://modelscope.cn/studios/zhdddd/MagicColor

浏览器操作标注工具

该工具是一款基于网络的通用注释工具,适用于多种语言标注任务,包括形态学、句法等多个层面的标注。

体验链接:

https://modelscope.cn/studios/kongquyu/browser-use-annotator

RapidOCRv3.0.0

RapidOCR v3.0.0 是一个基于 PP-OCRv5 模型的高性能多平台 OCR 工具,支持多语言识别和离线部署,适用于各类图像文字提取场景 。

体验链接:

https://modelscope.cn/studios/RapidAI/RapidOCRv3.0.0

04.社区精选文章

目录
相关文章
|
3月前
|
机器学习/深度学习 数据采集 并行计算
面壁小钢炮MiniCPM 4.0开源,端侧推理常规提速5倍!
面壁智能重磅推出MiniCPM 4.0 ——一个极致高效的端侧大模型,通过其 CPM.cu 自研推理框架,可实现220倍极致的速度提升,5 倍常规提速。
624 14
|
3月前
|
人工智能 安全 算法
十万奖金等你来战!第二届“隐语杯”数据挑战赛报名正式启动!
近日,国家数据局举办了2025“数据要素×”首场新闻发布会。
184 9
十万奖金等你来战!第二届“隐语杯”数据挑战赛报名正式启动!
|
3月前
|
开发框架 定位技术 API
AgentScope 与 MCP:实践、思考与展望
AgentScope 作为一款功能强大的开源多智能体开发框架,为开发者提供了智能体构建、工具使用、多智能体编排等全方位支持。
511 37
|
3月前
|
人工智能 物联网
“一丹一世界”三等奖 |咖菲猫咪_商业海报案例分享
“一丹一世界”三等奖 |咖菲猫咪_商业海报案例分享
281 85
|
3月前
|
人工智能 弹性计算 自然语言处理
从0到1部署大模型,计算巢模型市场让小白秒变专家
阿里云计算巢模型市场依托阿里云弹性计算资源,支持私有化部署,集成通义千问、通义万象、Stable Diffusion等领先AI模型,覆盖大语言模型、文生图、多模态、文生视频等场景。模型部署在用户云账号下,30分钟极速上线,保障数据安全与权限自主控制,适用于企业级私有部署及快速原型验证场景。
|
3月前
开赛啦!AFAC2025金融智能创新大赛正式启动,等你来报名
开赛啦!AFAC2025金融智能创新大赛正式启动,等你来报名
263 13
|
2月前
|
人工智能 资源调度 数据可视化
ModelScope魔搭25年7月发布月报
七月流火,这个夏天火热的开场已然揭开。6月30号,我们在北京举办了首届魔搭开发者大会(ModelScope DevCon 2025),邀请了国内外知名的开源模型,以及头部开源工具的研发团队,与广大开发者共聚一堂进行分享。顶尖的AI 模型首次从线上 Hub走进线下盛会,为大家呈现了一场“模型全明星”盛会。同时我们还邀请了社区开发者参加我们的“搭友之夜”(aka 大规模面基大会)。大会分享场场爆满,现场只能用一句话来描述:“好~多~人~啊”,不提前占位根本挤不进去~~
214 3
|
3月前
|
安全 搜索推荐 数据安全/隐私保护
无缝体验设计、一键直达的奥秘
Apptrace 是一款强大的工具,支持传参安装与一键拉起功能,优化用户体验。本文通过四个实战案例展示其应用:1) 电商深度链接营销,实现商品页直达;2) 游戏邀请系统,追踪来源并自动奖励;3) 新闻个性化内容推送,提升打开速度;4) 企业应用无缝登录,保障安全高效。同时总结最佳实践,包括优雅降级、参数加密、统计分析等,助力企业提升用户转化率与体验流畅度。
|
3月前
|
人工智能 文字识别 安全
趣丸千音MCP首发上线魔搭社区,多重技术引擎,解锁AI语音无限可能
近日,趣丸千音(All Voice Lab)MCP正式首发上线魔搭社区。用户只需简单文本输入,即可调用视频翻译、TTS语音合成、智能变声、人声分离、多语种配音、语音转文本、字幕擦除等多项能力。
457 32

热门文章

最新文章