魔搭社区模型速递(6.2-6.7)

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 魔搭ModelScope本期社区进展:1910个模型,183个数据集,47个创新应用,5 篇内容

🙋魔搭ModelScope本期社区进展:

📟1910个模型:MiniCPM 4.0系列、Qwen3-Embedding、Qwen3-Reranker、BAGEL-7B-MoT 等;

📁183个数据集:VideoMathQA、AceReason-Math、svla_so101_pickplace等;

🎨47个创新应用MagicColor、浏览器操作标注工具、RapidOCRv3.0.0等;

📄 5 篇内容:

  • 面壁小钢炮MiniCPM 4.0开源,端侧推理常规提速5倍!
  • 基于Qwen3的Embedding和Rerank模型系列,开源!
  • 更丰富的视频创作能力,ModelScope AIGC专区更新!
  • “一丹一世界”三等奖 | 南柯一梦 经验分享
  • 字节Seed开源统一多模态理解和生成模型 BAGEL!

01.模型推荐

MiniCPM 4.0系列

面壁智能重磅推出MiniCPM 4.0 ——一个极致高效的端侧大模型,通过其 CPM.cu 自研推理框架,可实现220倍极致的速度提升,5 倍常规提速。本次在开源社区核心推出 8B 和 0.5B 两个参数规模的版本,均在同级别模型对比中实现了最佳性能。

MiniCPM4系列通过系统性技术创新实现端侧大模型极致推理效率:采用InfLLM v2可训练稀疏注意力架构,在128K长文本处理中将词元关联计算量压缩至不足5%;结合BitCPM三值量化技术实现模型位宽90%压缩,配合FP8低精度计算与多词元预测策略显著降低训练成本;依托UltraClean数据清洗和UltraChat v2合成技术构建高质量多维训练集;推理端集成CPM.cu高效CUDA框架,融合稀疏注意力、模型量化与投机采样技术,并通过ArkInfer跨平台系统实现灵活部署。

模型合集:

https://www.modelscope.cn/collections/MiniCPM-4-ec015560e8c84d

示例代码:

推荐使用CPM.cu对MiniCPM4进行推理。CPM.cu是OpenBMB开发的一个CUDA推理框架,集成了高效的稀疏、推测采样和量化技术,充分利用了MiniCPM4的效率优势。

可以通过运行以下命令来安装CPM.cu:

git clone https://github.com/OpenBMB/cpm.cu.git --recursive
cd cpm.cu
python3 setup.py install

MiniCPM4原生支持最长达到32,768 tokens的上下文长度。为了重现论文中的长文本加速效果,建议使用已经验证过的LongRoPE因子。通过修改config.json文件中的rope_scaling字段来启用LongRoPE

{
    ...,
    "rope_scaling": {
        "rope_type": "longrope", 
        "long_factor": [0.9977997200264581, 1.014658295992452, 1.0349680404997148, 1.059429246056193, 1.0888815016813513, 1.1243301355211495, 1.166977103606075, 1.2182568066927284, 1.2798772354275727, 1.3538666751582975, 1.4426259039919596, 1.5489853358570191, 1.6762658237220625, 1.8283407612492941, 2.0096956085876183, 2.225478927469756, 2.481536379650452, 2.784415934557119, 3.1413289096347365, 3.560047844772632, 4.048719380066383, 4.752651957515948, 5.590913044973868, 6.584005926629993, 7.7532214876576155, 9.119754865903639, 10.704443927019176, 12.524994176518703, 14.59739595363613, 16.93214476166354, 19.53823297353041, 22.417131025031697, 25.568260840911098, 28.991144156566317, 32.68408069090375, 36.65174474170465, 40.90396065611201, 45.4664008671033, 50.37147343433591, 55.6804490772103, 61.470816952306556, 67.8622707390618, 75.00516023410414, 83.11898235973767, 92.50044360202462, 103.57086856690864, 116.9492274587385, 118.16074567836519, 119.18497548708795, 120.04810876261652, 120.77352815196981, 121.38182790207875, 121.89094985353891, 122.31638758099915, 122.6714244963338, 122.9673822552567, 123.21386397019609, 123.41898278254268, 123.58957065488238, 123.73136519024158, 123.84917421274221, 123.94701903496814, 124.02825801299717, 124.09569231686116],
        "short_factor": [0.9977997200264581, 1.014658295992452, 1.0349680404997148, 1.059429246056193, 1.0888815016813513, 1.1243301355211495, 1.166977103606075, 1.2182568066927284, 1.2798772354275727, 1.3538666751582975, 1.4426259039919596, 1.5489853358570191, 1.6762658237220625, 1.8283407612492941, 2.0096956085876183, 2.225478927469756, 2.481536379650452, 2.784415934557119, 3.1413289096347365, 3.560047844772632, 4.048719380066383, 4.752651957515948, 5.590913044973868, 6.584005926629993, 7.7532214876576155, 9.119754865903639, 10.704443927019176, 12.524994176518703, 14.59739595363613, 16.93214476166354, 19.53823297353041, 22.417131025031697, 25.568260840911098, 28.991144156566317, 32.68408069090375, 36.65174474170465, 40.90396065611201, 45.4664008671033, 50.37147343433591, 55.6804490772103, 61.470816952306556, 67.8622707390618, 75.00516023410414, 83.11898235973767, 92.50044360202462, 103.57086856690864, 116.9492274587385, 118.16074567836519, 119.18497548708795, 120.04810876261652, 120.77352815196981, 121.38182790207875, 121.89094985353891, 122.31638758099915, 122.6714244963338, 122.9673822552567, 123.21386397019609, 123.41898278254268, 123.58957065488238, 123.73136519024158, 123.84917421274221, 123.94701903496814, 124.02825801299717, 124.09569231686116],
        "original_max_position_embeddings": 32768
    }
}

修改后,你可以运行以下命令来重现长上下文加速效果

python3 tests/test_generate.py

有关CPM.cu的更多详细信息,请参阅 CPM.cu仓库(https://github.com/OpenBMB/cpm.cu).

更多推理、微调实战教程详见:

面壁小钢炮MiniCPM 4.0开源,端侧推理常规提速5倍!

Qwen3-Embedding、Qwen3-Reranker系列

阿里巴巴通义实验室正式发布Qwen3-Embedding系列模型, Qwen模型家族的新成员。该系列模型专为文本表征、检索与排序任务设计,基于Qwen3基础模型进行训练,充分继承了Qwen3在多语言文本理解能力方面的优势。

基于Qwen3基础模型,Embedding模型和Reranker模型分别采用了双塔结构和单塔结构的设计。通过LoRA微调,最大限度地保留并继承了基础模型的文本理解能力。

模型链接:

Qwen3-Embedding

https://modelscope.cn/collections/Qwen3-Embedding-3edc3762d50f48

Qwen3-Reranker

https://modelscope.cn/collections/Qwen3-Reranker-6316e71b146c4f

示例代码:

使用modelscope推理

import torch
import torch.nn.functional as F
from torch import Tensor
from modelscope import AutoTokenizer, AutoModel
def last_token_pool(last_hidden_states: Tensor,
                 attention_mask: Tensor) -> Tensor:
    left_padding = (attention_mask[:, -1].sum() == attention_mask.shape[0])
    if left_padding:
        return last_hidden_states[:, -1]
    else:
        sequence_lengths = attention_mask.sum(dim=1) - 1
        batch_size = last_hidden_states.shape[0]
        return last_hidden_states[torch.arange(batch_size, device=last_hidden_states.device), sequence_lengths]
def get_detailed_instruct(task_description: str, query: str) -> str:
    return f'Instruct: {task_description}\nQuery:{query}'
def tokenize(tokenizer, input_texts, eod_id, max_length):
    batch_dict = tokenizer(input_texts, padding=False, truncation=True, max_length=max_length-2)
    for seq, att in zip(batch_dict["input_ids"], batch_dict["attention_mask"]):
        seq.append(eod_id)
        att.append(1)
    batch_dict = tokenizer.pad(batch_dict, padding=True, return_tensors="pt")
    return batch_dict
# Each query must come with a one-sentence instruction that describes the task
task = 'Given a web search query, retrieve relevant passages that answer the query'
queries = [
    get_detailed_instruct(task, 'What is the capital of China?'),
    get_detailed_instruct(task, 'Explain gravity')
]
# No need to add instruction for retrieval documents
documents = [
    "The capital of China is Beijing.",
    "Gravity is a force that attracts two bodies towards each other. It gives weight to physical objects and is responsible for the movement of planets around the sun."
]
input_texts = queries + documents
tokenizer = AutoTokenizer.from_pretrained('Qwen/Qwen3-Embedding-8B', padding_side='left')
model = AutoModel.from_pretrained('Qwen/Qwen3-Embedding-8B')
# We recommend enabling flash_attention_2 for better acceleration and memory saving.
# model = AutoModel.from_pretrained('Qwen/Qwen3-Embedding-8B', attn_implementation="flash_attention_2", torch_dtype=torch.float16).cuda()
eod_id = tokenizer.convert_tokens_to_ids("<|endoftext|>")
max_length = 8192
# Tokenize the input texts
batch_dict = tokenize(tokenizer, input_texts, eod_id, max_length)
batch_dict.to(model.device)
outputs = model(**batch_dict)
embeddings = last_token_pool(outputs.last_hidden_state, batch_dict['attention_mask'])
# normalize embeddings
embeddings = F.normalize(embeddings, p=2, dim=1)
scores = (embeddings[:2] @ embeddings[2:].T)
print(scores.tolist())

使用ollama推理

ollama pull modelscope.cn/Qwen/Qwen3-Embedding-0.6B-GGUF

查看运行结果

curl http://localhost:11434/api/embed -d '{
  "model": "modelscope.cn/Qwen/Qwen3-Embedding-0.6B-GGUF:latest",
  "input": "Hello, World!"
}'

更多推理、微调详见教程:

基于Qwen3的Embedding和Rerank模型系列,开源!

BAGEL-7B-MoT

字节跳动Seed推出了 BAGEL—— 一个开源的多模态理解和生成础模型,具有70亿个激活参数(总共140亿个),并在大规模交错多模态数据上进行训练。BAGEL 在标准多模态理解排行榜上超越了当前顶级的开源VLMs,如Qwen2.5-VL和InternVL-2.5,并且提供了与强大的专业生成器如SD3竞争的文本到图像质量。

模型地址:

https://modelscope.cn/models/ByteDance-Seed/BAGEL-7B-MoT

示例代码:

1. 下载代码仓库,并安装依赖

git clone https://github.com/bytedance-seed/BAGEL.git
cd BAGEL
pip install -r requirements.txt

2. 下载模型

modelscope download ByteDance-Seed/BAGEL-7B-MoT --local_dir ./models/BAGEL-7B-MoT/

3. 开启WebUI

pip install gradio
python app.py

更多技术详解文章:

字节Seed开源统一多模态理解和生成模型 BAGEL!

02.数据集推荐

VideoMathQA

VideoMathQA 是一个旨在评估现实教育视频中数学推理能力的基准测试。它要求模型解释并整合来自三种模态(视觉、音频和文本)的信息,并且这些信息是随着时间变化的。该基准测试解决了多模态干草堆中的针问题,其中关键信息稀少且分布在不同的模态和视频的不同时间点。

数据集链接:

https://modelscope.cn/datasets/MBZUAI/VideoMathQA

AceReason-Math

AceReason-Nemotron-14B是一个通过强化学习训练的数学和代码推理模型,基于DeepSeek-R1-Distilled-Qwen-14B。它在AIME 2024、2025和LiveCodeBench v5、v6等基准测试中表现优异,显著提升了数学和代码推理性能。

数据集链接:

https://modelscope.cn/datasets/nv-community/AceReason-Math

svla_so101_pickplace

这是一个由LeRobot创建的机器人操作数据集,包含50个episode,11939帧,1个任务,100个视频,数据集结构详细记录了动作、状态、图像等信息,采用Apache-2.0许可。

数据集链接:

https://modelscope.cn/datasets/lerobot/svla_so101_pickplace

03.创空间

MagicColor

MagicColor 是一个基于扩散模型的多实例草图上色框架,能够通过一键式流程实现精准且自然的色彩填充,适用于动漫草图着色等场景 。

体验链接:

https://modelscope.cn/studios/zhdddd/MagicColor

浏览器操作标注工具

该工具是一款基于网络的通用注释工具,适用于多种语言标注任务,包括形态学、句法等多个层面的标注。

体验链接:

https://modelscope.cn/studios/kongquyu/browser-use-annotator

RapidOCRv3.0.0

RapidOCR v3.0.0 是一个基于 PP-OCRv5 模型的高性能多平台 OCR 工具,支持多语言识别和离线部署,适用于各类图像文字提取场景 。

体验链接:

https://modelscope.cn/studios/RapidAI/RapidOCRv3.0.0

04.社区精选文章

目录
相关文章
|
6天前
|
机器学习/深度学习 数据采集 并行计算
面壁小钢炮MiniCPM 4.0开源,端侧推理常规提速5倍!
面壁智能重磅推出MiniCPM 4.0 ——一个极致高效的端侧大模型,通过其 CPM.cu 自研推理框架,可实现220倍极致的速度提升,5 倍常规提速。
215 14
|
5天前
|
人工智能 安全 算法
十万奖金等你来战!第二届“隐语杯”数据挑战赛报名正式启动!
近日,国家数据局举办了2025“数据要素×”首场新闻发布会。
53 11
十万奖金等你来战!第二届“隐语杯”数据挑战赛报名正式启动!
|
16天前
|
机器学习/深度学习 算法 测试技术
DeepSeek-R1-0528:小更新大升级
今天,DeepSeek R1 开源发布了其“小版本”升级——DeepSeek-R1-0528。
290 24
|
9天前
|
人工智能 安全 API
Agent 工程师绕不开的必修课:API 网关 vs API 管理
本文探讨了“API管理”与“API网关”的起源、发展及差异,二者分别服务于API生命周期的不同阶段。API网关从流量网关演进至AI网关,承担运行时请求控制;API管理则从接口文档化发展到商业化平台,关注全生命周期治理。两者在实际应用中协同工作,通过分层架构和策略联动实现高效运营。未来,随着大模型应用的兴起,AI网关和MCP Server管理将成为新趋势,推动API技术迈入智能化和服务化的新阶段。
Agent 工程师绕不开的必修课:API 网关 vs API 管理
|
9天前
开赛啦!AFAC2025金融智能创新大赛正式启动,等你来报名
开赛啦!AFAC2025金融智能创新大赛正式启动,等你来报名
125 13
|
12天前
|
缓存
📣阿里云百炼大语言模型618限量资源包活动来袭
阿里云百炼推出大语言模型推理资源包优惠活动,所有主账号用户均可参与,无论是否完成实名认证。活动提供qwen-max、qwen-plus及qwen-turbo三种资源包,分别支持对应模型的实时推理费用抵扣,折扣力度达8.8折至9折不等。每种资源包限量发售,有效期为1年,自订购之日起计算。活动期间购买的资源包不可用于抵扣Batch调用、上下文缓存等其他服务费用。如有疑问可加入官方支持群(77600022533)交流反馈,优惠名额有限,先到先得。
|
6天前
|
数据采集 自然语言处理 搜索推荐
基于Qwen3的Embedding和Rerank模型系列,开源!
近年来,随着大规模预训练语言模型(LLM)的飞速发展,文本嵌入(Embedding)和重排序(Reranking)技术在搜索引擎、问答系统、推荐系统等多个领域的重要性愈发凸显。
757 75
|
2月前
|
机器学习/深度学习 人工智能 算法
小米7B参数推理大模型首次开源!Xiaomi MiMo:数学代码双杀,超越32B巨头
小米开源的MiMo推理大模型通过联动预训练与强化学习算法,在7B参数规模下实现数学推理与代码生成能力的突破性提升,技术报告显示其性能超越部分32B级模型。
465 74
小米7B参数推理大模型首次开源!Xiaomi MiMo:数学代码双杀,超越32B巨头
|
3天前
|
人工智能 物联网
“一丹一世界”三等奖 |咖菲猫咪_商业海报案例分享
“一丹一世界”三等奖 |咖菲猫咪_商业海报案例分享
115 77

热门文章

最新文章