魔搭社区模型速递(3.9-3.15)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 魔搭ModelScope本期社区进展:1066个模型,153个数据集,125个创新应用,13篇内容

🙋魔搭ModelScope本期社区进展:

📟1066个模型:CSM-1b、R1-Omni-0.5B、Gemma-3系列、OLMo-2-0325-32B-Instruct等;

📁153个数据集:SmallThoughts、s1-m_beta、codeforces-cots等;

🎨125个创新应用:ImageCaculate、MelQCD、模型费用计算器等;

📄 13篇内容:

  • 有效的思考:模型思考效率评测
  • 10分钟评测实验,鉴别大模型是真智能or伪学霸
  • 驱动“超真人”虚拟助手Maya的实时语音对话模型CSM-1b开源!
  • 线上共学 | Mac本地玩转大模型
  • R1-Omni开源!多模态模型+RLVR,让各模态作用清晰可见
  • QwQ-32B,支持Function Call的推理模型,深度思考Agent的时代来了!
  • 今日热门论文推荐:CoSTAast、Transformers without Normalization、VisualPRM
  • 今日热门论文推荐:Seedream、LMM-R1、YuE、Gemini Embedding
  • 今日热门论文推荐:MM-Eureka、FedRand、EasyControl、FEA-Bench、SurveyForge
  • 今日热门论文推荐:EuroBERT、S2S-Arena、R1-Searcher
  • 解读 | 金融长上下文基准测试FailSafeQA:解锁金融领域LLM真实的审慎性和容错性
  • “同西游,见万相” 主题LoRA风格挑战赛来袭!万元奖金池+猫超卡+限定周边来赢!
  • 20万悬赏AI美妆!欧莱雅美妆科技黑客松2025重磅来袭

01.精选模型

CSM-1b

Sesame团队开源语音生成模型 CSM-1b,可根据文本和音频输入生成 RVQ 音频代码。其基于Llama架构构建,通过多模态骨干网络处理文本与音频输入,结合音频解码器生成RVQ编码的高质量语音。该模型支持端到端多模态学习,可结合对话历史生成连贯自然的语音,适用于实时交互场景如语音助手,延迟极低,当前开源版本主要针对英语场景优化。

模型地址:

https://www.modelscope.cn/models/sesameAILabs/csm-1b

示例代码:

step1:拉取代码

本次拉取的代码为基于gradio开发的版本,模型托管在modelscope上

git clone https://oauth2:Lj_V_qf8NsjT2RoCksjr@www.modelscope.cn/studios/sesameAILabs/csm-1b.git

step2:安装依赖

cd csm-1b
pip install -r requirements.txt

step3:运行命令

# 声明两个环境变量
export MS_TOKEN='xxxx' # MS_TOKEN 从https://www.modelscope.cn/my/myaccesstoken 获取
export WATERMARK_KEY="123 234 111 222 11"
cd csm-1b
python app.py

image.png

Gemma-3系列

Google DeepMind团队升级Gemma正式发布Gemma 3系列。Gemma 3是多模态大模型,处理文本和图像输入并生成文本输出,预训练变体和指令调整变体都有开放权重。Gemma 3 具有一个 128K 的大上下文窗口,支持 140 多种语言,并且比以前的版本提供更多大小。Gemma 3 模型非常适合各种文本生成和图像理解任务,包括问答、总结和推理。它们相对较小的尺寸使其能够部署在资源有限的环境中,例如笔记本电脑、台式机或自己的云基础设施。

模型地址:

google/gemma-3-1b-it https://modelscope.cn/models/LLM-Research/gemma-3-1b-it google/gemma-3-1b-pt https://modelscope.cn/models/LLM-Research/gemma-3-1b-pt google/gemma-3-4b-it https://modelscope.cn/models/LLM-Research/gemma-3-4b-it google/gemma-3-4b-pt https://modelscope.cn/models/LLM-Research/gemma-3-4b-pt google/gemma-3-12b-it https://modelscope.cn/models/LLM-Research/gemma-3-12b-it google/gemma-3-12b-pt https://modelscope.cn/models/LLM-Research/gemma-3-12b-pt google/gemma-3-27b-it https://modelscope.cn/models/LLM-Research/gemma-3-27b-it google/gemma-3-27b-pthttps://modelscope.cn/models/LLM-Research/gemma-3-27b-pt

示例代码:

环境安装

!pip install git+https://github.com/huggingface/transformers@v4.49.0-Gemma-3

推理代码

from transformers import AutoTokenizer, BitsAndBytesConfig, Gemma3ForCausalLM
import torch
from modelscope import snapshot_download
model_id = snapshot_download("LLM-Research/gemma-3-1b-it")
#quantization_config = BitsAndBytesConfig(load_in_8bit=True)
model = Gemma3ForCausalLM.from_pretrained(
    model_id
).eval()
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
    [
        {
            "role": "system",
            "content": [{"type": "text", "text": "You are a helpful assistant."},]
        },
        {
            "role": "user",
            "content": [{"type": "text", "text": "Write a poem on Hugging Face, the company"},]
        },
    ],
]
inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)
with torch.inference_mode():
    outputs = model.generate(**inputs, max_new_tokens=64)
outputs = tokenizer.batch_decode(outputs)

R1-Omni-0.5B

R1-Omni 是由通义实验室推出的业界首次将带有可验证奖励(RLVR)的强化学习应用于全模态大型语言模型的研究工作,专注于情感识别任务,是一个视觉和音频模态都起关键作用的任务,以验证结合RLVR与全模态模型的潜力。研究揭示了几个关键见解:

1、增强的推理能力:R1-Omni展示了卓越的推理能力,使人们能够更清晰地理解视觉和音频信息如何贡献于情感识别。 2、提升的理解能力:与SFT相比,RLVR在情感识别任务上的表现显著提高。 3、更强的泛化能力:RLVR模型显示出明显更好的泛化能力,特别是在分布外场景中表现出色。

模型合集链接:

https://modelscope.cn/models/iic/R1-Omni-0.5B

02.数据集推荐

SmallThoughts

开放综合推理数据集,涵盖数学、科学、代码和谜题。

数据集链接:

https://modelscope.cn/datasets/AI-ModelScope/SmallThoughts

s1-m_beta

S1-M 数据集 (Beta) 是一个开源的 TI2T 推理数据集,用于训练 S1-M 模型 (Beta),使其具有 “先思考,后响应” 的范式。S1-M 数据集(Beta)中的提示和图片来自两个开源数据集:align-anything 和 multimodal-open-r1-8k-verified,分别占 49.62% 和 50.38%,旨在平衡模型的通用能力和数学能力。

数据集链接:

https://modelscope.cn/datasets/PKU-Alignment/s1-m_beta

codeforces-cots

CodeForces-CoTs 是一个大规模数据集,用于在竞争性编程任务中训练推理模型。它由 10k 个 CodeForces 问题组成,最多 4 个 DeepSeek R1 生成的推理跟踪。

数据集链接:

https://modelscope.cn/datasets/open-r1/codeforces-cots

03.精选应用

CSM-1b

体验直达:

https://www.modelscope.cn/studios/sesameAILabs/csm-1b

ImageCaculate

体验直达:

https://modelscope.cn/studios/crwsr124/ImageCaculate

MelQCD

体验直达:

https://modelscope.cn/studios/iic/MelQCD

模型费用计算器

体验直达:

https://modelscope.cn/studios/h2000c820y/Model_Cost_Calculator

04.社区精选文章


目录
相关文章
|
8月前
|
存储 人工智能 数据可视化
ModelScope魔搭25年3月发布月报
在这个春天里,小鲸鱼的DeepSeek-R1系列在模型社区掀起的巨大浪潮尚未平息,我们又迎来了千问的QwQ-32B正式版本,社区在Reasoning模型上的热情还在升温。除此之外,业界其他模型在过去一
215 1
|
8月前
|
人工智能 PyTorch API
Hunyuan3D 2.0:腾讯混元开源3D生成大模型!图生/文生秒建高精度模型,细节纹理自动合成
Hunyuan3D 2.0 是腾讯推出的大规模 3D 资产生成系统,专注于从文本和图像生成高分辨率的 3D 模型,支持几何生成和纹理合成。
847 5
Hunyuan3D 2.0:腾讯混元开源3D生成大模型!图生/文生秒建高精度模型,细节纹理自动合成
|
8月前
|
人工智能 文字识别 异构计算
SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍
SmolDocling 是一款轻量级的多模态文档处理模型,能够将图像文档高效转换为结构化文本,支持文本、公式、图表等多种元素识别,适用于学术论文、技术报告等多类型文档。
592 1
SmolDocling:256M多模态小模型秒转文档!开源OCR效率提升10倍
|
8月前
|
人工智能 自然语言处理 PyTorch
Instella:AMD开源30亿参数语言模型!训练效率碾压同级选手
Instella是AMD推出的30亿参数开源语言模型,基于自回归Transformer架构,支持多轮对话、指令跟随和自然语言理解,适用于智能客服、内容创作和教育辅导等多个领域。
138 1
|
8月前
|
人工智能 安全 测试技术
本周 AI Benchmark 方向论文推荐
由北京大学和微软亚洲研究院的魏李等人提出的 FEA-Bench,是一个专为评估大型语言模型(LLMs)在代码库级别进行增量开发能力的基准测试。它从 83 个 GitHub 仓库中收集了 1,401 个任务实例,专注于新功能的实现。研究表明,即使是先进的 LLMs 在此任务中的表现仍远低于预期,揭示了仓库级代码开发的重大挑战。
329 0
|
8月前
|
设计模式 人工智能 API
Cursor 上线最新 AI 模型 Claude 3.7 Max:200k上下文+200次工具调用!史上最强代码助手硬核上线
Claude 3.7 Max 是 Cursor 推出的最新 AI 模型,支持 200k 上下文窗口和 200 次工具调用,专为复杂代码任务设计,适合硬核开发者和大型项目。
703 6
Cursor 上线最新 AI 模型 Claude 3.7 Max:200k上下文+200次工具调用!史上最强代码助手硬核上线
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
论文推荐:R1-Omni、VisualPRM、4D LangSplat、Vision-R1、GoT
简要介绍:由复旦大学、上海AI实验室等机构提出了首个统一多模态理解和生成的奖励模型UnifiedReward。该工作构建了大规模人类偏好数据集,包含图像和视频生成/理解任务,并利用该模型进行自动构建高质量偏好对数据,最终通过DPO优化视觉模型。实验结果表明,联合学习评估多样化视觉任务可以带来显著的相互益处。
268 1
|
8月前
|
人工智能 自然语言处理
AudioX:颠覆创作!多模态AI一键生成电影级音效+配乐,耳朵的终极盛宴
AudioX 是香港科技大学和月之暗面联合推出的扩散变换器模型,能够从文本、视频、图像等多种模态生成高质量音频和音乐,具备强大的跨模态学习能力和泛化能力。
575 36
AudioX:颠覆创作!多模态AI一键生成电影级音效+配乐,耳朵的终极盛宴
|
8月前
|
机器学习/深度学习 人工智能 NoSQL
JAVA接入DeepSeek大模型接口开发---阿里云的百炼模型
随着大模型的越来越盛行,现在很多企业开始接入大模型的接口,今天我从java开发角度来写一个demo的示例,用于接入DeepSeek大模型,国内的大模型有很多的接入渠道,今天主要介绍下阿里云的百炼模型,因为这个模型是免费的,只要注册一个账户,就会免费送百万的token进行学习,今天就从一个简单的可以执行的示例开始进行介绍,希望可以分享给各位正在学习的同学们。
1380 3
JAVA接入DeepSeek大模型接口开发---阿里云的百炼模型
|
8月前
|
人工智能 缓存 Apache
Mistral Small 3.1:240亿参数多模态黑马!128k长文本+图像分析,推理速度150token/秒
Mistral Small 3.1 是 Mistral AI 开源的多模态人工智能模型,具备 240 亿参数,支持文本和图像处理,推理速度快,适合多种应用场景。
281 7
Mistral Small 3.1:240亿参数多模态黑马!128k长文本+图像分析,推理速度150token/秒

热门文章

最新文章