🙋魔搭ModelScope本期社区进展:
📟1066个模型:CSM-1b、R1-Omni-0.5B、Gemma-3系列、OLMo-2-0325-32B-Instruct等;
📁153个数据集:SmallThoughts、s1-m_beta、codeforces-cots等;
🎨125个创新应用:ImageCaculate、MelQCD、模型费用计算器等;
📄 13篇内容:
- 有效的思考:模型思考效率评测
- 10分钟评测实验,鉴别大模型是真智能or伪学霸
- 驱动“超真人”虚拟助手Maya的实时语音对话模型CSM-1b开源!
- 线上共学 | Mac本地玩转大模型
- R1-Omni开源!多模态模型+RLVR,让各模态作用清晰可见
- QwQ-32B,支持Function Call的推理模型,深度思考Agent的时代来了!
- 今日热门论文推荐:CoSTAast、Transformers without Normalization、VisualPRM
- 今日热门论文推荐:Seedream、LMM-R1、YuE、Gemini Embedding
- 今日热门论文推荐:MM-Eureka、FedRand、EasyControl、FEA-Bench、SurveyForge
- 今日热门论文推荐:EuroBERT、S2S-Arena、R1-Searcher
- 解读 | 金融长上下文基准测试FailSafeQA:解锁金融领域LLM真实的审慎性和容错性
- “同西游,见万相” 主题LoRA风格挑战赛来袭!万元奖金池+猫超卡+限定周边来赢!
- 20万悬赏AI美妆!欧莱雅美妆科技黑客松2025重磅来袭
01.精选模型
CSM-1b
Sesame团队开源语音生成模型 CSM-1b,可根据文本和音频输入生成 RVQ 音频代码。其基于Llama架构构建,通过多模态骨干网络处理文本与音频输入,结合音频解码器生成RVQ编码的高质量语音。该模型支持端到端多模态学习,可结合对话历史生成连贯自然的语音,适用于实时交互场景如语音助手,延迟极低,当前开源版本主要针对英语场景优化。
模型地址:
https://www.modelscope.cn/models/sesameAILabs/csm-1b
示例代码:
step1:拉取代码
本次拉取的代码为基于gradio开发的版本,模型托管在modelscope上
git clone https://oauth2:Lj_V_qf8NsjT2RoCksjr@www.modelscope.cn/studios/sesameAILabs/csm-1b.git
step2:安装依赖
cd csm-1b pip install -r requirements.txt
step3:运行命令
# 声明两个环境变量 export MS_TOKEN='xxxx' # MS_TOKEN 从https://www.modelscope.cn/my/myaccesstoken 获取 export WATERMARK_KEY="123 234 111 222 11" cd csm-1b python app.py
Gemma-3系列
Google DeepMind团队升级Gemma正式发布Gemma 3系列。Gemma 3是多模态大模型,处理文本和图像输入并生成文本输出,预训练变体和指令调整变体都有开放权重。Gemma 3 具有一个 128K 的大上下文窗口,支持 140 多种语言,并且比以前的版本提供更多大小。Gemma 3 模型非常适合各种文本生成和图像理解任务,包括问答、总结和推理。它们相对较小的尺寸使其能够部署在资源有限的环境中,例如笔记本电脑、台式机或自己的云基础设施。
模型地址:
google/gemma-3-1b-it https://modelscope.cn/models/LLM-Research/gemma-3-1b-it google/gemma-3-1b-pt https://modelscope.cn/models/LLM-Research/gemma-3-1b-pt google/gemma-3-4b-it https://modelscope.cn/models/LLM-Research/gemma-3-4b-it google/gemma-3-4b-pt https://modelscope.cn/models/LLM-Research/gemma-3-4b-pt google/gemma-3-12b-it https://modelscope.cn/models/LLM-Research/gemma-3-12b-it google/gemma-3-12b-pt https://modelscope.cn/models/LLM-Research/gemma-3-12b-pt google/gemma-3-27b-it https://modelscope.cn/models/LLM-Research/gemma-3-27b-it google/gemma-3-27b-pthttps://modelscope.cn/models/LLM-Research/gemma-3-27b-pt
示例代码:
环境安装
!pip install git+https://github.com/huggingface/transformers@v4.49.0-Gemma-3
推理代码
from transformers import AutoTokenizer, BitsAndBytesConfig, Gemma3ForCausalLM import torch from modelscope import snapshot_download model_id = snapshot_download("LLM-Research/gemma-3-1b-it") #quantization_config = BitsAndBytesConfig(load_in_8bit=True) model = Gemma3ForCausalLM.from_pretrained( model_id ).eval() tokenizer = AutoTokenizer.from_pretrained(model_id) messages = [ [ { "role": "system", "content": [{"type": "text", "text": "You are a helpful assistant."},] }, { "role": "user", "content": [{"type": "text", "text": "Write a poem on Hugging Face, the company"},] }, ], ] inputs = tokenizer.apply_chat_template( messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt", ).to(model.device) with torch.inference_mode(): outputs = model.generate(**inputs, max_new_tokens=64) outputs = tokenizer.batch_decode(outputs)
R1-Omni-0.5B
R1-Omni 是由通义实验室推出的业界首次将带有可验证奖励(RLVR)的强化学习应用于全模态大型语言模型的研究工作,专注于情感识别任务,是一个视觉和音频模态都起关键作用的任务,以验证结合RLVR与全模态模型的潜力。研究揭示了几个关键见解:
1、增强的推理能力:R1-Omni展示了卓越的推理能力,使人们能够更清晰地理解视觉和音频信息如何贡献于情感识别。 2、提升的理解能力:与SFT相比,RLVR在情感识别任务上的表现显著提高。 3、更强的泛化能力:RLVR模型显示出明显更好的泛化能力,特别是在分布外场景中表现出色。
模型合集链接:
https://modelscope.cn/models/iic/R1-Omni-0.5B
02.数据集推荐
SmallThoughts
开放综合推理数据集,涵盖数学、科学、代码和谜题。
数据集链接:
https://modelscope.cn/datasets/AI-ModelScope/SmallThoughts
s1-m_beta
S1-M 数据集 (Beta) 是一个开源的 TI2T 推理数据集,用于训练 S1-M 模型 (Beta),使其具有 “先思考,后响应” 的范式。S1-M 数据集(Beta)中的提示和图片来自两个开源数据集:align-anything 和 multimodal-open-r1-8k-verified,分别占 49.62% 和 50.38%,旨在平衡模型的通用能力和数学能力。
数据集链接:
https://modelscope.cn/datasets/PKU-Alignment/s1-m_beta
codeforces-cots
CodeForces-CoTs 是一个大规模数据集,用于在竞争性编程任务中训练推理模型。它由 10k 个 CodeForces 问题组成,最多 4 个 DeepSeek R1 生成的推理跟踪。
数据集链接:
https://modelscope.cn/datasets/open-r1/codeforces-cots
03.精选应用
CSM-1b
体验直达:
https://www.modelscope.cn/studios/sesameAILabs/csm-1b
ImageCaculate
体验直达:
https://modelscope.cn/studios/crwsr124/ImageCaculate
MelQCD
体验直达:
https://modelscope.cn/studios/iic/MelQCD
模型费用计算器
体验直达:
https://modelscope.cn/studios/h2000c820y/Model_Cost_Calculator
04.社区精选文章
- 有效的思考:模型思考效率评测
- 驱动“超真人”虚拟助手Maya的实时语音对话模型CSM-1b开源!
- 10分钟评测实验,鉴别大模型是真智能or伪学霸
- 线上共学 | Mac本地玩转大模型
- QwQ-32B,支持Function Call的推理模型,深度思考Agent的时代来了!
- R1-Omni开源!多模态模型+RLVR,让各模态作用清晰可见
- 今日热门论文推荐:Seedream、LMM-R1、YuE、Gemini Embedding
- 今日热门论文推荐:CoSTAast、Transformers without Normalization、VisualPRM
- 今日热门论文推荐:MM-Eureka、FedRand、EasyControl、FEA-Bench、SurveyForge
- 今日热门论文推荐:EuroBERT、S2S-Arena、R1-Searcher
- 解读 | 金融长上下文基准测试FailSafeQA:解锁金融领域LLM真实的审慎性和容错性
- 20万悬赏AI美妆!欧莱雅美妆科技黑客松2025重磅来袭
- “同西游,见万相” 主题LoRA风格挑战赛来袭!万元奖金池+猫超卡+限定周边来赢!