🙋魔搭ModelScope本期社区进展:
📟1177个模型:MiniMax-VL-01、Step-Video-T2V、Skywork-R1V-38B、Hunyuan3D-2mv等;
📁216个数据集:OpenManus-RL、ArabicMMLU、TimeTravel等;
🎨416个创新应用:Qwen2.5-Omni-Demo、MiniMax-VL-01、AI故事随心绘-AnyStory等;
📄 11篇内容:
- 不写一行代码,用MCP+魔搭API-Inference 搭建一个本地数据助手! 附所有工具和清单
- 阶跃星辰开源Step-Video-TI2V 图生视频模型介绍
- RWKV-7革新序列建模,Impossible Videos探索超现实,Creation-
- Gemma3:Google开源多模态神器,轻量高效,精通140+语言,解锁文本与图像任务
- MiniMax开源超长文本处理神器,魔搭社区助力开发者推理部署
- ModelScope魔搭25年3月发布月报
- 今日论文推荐:DeepMesh、TULIP、Cube、STEVE及LEGION
- MMBench点燃创意火花: 今日论文
- 今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
- 上周多模态论文推荐:R1-Omni、VisualPRM、4D LangSplat、Vision-R1、GoT
- 今日热门论文推荐:多模态CoT综述、BlobCtrl、Being-0、DreamRenderer、WideRange4D 等
01.精选模型
MiniMax-VL-01
MiniMax团队推出MiniMax-VL-01模型,采用创新的线性注意力架构,使得模型能够在100万个token长度的上下文窗口上进行预训练;而在推理时,实现了高效处理全球最长400万token的上下文,是目前最长上下文窗口的20倍。
模型地址:
https://modelscope.cn/models/MiniMax/MiniMax-VL-01
示例代码:
使用MS-Swift对MiniMax-01模型推理
环境准备:
pip install optimum-quanto pip install git+https://github.com/modelscope/ms-swift.git
使用swift对MiniMax-Text-01进行推理:
from swift.llm import PtEngine, RequestConfig, InferRequest from transformers import QuantoConfig model = 'MiniMax/MiniMax-Text-01' # 加载推理引擎 quantization_config = QuantoConfig(weights='int8') engine = PtEngine(model, max_batch_size=2, quantization_config=quantization_config) request_config = RequestConfig(max_tokens=512, temperature=0) # 这里使用了2个infer_request来展示batch推理 infer_requests = [ InferRequest(messages=[ {"role": "system", "content": "You are a helpful assistant created by MiniMax based on MiniMax-Text-01 model."}, {'role': 'user', 'content': 'who are you?'}]), InferRequest(messages=[ {'role': 'user', 'content': '浙江的省会在哪?'}, {'role': 'assistant', 'content': '浙江省的省会是杭州。'}, {'role': 'user', 'content': '这里有什么好玩的地方'}]), ] resp_list = engine.infer(infer_requests, request_config) query0 = infer_requests[0].messages[0]['content'] print(f'response0: {resp_list[0].choices[0].message.content}') print(f'response1: {resp_list[1].choices[0].message.content}')
使用swift对MiniMax-VL-01进行推理:
from swift.llm import PtEngine, RequestConfig, InferRequest from transformers import QuantoConfig model = 'MiniMax/MiniMax-VL-01' # 加载推理引擎 quantization_config = QuantoConfig(weights='int8') engine = PtEngine(model, max_batch_size=2, quantization_config=quantization_config) request_config = RequestConfig(max_tokens=512, temperature=0, stream=True) query = '<image><image>两张图的区别是什么?' infer_requests = [ InferRequest(messages=[{'role': 'user', 'content': query}], images=['http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/cat.png', 'http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/animal.png']), ] # 流式推理 gen_list = engine.infer(infer_requests, request_config) print(f'query: {query}\nresponse: ', end='') for resp in gen_list[0]: if resp is None: continue print(resp.choices[0].delta.content, end='', flush=True) print()
更多部署实战详见:
MiniMax开源超长文本处理神器,魔搭社区助力开发者推理部署
Step-Video-T2V
阶跃星辰开源图生视频模型Step-Video-TI2V,基于 30B 参数Step-Video-T2V训练的图生视频模型,支持生成 102 帧、5 秒、540P 分辨率的视频,具备运动幅度可控和镜头运动可控两大核心特点,能平衡视频动态性与稳定性,且天生具备特效生成能力,在动漫类任务上效果尤佳,支持多尺寸生成,满足不同创作需求。
模型链接:
https://modelscope.cn/models/stepfun-ai/stepvideo-t2v
示例代码:
1、下载模型权重
#从modelscop下载stepvideo-ti2v模型 from modelscope import snapshot_download # local_dir 指定下载路径 model_dir = snapshot_download('stepfun-ai/stepvideo-ti2v',local_dir='models/stepvideo/stepvideo-ti2v')
2、从github中下载推理代码,安装所需环境
git clone https://github.com/stepfun-ai/Step-Video-TI2V.git conda create -n stepvideo python=3.10 conda activate stepvideo cd StepFun-StepVideo pip install -e .
3、在推理的时候对文本编码器、VAE解码和DiT采用了解耦策,先在本地启动一个api服务,在一个单独的GPU上加载文本编码器和VAE解码器,默认会使用机器上编号最后一个GPU。启动之后得到一个url,后续的文本编码和VAE解码会发到这个url 进行处理
# model_dir 是上面模型下载的路径 python api/call_remote_server.py --model_dir models/stepvideo/stepvideo-ti2v &
4、采用多卡并行生成视频,在一个sh脚本定义参数和运行命令,通过运行sh脚本进行视频生成。
parallel=4 # 使用多少张卡进行推理 url='127.0.0.1' # 上面启动编码器和VAE解码器服务的url,默认是‘127.0.0.1’ model_dir=models/stepvideo/stepvideo-ti2v # 模型路径 torchrun --nproc_per_node $parallel run_parallel.py \ --model_dir $model_dir \ --vae_url $url \ --caption_url $url \ --ulysses_degree $parallel \ --prompt "女孩头发在飘荡" \ # 生成视频的 prompt --first_image_path ./assets/girl.jpg \ # 参考图片的路径 --infer_steps 50 \ --save_path ./results \ # 保存视频路径 --cfg_scale 9.0 \ --motion_score 5.0 \ --time_shift 12.573
Skywork-R1V-38B
Skywork-R1V-38B 是一款基于 InternViT-6B 和 DeepSeek-R1-Distill-Qwen-32B 的多模态语言模型,具备视觉链式思考、数学与科学分析等能力,在多项基准测试中表现优异,推理能力突出。
模型地址:
https://modelscope.cn/models/Skywork/Skywork-R1V-38B
02.数据集推荐
OpenManus-RL
OpenManus-RL 是通过强化学习技术提升大型语言模型(LLM)智能体的推理与决策能力,支持智能体环境搭建、轨迹数据收集、强化学习调优等功能,并集成了多种基准测试环境。
数据集链接:
https://modelscope.cn/datasets/AI-ModelScope/OpenManus-RL
ArabicMMLU
ArabicMMLU 是一个用于评估阿拉伯语多模态语言模型的性能,特别是在阿拉伯语知识问答和理解任务中的表现。
数据集链接:
https://modelscope.cn/datasets/MBZUAI/ArabicMMLU
TimeTravel
TimeTravel 是第一个大规模开源基准测试,旨在评估历史和文化文物的大型多模态模型 (LMM)。它涵盖:
- 10个历史地区的266个文化团体
- 10,000+ 件经过专家验证的文物样本
- 用于人工智能驱动的历史研究的多模态图像文本数据集
- 一个公开的数据集和评估框架,以推进人工智能在历史和考古学中的应用。
数据集链接:
https://modelscope.cn/datasets/MBZUAI/TimeTravel
03.精选应用
Qwen2.5-Omni-Demo
体验直达:
https://modelscope.cn/studios/QwQ/Qwen2.5-Omni-Demo
MiniMax-VL-01
体验直达:
https://modelscope.cn/studios/MiniMax/MiniMax-VL-01
AI故事随心绘-AnyStory
体验直达:
https://www.modelscope.cn/studios/iic/AnyStory/summary
04.社区精选文章
- 不写一行代码,用MCP+魔搭API-Inference 搭建一个本地数据助手! 附所有工具和清单
- 阶跃星辰开源Step-Video-TI2V 图生视频模型介绍
- RWKV-7革新序列建模,Impossible Videos探索超现实,Creation-
- Gemma3:Google开源多模态神器,轻量高效,精通140+语言,解锁文本与图像任务
- MiniMax开源超长文本处理神器,魔搭社区助力开发者推理部署
- ModelScope魔搭25年3月发布月报
- 今日论文推荐:DeepMesh、TULIP、Cube、STEVE及LEGION
- MMBench点燃创意火花: 今日论文
- 今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
- 上周多模态论文推荐:R1-Omni、VisualPRM、4D LangSplat、Vision-R1、GoT
- 今日热门论文推荐:多模态CoT综述、BlobCtrl、Being-0、DreamRenderer、WideRange4D 等