魔搭社区模型速递(3.16-3.22)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 魔搭ModelScope本期社区进展:📟1177个模型,📁216个数据集,416个创新应用,📄 11篇内容

🙋魔搭ModelScope本期社区进展:

📟1177个模型:MiniMax-VL-01、Step-Video-T2V、Skywork-R1V-38B、Hunyuan3D-2mv等;

📁216个数据集:OpenManus-RL、ArabicMMLU、TimeTravel等;

🎨416个创新应用:Qwen2.5-Omni-Demo、MiniMax-VL-01、AI故事随心绘-AnyStory等;

📄 11篇内容:

  • 不写一行代码,用MCP+魔搭API-Inference 搭建一个本地数据助手! 附所有工具和清单
  • 阶跃星辰开源Step-Video-TI2V 图生视频模型介绍
  • RWKV-7革新序列建模,Impossible Videos探索超现实,Creation-
  • Gemma3:Google开源多模态神器,轻量高效,精通140+语言,解锁文本与图像任务
  • MiniMax开源超长文本处理神器,魔搭社区助力开发者推理部署
  • ModelScope魔搭25年3月发布月报
  • 今日论文推荐:DeepMesh、TULIP、Cube、STEVE及LEGION
  • MMBench点燃创意火花: 今日论文
  • 今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
  • 上周多模态论文推荐:R1-Omni、VisualPRM、4D LangSplat、Vision-R1、GoT
  • 今日热门论文推荐:多模态CoT综述、BlobCtrl、Being-0、DreamRenderer、WideRange4D 等

01.精选模型

MiniMax-VL-01

MiniMax团队推出MiniMax-VL-01模型,采用创新的线性注意力架构,使得模型能够在100万个token长度的上下文窗口上进行预训练;而在推理时,实现了高效处理全球最长400万token的上下文,是目前最长上下文窗口的20倍。

模型地址:

https://modelscope.cn/models/MiniMax/MiniMax-VL-01

示例代码:

使用MS-Swift对MiniMax-01模型推理

环境准备:

pip install optimum-quanto
pip install git+https://github.com/modelscope/ms-swift.git

使用swift对MiniMax-Text-01进行推理:

from swift.llm import PtEngine, RequestConfig, InferRequest
from transformers import QuantoConfig
model = 'MiniMax/MiniMax-Text-01'
# 加载推理引擎
quantization_config = QuantoConfig(weights='int8')
engine = PtEngine(model, max_batch_size=2, quantization_config=quantization_config)
request_config = RequestConfig(max_tokens=512, temperature=0)
# 这里使用了2个infer_request来展示batch推理
infer_requests = [
    InferRequest(messages=[
        {"role": "system", "content": "You are a helpful assistant created by MiniMax based on MiniMax-Text-01 model."},
        {'role': 'user', 'content': 'who are you?'}]),
    InferRequest(messages=[
        {'role': 'user', 'content': '浙江的省会在哪?'},
        {'role': 'assistant', 'content': '浙江省的省会是杭州。'},
        {'role': 'user', 'content': '这里有什么好玩的地方'}]),
]
resp_list = engine.infer(infer_requests, request_config)
query0 = infer_requests[0].messages[0]['content']
print(f'response0: {resp_list[0].choices[0].message.content}')
print(f'response1: {resp_list[1].choices[0].message.content}')

使用swift对MiniMax-VL-01进行推理:

from swift.llm import PtEngine, RequestConfig, InferRequest
from transformers import QuantoConfig
model = 'MiniMax/MiniMax-VL-01'
# 加载推理引擎
quantization_config = QuantoConfig(weights='int8')
engine = PtEngine(model, max_batch_size=2, quantization_config=quantization_config)
request_config = RequestConfig(max_tokens=512, temperature=0, stream=True)
query = '<image><image>两张图的区别是什么?'
infer_requests = [
    InferRequest(messages=[{'role': 'user', 'content': query}],
                 images=['http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/cat.png',
'http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/animal.png']),
]
# 流式推理
gen_list = engine.infer(infer_requests, request_config)
print(f'query: {query}\nresponse: ', end='')
for resp in gen_list[0]:
if resp is None:
continue
    print(resp.choices[0].delta.content, end='', flush=True)
print()

更多部署实战详见:

MiniMax开源超长文本处理神器,魔搭社区助力开发者推理部署

Step-Video-T2V

阶跃星辰开源图生视频模型Step-Video-TI2V,基于 30B 参数Step-Video-T2V训练的图生视频模型,支持生成 102 帧、5 秒、540P 分辨率的视频,具备运动幅度可控和镜头运动可控两大核心特点,能平衡视频动态性与稳定性,且天生具备特效生成能力,在动漫类任务上效果尤佳,支持多尺寸生成,满足不同创作需求。

模型链接:

https://modelscope.cn/models/stepfun-ai/stepvideo-t2v

示例代码:

1、下载模型权重

#从modelscop下载stepvideo-ti2v模型
from modelscope import snapshot_download
# local_dir 指定下载路径
model_dir = snapshot_download('stepfun-ai/stepvideo-ti2v',local_dir='models/stepvideo/stepvideo-ti2v')

2、从github中下载推理代码,安装所需环境

git clone https://github.com/stepfun-ai/Step-Video-TI2V.git
conda create -n stepvideo python=3.10
conda activate stepvideo
cd StepFun-StepVideo
pip install -e .

3、在推理的时候对文本编码器、VAE解码和DiT采用了解耦策,先在本地启动一个api服务,在一个单独的GPU上加载文本编码器和VAE解码器,默认会使用机器上编号最后一个GPU。启动之后得到一个url,后续的文本编码和VAE解码会发到这个url 进行处理

# model_dir 是上面模型下载的路径
python api/call_remote_server.py --model_dir models/stepvideo/stepvideo-ti2v &

4、采用多卡并行生成视频,在一个sh脚本定义参数和运行命令,通过运行sh脚本进行视频生成。

parallel=4  # 使用多少张卡进行推理
url='127.0.0.1' # 上面启动编码器和VAE解码器服务的url,默认是‘127.0.0.1’
model_dir=models/stepvideo/stepvideo-ti2v # 模型路径
torchrun --nproc_per_node $parallel run_parallel.py \
    --model_dir $model_dir \
    --vae_url $url \
    --caption_url $url  \
    --ulysses_degree  $parallel \
    --prompt "女孩头发在飘荡" \  # 生成视频的 prompt
    --first_image_path ./assets/girl.jpg \ # 参考图片的路径
    --infer_steps 50 \
    --save_path ./results \  # 保存视频路径
    --cfg_scale 9.0 \
    --motion_score 5.0 \
    --time_shift 12.573

Skywork-R1V-38B

Skywork-R1V-38B 是一款基于 InternViT-6B 和 DeepSeek-R1-Distill-Qwen-32B 的多模态语言模型,具备视觉链式思考、数学与科学分析等能力,在多项基准测试中表现优异,推理能力突出。

模型地址:

https://modelscope.cn/models/Skywork/Skywork-R1V-38B

02.数据集推荐

OpenManus-RL

OpenManus-RL 是通过强化学习技术提升大型语言模型(LLM)智能体的推理与决策能力,支持智能体环境搭建、轨迹数据收集、强化学习调优等功能,并集成了多种基准测试环境。

数据集链接:

https://modelscope.cn/datasets/AI-ModelScope/OpenManus-RL

ArabicMMLU

ArabicMMLU 是一个用于评估阿拉伯语多模态语言模型的性能,特别是在阿拉伯语知识问答和理解任务中的表现。

数据集链接:

https://modelscope.cn/datasets/MBZUAI/ArabicMMLU

TimeTravel

TimeTravel 是第一个大规模开源基准测试,旨在评估历史和文化文物的大型多模态模型 (LMM)。它涵盖:

  • 10个历史地区的266个文化团体
  • 10,000+ 件经过专家验证的文物样本
  • 用于人工智能驱动的历史研究的多模态图像文本数据集
  • 一个公开的数据集和评估框架,以推进人工智能在历史和考古学中的应用。

数据集链接:

https://modelscope.cn/datasets/MBZUAI/TimeTravel

03.精选应用

Qwen2.5-Omni-Demo

体验直达:

https://modelscope.cn/studios/QwQ/Qwen2.5-Omni-Demo

MiniMax-VL-01

体验直达:

https://modelscope.cn/studios/MiniMax/MiniMax-VL-01

AI故事随心绘-AnyStory

体验直达:

https://www.modelscope.cn/studios/iic/AnyStory/summary

04.社区精选文章


目录
相关文章
|
11天前
|
人工智能 自动驾驶 数据可视化
魔搭社区模型速递(3.30-4.12)
魔搭ModelScope本期社区进展:新增1911个模型,297个数据集,113个创新应用, 10篇内容。
103 3
魔搭社区模型速递(3.30-4.12)
|
25天前
|
机器学习/深度学习 人工智能 前端开发
魔搭社区模型速递(3.23-3.29)
🙋魔搭ModelScope本期社区进展:619个模型,93个数据集,151个创新应用,7篇内容。
83 4
魔搭社区模型速递(3.23-3.29)
|
1月前
|
机器学习/深度学习 人工智能 安全
魔搭社区模型速递(3.9-3.15)
魔搭ModelScope本期社区进展:1066个模型,153个数据集,125个创新应用,13篇内容
97 1
|
1月前
|
机器学习/深度学习 编解码 人工智能
魔搭社区模型速递(3.2-3.8)
🙋魔搭ModelScope本期社区进展:1340个模型,220个数据集,🎨91个创新应用,📄 8篇内容
157 9
|
1月前
|
人工智能 自然语言处理 开发者
魔搭社区模型速递(2.16-3.1)
🙋魔搭ModelScope本期社区进展:📟2621个模型,Ovis2系列模型等,📁276个数据集,🎨203个创新应用,📄 12篇技术内容
154 2
|
2月前
|
机器学习/深度学习 人工智能 JSON
魔搭社区模型速递(1.19-2.15)
魔搭社区模型速递(1.19-2.15)
103 2
|
3月前
|
数据采集 人工智能 自然语言处理
魔搭社区每周速递(1.5-1.18)
🙋魔搭ModelScope本期社区进展:新增3239个模型,711个数据集,192个创新应用, 16篇内容
278 11
|
8月前
|
人工智能 自然语言处理 文字识别
魔搭社区每周速递(8.18-8.24)
176个模型、35个数据集、85个创新应用、5篇应用文章
|
3月前
|
机器学习/深度学习 人工智能 文字识别
魔搭社区每周速递(12.29-1.4)
魔搭ModelScope本期社区进展:828个模型,72个数据集,61个创新应用,9篇内容
170 10
|
9月前
|
机器学习/深度学习 人工智能 自然语言处理
魔搭社区每周速递(7.20-7.26)
174个模型、44个数据集、70个创新应用、5篇应用文章

热门文章

最新文章

下一篇
oss创建bucket