魔搭社区模型速递(3.16-3.22)

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 魔搭ModelScope本期社区进展:📟1177个模型,📁216个数据集,416个创新应用,📄 11篇内容

🙋魔搭ModelScope本期社区进展:

📟1177个模型:MiniMax-VL-01、Step-Video-T2V、Skywork-R1V-38B、Hunyuan3D-2mv等;

📁216个数据集:OpenManus-RL、ArabicMMLU、TimeTravel等;

🎨416个创新应用:Qwen2.5-Omni-Demo、MiniMax-VL-01、AI故事随心绘-AnyStory等;

📄 11篇内容:

  • 不写一行代码,用MCP+魔搭API-Inference 搭建一个本地数据助手! 附所有工具和清单
  • 阶跃星辰开源Step-Video-TI2V 图生视频模型介绍
  • RWKV-7革新序列建模,Impossible Videos探索超现实,Creation-
  • Gemma3:Google开源多模态神器,轻量高效,精通140+语言,解锁文本与图像任务
  • MiniMax开源超长文本处理神器,魔搭社区助力开发者推理部署
  • ModelScope魔搭25年3月发布月报
  • 今日论文推荐:DeepMesh、TULIP、Cube、STEVE及LEGION
  • MMBench点燃创意火花: 今日论文
  • 今日AI论文推荐:ReCamMaster、PLADIS、SmolDocling、FlowTok
  • 上周多模态论文推荐:R1-Omni、VisualPRM、4D LangSplat、Vision-R1、GoT
  • 今日热门论文推荐:多模态CoT综述、BlobCtrl、Being-0、DreamRenderer、WideRange4D 等

01.精选模型

MiniMax-VL-01

MiniMax团队推出MiniMax-VL-01模型,采用创新的线性注意力架构,使得模型能够在100万个token长度的上下文窗口上进行预训练;而在推理时,实现了高效处理全球最长400万token的上下文,是目前最长上下文窗口的20倍。

模型地址:

https://modelscope.cn/models/MiniMax/MiniMax-VL-01

示例代码:

使用MS-Swift对MiniMax-01模型推理

环境准备:

pip install optimum-quanto
pip install git+https://github.com/modelscope/ms-swift.git

使用swift对MiniMax-Text-01进行推理:

from swift.llm import PtEngine, RequestConfig, InferRequest
from transformers import QuantoConfig
model = 'MiniMax/MiniMax-Text-01'
# 加载推理引擎
quantization_config = QuantoConfig(weights='int8')
engine = PtEngine(model, max_batch_size=2, quantization_config=quantization_config)
request_config = RequestConfig(max_tokens=512, temperature=0)
# 这里使用了2个infer_request来展示batch推理
infer_requests = [
    InferRequest(messages=[
        {"role": "system", "content": "You are a helpful assistant created by MiniMax based on MiniMax-Text-01 model."},
        {'role': 'user', 'content': 'who are you?'}]),
    InferRequest(messages=[
        {'role': 'user', 'content': '浙江的省会在哪?'},
        {'role': 'assistant', 'content': '浙江省的省会是杭州。'},
        {'role': 'user', 'content': '这里有什么好玩的地方'}]),
]
resp_list = engine.infer(infer_requests, request_config)
query0 = infer_requests[0].messages[0]['content']
print(f'response0: {resp_list[0].choices[0].message.content}')
print(f'response1: {resp_list[1].choices[0].message.content}')

使用swift对MiniMax-VL-01进行推理:

from swift.llm import PtEngine, RequestConfig, InferRequest
from transformers import QuantoConfig
model = 'MiniMax/MiniMax-VL-01'
# 加载推理引擎
quantization_config = QuantoConfig(weights='int8')
engine = PtEngine(model, max_batch_size=2, quantization_config=quantization_config)
request_config = RequestConfig(max_tokens=512, temperature=0, stream=True)
query = '<image><image>两张图的区别是什么?'
infer_requests = [
    InferRequest(messages=[{'role': 'user', 'content': query}],
                 images=['http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/cat.png',
'http://modelscope-open.oss-cn-hangzhou.aliyuncs.com/images/animal.png']),
]
# 流式推理
gen_list = engine.infer(infer_requests, request_config)
print(f'query: {query}\nresponse: ', end='')
for resp in gen_list[0]:
if resp is None:
continue
    print(resp.choices[0].delta.content, end='', flush=True)
print()

更多部署实战详见:

MiniMax开源超长文本处理神器,魔搭社区助力开发者推理部署

Step-Video-T2V

阶跃星辰开源图生视频模型Step-Video-TI2V,基于 30B 参数Step-Video-T2V训练的图生视频模型,支持生成 102 帧、5 秒、540P 分辨率的视频,具备运动幅度可控和镜头运动可控两大核心特点,能平衡视频动态性与稳定性,且天生具备特效生成能力,在动漫类任务上效果尤佳,支持多尺寸生成,满足不同创作需求。

模型链接:

https://modelscope.cn/models/stepfun-ai/stepvideo-t2v

示例代码:

1、下载模型权重

#从modelscop下载stepvideo-ti2v模型
from modelscope import snapshot_download
# local_dir 指定下载路径
model_dir = snapshot_download('stepfun-ai/stepvideo-ti2v',local_dir='models/stepvideo/stepvideo-ti2v')

2、从github中下载推理代码,安装所需环境

git clone https://github.com/stepfun-ai/Step-Video-TI2V.git
conda create -n stepvideo python=3.10
conda activate stepvideo
cd StepFun-StepVideo
pip install -e .

3、在推理的时候对文本编码器、VAE解码和DiT采用了解耦策,先在本地启动一个api服务,在一个单独的GPU上加载文本编码器和VAE解码器,默认会使用机器上编号最后一个GPU。启动之后得到一个url,后续的文本编码和VAE解码会发到这个url 进行处理

# model_dir 是上面模型下载的路径
python api/call_remote_server.py --model_dir models/stepvideo/stepvideo-ti2v &

4、采用多卡并行生成视频,在一个sh脚本定义参数和运行命令,通过运行sh脚本进行视频生成。

parallel=4  # 使用多少张卡进行推理
url='127.0.0.1' # 上面启动编码器和VAE解码器服务的url,默认是‘127.0.0.1’
model_dir=models/stepvideo/stepvideo-ti2v # 模型路径
torchrun --nproc_per_node $parallel run_parallel.py \
    --model_dir $model_dir \
    --vae_url $url \
    --caption_url $url  \
    --ulysses_degree  $parallel \
    --prompt "女孩头发在飘荡" \  # 生成视频的 prompt
    --first_image_path ./assets/girl.jpg \ # 参考图片的路径
    --infer_steps 50 \
    --save_path ./results \  # 保存视频路径
    --cfg_scale 9.0 \
    --motion_score 5.0 \
    --time_shift 12.573

Skywork-R1V-38B

Skywork-R1V-38B 是一款基于 InternViT-6B 和 DeepSeek-R1-Distill-Qwen-32B 的多模态语言模型,具备视觉链式思考、数学与科学分析等能力,在多项基准测试中表现优异,推理能力突出。

模型地址:

https://modelscope.cn/models/Skywork/Skywork-R1V-38B

02.数据集推荐

OpenManus-RL

OpenManus-RL 是通过强化学习技术提升大型语言模型(LLM)智能体的推理与决策能力,支持智能体环境搭建、轨迹数据收集、强化学习调优等功能,并集成了多种基准测试环境。

数据集链接:

https://modelscope.cn/datasets/AI-ModelScope/OpenManus-RL

ArabicMMLU

ArabicMMLU 是一个用于评估阿拉伯语多模态语言模型的性能,特别是在阿拉伯语知识问答和理解任务中的表现。

数据集链接:

https://modelscope.cn/datasets/MBZUAI/ArabicMMLU

TimeTravel

TimeTravel 是第一个大规模开源基准测试,旨在评估历史和文化文物的大型多模态模型 (LMM)。它涵盖:

  • 10个历史地区的266个文化团体
  • 10,000+ 件经过专家验证的文物样本
  • 用于人工智能驱动的历史研究的多模态图像文本数据集
  • 一个公开的数据集和评估框架,以推进人工智能在历史和考古学中的应用。

数据集链接:

https://modelscope.cn/datasets/MBZUAI/TimeTravel

03.精选应用

Qwen2.5-Omni-Demo

体验直达:

https://modelscope.cn/studios/QwQ/Qwen2.5-Omni-Demo

MiniMax-VL-01

体验直达:

https://modelscope.cn/studios/MiniMax/MiniMax-VL-01

AI故事随心绘-AnyStory

体验直达:

https://www.modelscope.cn/studios/iic/AnyStory/summary

04.社区精选文章


目录
相关文章
|
7月前
|
人工智能 BI API
Dify-Plus:企业级AI管理核弹!开源方案吊打SaaS,额度+密钥+鉴权系统全面集成
Dify-Plus 是基于 Dify 二次开发的企业级增强版项目,新增用户额度、密钥管理、Web 登录鉴权等功能,优化权限管理,适合企业场景使用。
954 3
Dify-Plus:企业级AI管理核弹!开源方案吊打SaaS,额度+密钥+鉴权系统全面集成
|
7月前
|
人工智能 网络协议 Java
RuoYi AI:1人搞定AI中台!开源全栈式AI开发平台,快速集成大模型+RAG+支付等模块
RuoYi AI 是一个全栈式 AI 开发平台,支持本地 RAG 方案,集成多种大语言模型和多媒体功能,适合企业和个人开发者快速搭建个性化 AI 应用。
1636 77
RuoYi AI:1人搞定AI中台!开源全栈式AI开发平台,快速集成大模型+RAG+支付等模块
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
Reve Image:设计师失业警告!AI秒出海报级神图,排版自动搞定
Reve Image 是 Reve 推出的全新 AI 图像生成模型,专注于提升美学表现、精确的提示遵循能力以及出色的排版设计,能生成高质量的视觉作品。
445 29
Reve Image:设计师失业警告!AI秒出海报级神图,排版自动搞定
|
7月前
|
人工智能 自然语言处理 关系型数据库
不写一行代码,用MCP+魔搭API-Inference 搭建一个本地数据助手! 附所有工具和清单
还在为大模型开发的复杂技术栈、框架不兼容和工具调用问题头疼吗?MCP(Model Context Protocol servers)来拯救你了!它用统一的技术栈、兼容主流框架和简化工具调用的方式,让大模型开发变得简单高效。
1445 1
|
6月前
|
机器学习/深度学习 人工智能 计算机视觉
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
美图WHEE推出的Miracle F1采用扩散模型技术,通过精准语义理解和多风格生成能力,可产出具有真实光影质感的专业级图像作品。
242 5
AI图像质感还原堪比专业摄影!Miracle F1:美图WHEE全新AI图像生成模型,支持超写实与多风格生成
|
7月前
|
存储 人工智能 人机交互
Multi-Agent Orchestrator:亚马逊开源AI智能体自动协作黑科技!重构人机交互逻辑,1秒精准分配任务
Multi-Agent Orchestrator 是亚马逊开源的多智能体框架,能够动态分配代理、维护上下文、支持多种代理类型,适用于客户服务、智能交通、物流配送等复杂场景。
259 9
Multi-Agent Orchestrator:亚马逊开源AI智能体自动协作黑科技!重构人机交互逻辑,1秒精准分配任务
|
7月前
|
人工智能 边缘计算 自然语言处理
DistilQwen2.5-R1:蒸馏黑科技!32B推理能力塞进3B小模型,推理速度狂飙300%
阿里巴巴最新发布的DistilQwen2.5-R1系列模型通过知识蒸馏技术,在保持高性能的同时大幅降低计算资源需求,7B模型性能甚至可媲美32B大模型。
229 11
DistilQwen2.5-R1:蒸馏黑科技!32B推理能力塞进3B小模型,推理速度狂飙300%
|
7月前
|
人工智能 监控 JavaScript
Crack Coder:在线面试“AI外挂”!编程问题秒出答案,完全绕过屏幕监控,连录屏都抓不到痕迹!
Crack Coder 是一款开源的隐形 AI 辅助工具,专为技术面试设计,支持多种编程语言,提供实时编程问题解决方案,帮助面试者高效解决问题。
250 14
|
7月前
|
人工智能 监控 数据可视化
Manus再遭复刻!开源多智能体协作工具,实时查看每个AI员工的"脑回路"
LangManus 是一个基于分层多智能体系统的 AI 自动化框架,支持多种语言模型和工具集成,能够高效完成复杂任务,适用于人力资源、房产决策、旅行规划等多个场景。
765 0
|
7月前
|
人工智能 监控 数据可视化
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作
Agent TARS 是一款开源的多模态AI助手,能够通过视觉解析网页并无缝集成命令行和文件系统,帮助用户高效完成复杂任务。
3428 13
Agent TARS:一键让AI托管电脑!字节开源PC端多模态AI助手,无缝集成浏览器与系统操作

热门文章

最新文章