文档备案控制台

开发者社区 ModelScope模型即服务文章正文

初次体验魔搭，问题一堆堆

2024-06-09 371

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 问题不少，可以提升的空间还很大

新注册了Modelscope的测试环境，主要目的是体验新发布的Qwen2模型，结果遇到了一堆问题:
1) Cuda out of memory的错误经常出现

粘贴GPT的回复如下:
模型大小和显存占用：
虽然模型文件大小为 16GB，但加载到显存中会有额外开销，例如中间激活值、优化器状态等。当前显存占用已经达到了 20.7GB（大部分是从大池分配），接近 24GB 显存的上限。
显存碎片化：

非可释放内存（约 174.5 MiB）表明显存可能存在碎片化问题，导致无法分配连续的大块内存。
分配和释放频率：

总分配量和总释放量很高，表明显存分配和释放操作频繁。这可能导致内存碎片化和管理开销增加。

尝试执行了torch.cuda.empty_cache()也不管用，重启kernel也不管用，
只能关掉NoteBook实例重新加载，但是错误依然会出现。

2）评测了一下文本生成视频的模型，发现语义理解能力相当差，只有例子中带的熊猫吃竹子的视频
基本靠谱，换成其他输入，例如:两只鸭子正在小池塘里安静的游动，生成的视频完全不着边际。。。

3) 司南评测里随便选了几个模型进行对比评测，发现code能力和GPT差的不是一星半点，最后只好放弃。

文章标签：

测试技术

自然语言处理

并行计算

大模型痛并快乐着

目录

相关文章

霍格沃兹测试开发muller老师

|

Ubuntu 测试技术 Python

软件测试/测试开发|Ubuntu虚拟机打不开Ubuntu software

软件测试/测试开发|Ubuntu虚拟机打不开Ubuntu software

霍格沃兹测试开发muller老师

1156 0 0

阿里云大使助手

|

2月前

【重要公告】关于云大使返佣规则升级及过渡期安排的说明

阿里云将于2026年5月1日启用新版云大使推广奖励规则。存量客户返佣仍按原规则执行至关联有效期结束；新旧规则差额将于9月1日前统一补发至账户。详情及咨询请访问官网或添加官方钉钉号。

阿里云大使助手

608 1 2

哈你真皮

|

9月前

|

网络协议网络安全 API

C# 与三菱FX5U PLC通讯交互指南

C# 与三菱FX5U PLC通讯交互指南

哈你真皮

3008 121 122

modelscope

|

4月前

|

存储人工智能资源调度

迈向AI4S 2.0，上海AI实验室开源书生1T Moe 科学大模型Intern-S1-Pro！

2月4日，上海AI实验室开源万亿参数科学多模态大模型Intern-S1-Pro，全球开源社区中规模最大的AI4S模型。基于SAGE“通专融合”架构与MoE设计，融合傅里叶位置编码与创新路由机制，科学推理达奥赛金牌水平，综合能力稳居国际第一梯队，赋能AGI for Science范式革命。（239字）

modelscope

517 4 4

阿里云大数据Al技术

|

JSON 人工智能 API

云上玩转DeepSeek系列之四：DeepSeek R1 蒸馏和微调训练最佳实践

本文将为您带来“DeepSeek R1+Qwen 大模型蒸馏和微调训练”最佳实践。阿里云 PAI 平台提供了围绕 DeepSeek 模型的最佳实践，涵盖快速部署、应用搭建、蒸馏和微调等环节，帮助开发者高效利用计算资源，使用 Model Gallery 功能，轻松完成部署与微调任务。

阿里云大数据Al技术

1599 8 9

Immerse

|

10月前

|

Shell 测试技术 API

Claude Code 官方内部团队最佳实践！

Immerse，独立开发者、内容创作者、AGI实践者，分享编程、AI、开源等内容。关注公众号“沉浸式趣谈”及个人网站获取更新。欢迎点赞、评论、转发支持！本文介绍Claude Code——智能编程命令行工具及其使用技巧。

Immerse

7942 0 1

fulwoder88

|

人工智能自然语言处理程序员

无编程经验小白如何玩转通义灵码 AI 程序员，让写代码像聊天一样简单

没有编程经验的小白如何玩转通义灵码 AI 程序员，让写代码像聊天一样简单

fulwoder88

3908 24 24

菜菜的后端私房菜

|

存储人工智能关系型数据库

10个行锁、死锁案例⭐️24张加锁分析图🚀彻底搞懂Innodb行锁加锁规则！

10个行锁、死锁案例⭐️24张加锁分析图🚀彻底搞懂Innodb行锁加锁规则！

菜菜的后端私房菜

661 6 8

ModelScope模型即服务

热门文章

最新文章

中企投资印度新能源“有戏”吗？

高效部署通义万相Wan2.1：ComfyUI文生/图生视频实战，工作流直取！

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

嵌入式开发必备！Keil uVision5 C51 V9.61 安装激活 + 汉化完整教程, 含（Keil MDK 5.39）

DeepSeek-V4开源：百万上下文，Agent能力比肩顶级闭源模型

美团开源发布 LongCat-Flash-Chat：专为高效智能体任务设计，推理速度超100 tokens/s

在 AMD ROCm DSW 上跑通 DeepSeek-V4-Flash：vLLM 兼容部署、长上下文验证与 8K 性能扫参

MNN-LLM App：在手机上离线运行大模型，阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用

LTX-2.3开源：视频生成引擎级升级

docker安装部署FunASR

书尖AI携手阿里云云端算力，打造智能阅读与轻量化学习新体验

可计算元认知文本分析：跨领域语义漂移的多层解释框架与实证研究

🔥【零基础逆袭】我用Python写了个量化策略，3天赚了别人3年的钱！（附完整代码+教程）

ChatGPT 怎么导出 Word？保留公式、表格和代码块的实用流程

语义压缩，才是提示词工程的底层心法

别再让 AI 自动总结 Skill 了！

AI Agent 接入股票数据时，为什么要先设计数据工具层

别再让 AI 自动总结 Skill 了！

自变量开源Wall-OSS-0.5：预训练即可部署的具身智能大模型，17个零样本任务验证泛化能力

阶跃开源 Step 3.7 Flash：面向生产级 Agent 的高效率 Flash 模型

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云正式发布 Agentic 代码安全：AI驱动的双Agent协同引擎