初次体验魔搭,问题一堆堆

简介: 问题不少,可以提升的空间还很大

新注册了Modelscope的测试环境,主要目的是体验新发布的Qwen2模型,结果遇到了一堆问题:
1) Cuda out of memory的错误经常出现

粘贴GPT的回复如下:
模型大小和显存占用:
虽然模型文件大小为 16GB,但加载到显存中会有额外开销,例如中间激活值、优化器状态等。当前显存占用已经达到了 20.7GB(大部分是从大池分配),接近 24GB 显存的上限。
显存碎片化:

非可释放内存(约 174.5 MiB)表明显存可能存在碎片化问题,导致无法分配连续的大块内存。
分配和释放频率:

总分配量和总释放量很高,表明显存分配和释放操作频繁。这可能导致内存碎片化和管理开销增加。

尝试执行了torch.cuda.empty_cache()也不管用,重启kernel也不管用,
只能关掉NoteBook实例重新加载,但是错误依然会出现。

2) 评测了一下文本生成视频的模型,发现语义理解能力相当差,只有例子中带的熊猫吃竹子的视频
基本靠谱,换成其他输入,例如:两只鸭子正在小池塘里安静的游动,生成的视频完全不着边际。。。

3) 司南评测里随便选了几个模型进行对比评测,发现code能力和GPT差的不是一星半点,最后只好放弃。

相关文章
|
Ubuntu 测试技术 Python
软件测试/测试开发|Ubuntu虚拟机打不开Ubuntu software
软件测试/测试开发|Ubuntu虚拟机打不开Ubuntu software
【重要公告】关于云大使返佣规则升级及过渡期安排的说明
阿里云将于2026年5月1日启用新版云大使推广奖励规则。存量客户返佣仍按原规则执行至关联有效期结束;新旧规则差额将于9月1日前统一补发至账户。详情及咨询请访问官网或添加官方钉钉号。
|
9月前
|
网络协议 网络安全 API
C# 与三菱FX5U PLC通讯交互指南
C# 与三菱FX5U PLC通讯交互指南
3008 121
|
4月前
|
存储 人工智能 资源调度
迈向AI4S 2.0,上海AI实验室开源书生1T Moe 科学大模型Intern-S1-Pro!
2月4日,上海AI实验室开源万亿参数科学多模态大模型Intern-S1-Pro,全球开源社区中规模最大的AI4S模型。基于SAGE“通专融合”架构与MoE设计,融合傅里叶位置编码与创新路由机制,科学推理达奥赛金牌水平,综合能力稳居国际第一梯队,赋能AGI for Science范式革命。(239字)
517 4
|
JSON 人工智能 API
云上玩转DeepSeek系列之四:DeepSeek R1 蒸馏和微调训练最佳实践
本文将为您带来“DeepSeek R1+Qwen 大模型蒸馏和微调训练”最佳实践。阿里云 PAI 平台提供了围绕 DeepSeek 模型的最佳实践,涵盖快速部署、应用搭建、蒸馏和微调等环节,帮助开发者高效利用计算资源,使用 Model Gallery 功能,轻松完成部署与微调任务。
|
10月前
|
Shell 测试技术 API
Claude Code 官方内部团队最佳实践!
Immerse,独立开发者、内容创作者、AGI实践者,分享编程、AI、开源等内容。关注公众号“沉浸式趣谈”及个人网站获取更新。欢迎点赞、评论、转发支持!本文介绍Claude Code——智能编程命令行工具及其使用技巧。
7942 0
|
人工智能 自然语言处理 程序员
无编程经验小白如何玩转通义灵码 AI 程序员,让写代码像聊天一样简单
没有编程经验的小白如何玩转通义灵码 AI 程序员,让写代码像聊天一样简单
3908 24
|
存储 人工智能 关系型数据库
10个行锁、死锁案例⭐️24张加锁分析图🚀彻底搞懂Innodb行锁加锁规则!
10个行锁、死锁案例⭐️24张加锁分析图🚀彻底搞懂Innodb行锁加锁规则!

热门文章

最新文章