初次体验魔搭,问题一堆堆

简介: 问题不少,可以提升的空间还很大

新注册了Modelscope的测试环境,主要目的是体验新发布的Qwen2模型,结果遇到了一堆问题:
1) Cuda out of memory的错误经常出现

粘贴GPT的回复如下:
模型大小和显存占用:
虽然模型文件大小为 16GB,但加载到显存中会有额外开销,例如中间激活值、优化器状态等。当前显存占用已经达到了 20.7GB(大部分是从大池分配),接近 24GB 显存的上限。
显存碎片化:

非可释放内存(约 174.5 MiB)表明显存可能存在碎片化问题,导致无法分配连续的大块内存。
分配和释放频率:

总分配量和总释放量很高,表明显存分配和释放操作频繁。这可能导致内存碎片化和管理开销增加。

尝试执行了torch.cuda.empty_cache()也不管用,重启kernel也不管用,
只能关掉NoteBook实例重新加载,但是错误依然会出现。

2) 评测了一下文本生成视频的模型,发现语义理解能力相当差,只有例子中带的熊猫吃竹子的视频
基本靠谱,换成其他输入,例如:两只鸭子正在小池塘里安静的游动,生成的视频完全不着边际。。。

3) 司南评测里随便选了几个模型进行对比评测,发现code能力和GPT差的不是一星半点,最后只好放弃。

相关文章
|
XML Java 数据库连接
了解Spring框架
1.了解Spring框架 2.了解Spring的体系结构 3.认识Spring家族 4.实现第一个Spring入门程序
438 0
|
人工智能 达摩院 Linux
如何使用ModelScope魔搭开源代码训练一款语音合成模型
如何使用ModelScope魔搭开源代码训练一款语音合成模型
1848 0
|
JSON 人工智能 API
云上玩转DeepSeek系列之四:DeepSeek R1 蒸馏和微调训练最佳实践
本文将为您带来“DeepSeek R1+Qwen 大模型蒸馏和微调训练”最佳实践。阿里云 PAI 平台提供了围绕 DeepSeek 模型的最佳实践,涵盖快速部署、应用搭建、蒸馏和微调等环节,帮助开发者高效利用计算资源,使用 Model Gallery 功能,轻松完成部署与微调任务。
|
7月前
|
网络协议 网络安全 API
C# 与三菱FX5U PLC通讯交互指南
C# 与三菱FX5U PLC通讯交互指南
2558 121
|
传感器 监控 安全
网络安全:IPS和IDS有啥区别?
【10月更文挑战第15天】
1163 0
网络安全:IPS和IDS有啥区别?
|
运维 监控 安全
IDS 和 IPS 日志监控的重要性
本文介绍了入侵检测系统(IDS)与入侵防御系统(IPS)在企业网络安全中的重要作用及区别。IDS通过监控网络流量、识别异常活动并生成警报,采用异常检测和签名检测等方法保障安全;而IPS作为自动化设备,主动分析流量并阻止恶意攻击,同时重新配置防火墙以增强防护能力。两者协同工作可实时抵御威胁,并通过日志记录和分析优化安全策略。此外,卓豪EventLog Analyzer能有效监控和分析IDS/IPS日志,助力企业精准识别复杂威胁,提升整体网络安全水平。
277 0
|
XML Java 数据库
实现web页面局部动态刷新
 在浏览网页时,有时往往因为查看局部信息,而导致整个网页都需要从服务器端重新加载一次。在传统的web实现方式中,实现类似的效果必须进行整个页面的刷新。
1315 0
|
Python
pycharm如何设置python版本、设置国内pip镜像、添加第三方类库
直接上图(mac环境): 一、设置项目的python版本 File->Default Settings ... 在弹出的界面上(参考下图),左上角的下拉框里,选择python解释器的版本即可(建议:直接安装anaconda,这个已经集成了很多第三方的类库)     二、添加第三方类库...
2272 0
pycharm如何设置python版本、设置国内pip镜像、添加第三方类库
|
安全 Java 程序员
shiro学习三:shiro的源码分析
这篇文章是关于Apache Shiro安全框架的源码分析,主要探讨了Shiro的认证流程和自定义Realm的实现细节。
322 0
shiro学习三:shiro的源码分析
|
机器学习/深度学习 算法 PyTorch
PyTorch使用Tricks:学习率衰减 !!
PyTorch使用Tricks:学习率衰减 !!
629 1

热门文章

最新文章