备案控制台

开发者社区 ModelScope模型即服务计算机视觉正文

ModelScope中在lora微调时max length超出原本模型长度比如2048,还可以继续么

ModelScope中在lora微调时max length如果超出原本模型的长度比如2048,还可以继续训练上下文学习吗？另外就是感觉长度如果想提高到8k左右，是不是要用原本预训练长度就比较长的模型呢，而不是常规的2/4k模型？还有就是长度越长显存占用提升的还挺快的，但是听说一些模型是100k的，不知道微调的时候怎么能占用显存随长度增加再慢点呢，希望能接受更长上下文

展开

收起

超爱吃辣 2023-09-27 21:17:57 329 版权

1 条回答

写回答

取消提交回答

多麻辣哦

你试试开 gradient checkpointing 会好些100k是attention有特殊优化的，是模型结构的原因一般会有性能损失大多数的模型都是支持8192的，你可以微调的时候把这个max length调大点——此回答整理自钉群：魔搭ModelScope开发者联盟群 ①

2023-09-27 22:56:57

赞同展开评论

相关问答

modelscope-funasr微调时日志结果没有cer_att指标

57

0

0

ModelScope我试着用swift 微调后微调的模型都失去逻辑怎么办？

219

1

0

ModelScope微调之后没有效果是数据集太少了吗？

230

1

0

modelscope-funasr在微调的时候怎么没有计算字符错误率的指标？

238

1

0

modelscope中，swift支持57b-14b混合专家的微调吗？

114

1

0

请问ModelScope的megatron微调支持使用lora吗？

190

0

0

在不微调ModelScope模型的前提下，有啥优化的方法吗？

95

1

0

使用lora微调qwen-vl模型之后，输出的ModelScope全是乱码，这是什么情况？

576

1

0

在ModelScope模型微调后立马进行模型合并，有这样的功能么？

160

1

0

modelscope-funasr做微调的finetune.sh里train的详细参数说明在哪里？

345

0

0

ModelScope模型即服务

计算机视觉

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

我要提问

相关文章

线下引流与数据资产化核心智能设备深度解析

语音通知

基于springboot的快递仓储管理系统

RISC-V 的逆袭：当开源芯片从“野路子”变成未来主流

RISC-V 的逆袭：当开源芯片从“野路子”变成未来主流

热门讨论

热门文章

我希望通过damo-YOLO训练1500*1500的图片

ModelScope中，模型下载默认路径在哪个路径？

ModelScope下载速度慢怎么解决？

如何下载modelscope模型？

com/action/joingroup?code=v1是什么意思

modelscope这个下载有点慢呀，好几次都超时了，怎么解决？

在ModelScope中，请问模型下载到本地的具体方法？

ModelScope有没有人知道windows安装ttsfrd的方法或者ttsfrd源码？

服务器上onnxruntime-gpu 调用结束，如何释放显存

ModelScope魔搭上的可以直接调用api用吗？

展开全部

Qwen2.5-VL：阿里通义千问最新开源视觉语言模型，能够理解超过1小时的长视频

RF-DETR：YOLO霸主地位不保？开源 SOTA 实时目标检测模型，比眨眼还快3倍！

video-analyzer：开源视频分析工具，支持提取视频关键帧、音频转录，自动生成视频详细描述

PSHuman：开源单图像3D人像重建技术，一张照片就能生成3D人像模型

STAR：南京大学联合字节开源视频超分辨率增强生成框架，视频清晰度一键提升，支持从低分辨率视频生成高分辨率视频

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

InvSR：开源图像超分辨率生成模型，提升分辨率，修复老旧照片为超清图像

Manga Image Translator：开源的漫画文字翻译工具，支持多语言翻译并嵌入原图，保持漫画的原始风格和布局

UI-TARS：字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

展开全部

还有其他疑问?