备案控制台

开发者社区 > ModelScope模型即服务 > 计算机视觉 > 正文

ModelScope中在lora微调时max length超出原本模型长度比如2048,还可以继续么

ModelScope中在lora微调时max length如果超出原本模型的长度比如2048,还可以继续训练上下文学习吗？另外就是感觉长度如果想提高到8k左右，是不是要用原本预训练长度就比较长的模型呢，而不是常规的2/4k模型？还有就是长度越长显存占用提升的还挺快的，但是听说一些模型是100k的，不知道微调的时候怎么能占用显存随长度增加再慢点呢，希望能接受更长上下文

展开

收起

超爱吃辣 2023-09-27 21:17:57 204 0

1 条回答

写回答

取消提交回答

多麻辣哦

你试试开 gradient checkpointing 会好些100k是attention有特殊优化的，是模型结构的原因一般会有性能损失大多数的模型都是支持8192的，你可以微调的时候把这个max length调大点——此回答整理自钉群：魔搭ModelScope开发者联盟群 ①

2023-09-27 22:56:57

赞同展开评论打赏

相关问答

modelscope-funasr的paraformer-streaming微调代码是咋实现流式？

52

0

0

有没有详细一些的微调modelscope-funasr上模型的教程（非大模型）？

43

0

0

ModelScope里我去微调模型，训练完成的模型会出现以下两种问题，怎么解决？

64

0

0

modelscope-funasr微调时候会出现loss为负的情况，怎么回事？

25

0

0

ModelScope中，florence2模型微调时，数据集格式是不是"query"？

45

1

0

ModelScope微调之后没有效果是数据集太少了吗？

35

1

0

为什么modelscope微调半天出不来东西要么就是一直再说同一句话？

25

1

0

请问ModelScope的megatron微调支持使用lora吗？

29

0

0

ModelScope中，想通过微调，对一些阿拉伯数字的特殊写法进行训练，训练方法能提供下指导吗？

39

1

0

使用lora微调qwen-vl模型之后，输出的ModelScope全是乱码，这是什么情况？

90

1

0

ModelScope模型即服务

计算机视觉

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

我要提问

热门讨论

热门文章

com/action/joingroup?code=v1是什么意思

ModelScope中，模型下载默认路径在哪个路径？

我希望通过damo-YOLO训练1500*1500的图片

请问在 ModelScope 上的模型断网使用报这个错误啥原因了?

服务器上onnxruntime-gpu 调用结束，如何释放显存

ModelScope中我尝试使用这个模型搭建了一个推理服务，然后报错了怎么办？

ModelScope中，大佬们4卡跑lora时，遇到这样的错，怎么解决？

ModelScope有没有人知道windows安装ttsfrd的方法或者ttsfrd源码？

streamlit 生成链接无法访问，gradio只生成内网，无法生成公网

modelscope cache 环境变量是啥？

展开全部

YOLOv10实战：红外小目标实战 | 多头检测器提升小目标检测精度

关键点检测从入门到进阶

关于flux.1 loras的8个问题

YOLOv10实战：SPPF原创自研 | SPPF_attention，重新设计加入注意力机制 | NEU-DET为案列进行展开

《YOLOv8原创自研》专栏介绍 & CSDN独家改进创新实战&专栏目录

一种基于YOLOv8改进的高精度红外小目标检测算法（原创自研）

Stable Diffusion 介绍与入门

展开全部

相关课程

更多

个性化语音合成模型微调

252

1

去学习

ModelScope社区Library技术架构介绍

227

1

去学习

相关电子书

更多

视觉AI能力的开放现状及ModelScope实战 立即下载

ModelScope助力语音AI模型创新与应用 立即下载

低代码开发师（初级）实战教程 立即下载