文档备案控制台

开发者社区 ModelScope模型即服务计算机视觉正文

ModelScope中在lora微调时max length超出原本模型长度比如2048,还可以继续么

ModelScope中在lora微调时max length如果超出原本模型的长度比如2048,还可以继续训练上下文学习吗？另外就是感觉长度如果想提高到8k左右，是不是要用原本预训练长度就比较长的模型呢，而不是常规的2/4k模型？还有就是长度越长显存占用提升的还挺快的，但是听说一些模型是100k的，不知道微调的时候怎么能占用显存随长度增加再慢点呢，希望能接受更长上下文

展开

收起

超爱吃辣 2023-09-27 21:17:57 367 版权

1 条回答

写回答

取消提交回答

多麻辣哦

你试试开 gradient checkpointing 会好些100k是attention有特殊优化的，是模型结构的原因一般会有性能损失大多数的模型都是支持8192的，你可以微调的时候把这个max length调大点——此回答整理自钉群：魔搭ModelScope开发者联盟群 ①

2023-09-27 22:56:57

赞同展开评论

相关问答

为什么modelscope模型库里面chinese-hubert-base 页面是错误，是模型下架吗

215

0

0

modelscope微调后的多模态大模型Qwen-VL和graghrag相结合构建知识库的案例有嘛？

235

0

0

ModelScope我试着用swift 微调后微调的模型都失去逻辑怎么办？

257

1

0

您好我想问一下，在modelscope用OneKE模型去做知识图谱应该用re 还是ner 呀？

159

0

0

ModelScope微调之后没有效果是数据集太少了吗？

247

1

0

ModelScope中，以本地模型为原型训练模型怎么实现，能用.gguf格式的模型训练吗？

213

1

0

ModelScope有没有对各种大模型使用各种微调方法所需要显存的统计？

197

1

0

modelscope-funasr微调模型报这个错是什么原因哈？

144

1

0

ModelScope中模型下载到本地进行测试的时候报错怎么办？

364

1

0

在ModelScope中，如何设置模型加载时的数据类型（dtype）？

253

1

0

ModelScope模型即服务

计算机视觉

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

我要提问

相关文章

视频字幕擦除与动态修复技术深度解析：从开源算法基准到高并发SaaS架构的演进

LTX-2.3开源：视频生成引擎级升级

开发wms系统该具备那些专业能力低代码实现专业wms系统优势

RFID为涉密资产提供安全保障维护

基于STM32的智能家居控制系统设计方案

热门讨论

热门文章

com/action/joingroup?code=v1是什么意思

ModelScope中，模型下载默认路径在哪个路径？

ModelScope下载速度慢怎么解决？

如何下载modelscope模型？

ModelScope中，灵积模型服务怎么看账单比如如何看我的免费token额度还剩下多少?

请问去哪里找ModelScope里面各个模型的id？

在ModelScope中，下载模型时的ssl问题怎么解决？!

ModelScope中，我的推理卡，v100，不支持fp16，我要怎么改？

ModelScope这里的modelID怎么填写？

modelscope这个下载有点慢呀，好几次都超时了，怎么解决？

展开全部

video-subtitle-remover（VSR）--开源AI去字幕方案深度解析

基于YOLO11的交通违规检测系统（Python源码+数据集+Pyside6界面）

红外小目标检测新突破！异常感知检测头AA-YOLO：节俭又鲁棒，小样本也能精准识别

Qwen2.5-VL：阿里通义千问最新开源视觉语言模型，能够理解超过1小时的长视频

video-analyzer：开源视频分析工具，支持提取视频关键帧、音频转录，自动生成视频详细描述

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

UI-TARS：字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型

RF-DETR：YOLO霸主地位不保？开源 SOTA 实时目标检测模型，比眨眼还快3倍！

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

HunyuanVideo：腾讯推出的开源视频生成模型，参数高达130亿

展开全部

还有其他疑问?