备案控制台

开发者社区 ModelScope模型即服务计算机视觉正文

ModelScope的读光手写体ocr和印刷体ocr是基于灰度图的，能改成加个三通道的微调的代码吗？

ModelScope的读光手写体ocr和印刷体ocr现在是基于灰度图的，场景有多色，能改成加个三通道的微调的代码吗？

展开

收起

陈幕白 2023-12-13 13:04:06 148 版权

2 条回答

写回答

取消提交回答

顾九思

当前输入是用RGB的输入，只是在网络中转换成了灰度，如果要在网络中也用RGB的话，需要手动把源码中网络第一层的输入通道改成3 此回答整理自钉群 “魔搭ModelScope开发者联盟群 ①”

2023-12-13 13:35:09

赞同展开评论
1941623231718325

问题1：在ModelScope的OCR模型中，如果要从基于灰度图的处理改为三通道彩色图像的微调，你需要对输入数据和模型进行一些修改。以下是一个基本步骤：

数据预处理：
对于多色场景的图像，你需要将它们转换为RGB格式。
在读取图像时，确保以正确的颜色模式（如'RGB'）打开它。
模型结构调整：
确定你的现有模型是否支持彩色图像作为输入。如果是灰度图模型，则可能需要调整网络架构以接受多通道输入。
如果模型本身不支持彩色输入，你可能需要添加额外的卷积层来处理RGB信息。
微调代码：
用新格式的数据集替换旧的数据集，并确保微调代码使用新的数据集。
修改训练代码中的任何相关部分，以便正确处理彩色图像。
调整超参数，因为增加颜色通道可能会导致模型学习过程发生变化。
请注意，这只是一个概述，具体的实现细节会因模型的不同而不同。如果你正在使用的具体模型或库提供了文档或示例代码，最好参考这些资源来进行相应的修改。

问题2：当迁移学习的结果开始偏离原始结果时，你可以尝试以下策略：

更细致地选择预训练权重：
使用与目标任务更接近的预训练模型。
如果可能，使用在相同领域或类似数据集上预训练的模型。
调整正则化和优化器设置：
使用不同的正则化技术（如L1、L2、Dropout等）来防止过拟合。
尝试不同的学习率调度策略或动量值。
更灵活的微调：
只微调模型的一部分，而不是整个模型。
实验性地冻结某些层，让其他层可以更好地适应新的数据。
增大训练数据量：
收集更多的标注数据，以便更好地指导模型学习。
扩展数据增强技术：
使用更广泛的数据增强方法来模拟更多种情况，使模型更具泛化能力。

2023-12-13 13:27:15

赞同展开评论

相关问答

ModelScope重新启动内核也是一样的，这个错误是代码的问题吗？

85

1

0

根据ModelScope教程输入的代码有问题，怎么解决？

119

1

0

ModelScope 使用mossformer的训练代码出现如下报错，该如何解决啊？

163

1

0

ModelScope使用读光ocr构建lmdb报下面这个错误，怎么解决？

121

1

0

ModelScope的 EchoMimic 开源代码可以商用吗？

311

1

0

ModelScope的ocr文字识别，不支持竖直方向的内容识别，有什么方法么？

146

1

0

文字识别OCR如果上传做训练的标注集里面有图片有问题，想不做标注，废弃处理。该怎么操作？

169

1

0

文字识别OCR要识别营业执照是不要开通这个服务才行？

106

2

0

文字识别OCR增值税发票识别可以实现多个发票识别嘛？

163

2

0

文字识别OCR的公章ocr这2天出现好多识别为空的情况，怎么回事？

115

1

0

ModelScope模型即服务

计算机视觉

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

我要提问

相关文章

「睛」准识人：基于Rokid AI眼镜的智能名片识别与管理系统开发实战

基于高阶累积量的调制识别

基于 NLP 与深度学习的智能面试训练系统：「模拟面试」APP 技术实现解析

阿里云8核16g服务器能容纳多少人？性能配置够用吗？

构建AI智能体：三十五、决策树的核心机制（一）：刨根问底鸢尾花分类中的参数推理计算

热门讨论

热门文章

我希望通过damo-YOLO训练1500*1500的图片

ModelScope中，模型下载默认路径在哪个路径？

ModelScope下载速度慢怎么解决？

如何下载modelscope模型？

com/action/joingroup?code=v1是什么意思

服务器上onnxruntime-gpu 调用结束，如何释放显存

modelscope这个下载有点慢呀，好几次都超时了，怎么解决？

在ModelScope中，下载模型时的ssl问题怎么解决？!

ModelScope通义千问是多大的模型参数，收费标准跟7B有差距吗？

ModelScope的PAI-DSW中，怎么上传一个文件夹？

展开全部

Manga Image Translator：开源的漫画文字翻译工具，支持多语言翻译并嵌入原图，保持漫画的原始风格和布局

Qwen2.5-VL：阿里通义千问最新开源视觉语言模型，能够理解超过1小时的长视频

video-analyzer：开源视频分析工具，支持提取视频关键帧、音频转录，自动生成视频详细描述

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

AddressCLIP：一张照片就能准确定位！中科院联合阿里云推出街道级图像地理定位模型

ColorFlow：腾讯和清华大学联合推出的图像序列着色模型，通过参考图像的颜色对黑白漫画进行着色生成彩色漫画

SPAR3D：一张图片就能生成3D模型，每个物体的重建时间仅需0.7秒！

STAR：南京大学联合字节开源视频超分辨率增强生成框架，视频清晰度一键提升，支持从低分辨率视频生成高分辨率视频

【Github热门项目】DeepSeek-OCR项目上线即突破7k+星！突破10倍无损压缩，重新定义文本-视觉信息处理

展开全部

还有其他疑问?