备案控制台

开发者社区 ModelScope模型即服务计算机视觉正文

ModelScope llama.cpp是否支持GGUF格式的小尺寸模型？

在使用DAMO-YOLO-T.onnx模型进行C#推理时，输入为640x640像素的RGB图像，输出的float32[1,8400,80]和float32[1,8400,4]是否分别表示识别概率和边界框坐标？此外，ModelScope llama.cpp是否支持GGUF格式的小尺寸模型，并且为何模型会多次识别同一物体？
https://github.com/tinyvision/DAMO-YOLO/blob/master/README_cn.md

展开

收起

小小爱吃香菜 2024-01-09 18:59:51 261 版权

1 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

根据您提供的信息，DAMO-YOLO-T.onnx模型在C#中的推理结果是正确的。float32[1,8400,80]表示有8400个预测结果，每个结果包含80个类别的概率值。float32[1,8400,4]表示有8400个预测结果，每个结果包含x、y、w、h的坐标值。

关于同一个物体被多次识别的问题，这可能是由于模型对同一物体的不同部分或不同角度产生了多个检测结果。这在目标检测任务中是常见的现象，因为模型需要在不同的位置和尺度上找到目标。为了解决这个问题，您可以使用非极大值抑制（NMS）来消除重复的检测框，只保留最有可能包含目标的检测框。

2024-01-13 19:40:20

赞同展开评论

相关问答

modelscope-funasr的infer的时候input输入bytes类型，报错了，怎么解决？

111

1

0

ModelScope输出看了下只有这四个数据集的features，没有格式，怎么处理？

144

1

0

ModelScope中，florence2模型微调时，数据集格式是不是"query"？

227

1

0

ModelScope大模型比较擅长的是json格式来提取码吗？

274

1

0

ModelScope有没有什么格式是大模型一定能够按照那个格式提取文字的？

82

1

0

ModelScope的llama3.1模型训练XML格式的OpenDrive文件效果不理想，怎么办？

93

0

0

modelscope-funasr能直接把数据的target改成不同流派类型进行finetune吗？

109

0

0

modelscope-funasr的这篇文章，输出token的概率，目前在funasr有集成吗？

154

1

0

modelscope的文件读取过程中出现了错误，可能文件的编码格式不是 UTF-8，怎么解决？

131

0

0

modelscope-funasr使用bytes类型数据传入，识别效果很差怎么解决？

245

1

0

ModelScope模型即服务

计算机视觉

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

我要提问

相关文章

PVS‑Studio 7.40 发布 - 代码质量安全静态分析

Scikit-image 实战指南：10 个让 CV 模型更稳健的预处理技巧

具身智能：零基础入门睿尔曼机械臂（六）——手眼标定代码库详解，从原理到实践

YOLOv11 改进 - C2PSA | C2PSA融合Mask Attention掩码注意力，可学习掩码矩阵破解低分辨率特征提取难题 | 2025 预印

YOLOv11 改进 - 注意力机制 | Mask Attention掩码注意力，可学习掩码矩阵破解低分辨率特征提取难题 | 2025 预印

热门讨论

热门文章

我希望通过damo-YOLO训练1500*1500的图片

ModelScope中，模型下载默认路径在哪个路径？

ModelScope下载速度慢怎么解决？

如何下载modelscope模型？

com/action/joingroup?code=v1是什么意思

modelscope这个下载有点慢呀，好几次都超时了，怎么解决？

ModelScope有没有人知道windows安装ttsfrd的方法或者ttsfrd源码？

创业项目：AI 拟人化中层解决方案

在ModelScope中，请问模型下载到本地的具体方法？

服务器上onnxruntime-gpu 调用结束，如何释放显存

展开全部

Qwen2.5-VL：阿里通义千问最新开源视觉语言模型，能够理解超过1小时的长视频

video-analyzer：开源视频分析工具，支持提取视频关键帧、音频转录，自动生成视频详细描述

RF-DETR：YOLO霸主地位不保？开源 SOTA 实时目标检测模型，比眨眼还快3倍！

PSHuman：开源单图像3D人像重建技术，一张照片就能生成3D人像模型

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

STAR：南京大学联合字节开源视频超分辨率增强生成框架，视频清晰度一键提升，支持从低分辨率视频生成高分辨率视频

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

InvSR：开源图像超分辨率生成模型，提升分辨率，修复老旧照片为超清图像

UI-TARS：字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型

Manga Image Translator：开源的漫画文字翻译工具，支持多语言翻译并嵌入原图，保持漫画的原始风格和布局

展开全部

还有其他疑问?