文档备案控制台

开发者社区 ModelScope模型即服务计算机视觉正文

ModelScope llama.cpp是否支持GGUF格式的小尺寸模型？

在使用DAMO-YOLO-T.onnx模型进行C#推理时，输入为640x640像素的RGB图像，输出的float32[1,8400,80]和float32[1,8400,4]是否分别表示识别概率和边界框坐标？此外，ModelScope llama.cpp是否支持GGUF格式的小尺寸模型，并且为何模型会多次识别同一物体？
https://github.com/tinyvision/DAMO-YOLO/blob/master/README_cn.md

展开

收起

小小爱吃香菜 2024-01-09 18:59:51 367 版权

1 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。

根据您提供的信息，DAMO-YOLO-T.onnx模型在C#中的推理结果是正确的。float32[1,8400,80]表示有8400个预测结果，每个结果包含80个类别的概率值。float32[1,8400,4]表示有8400个预测结果，每个结果包含x、y、w、h的坐标值。

关于同一个物体被多次识别的问题，这可能是由于模型对同一物体的不同部分或不同角度产生了多个检测结果。这在目标检测任务中是常见的现象，因为模型需要在不同的位置和尺度上找到目标。为了解决这个问题，您可以使用非极大值抑制（NMS）来消除重复的检测框，只保留最有可能包含目标的检测框。

2024-01-13 19:40:20

赞同展开评论

相关问答

modelscope-funasr的infer的时候input输入bytes类型，报错了，怎么解决？

202

1

0

您好我想问一下，在modelscope用OneKE模型去做知识图谱应该用re 还是ner 呀？

218

0

0

ModelScope输出看了下只有这四个数据集的features，没有格式，怎么处理？

213

1

0

ModelScope中，florence2模型微调时，数据集格式是不是"query"？

351

1

0

ModelScope 漏译是模型的问题吗？

188

1

0

ModelScope中，以本地模型为原型训练模型怎么实现，能用.gguf格式的模型训练吗？

308

1

0

ModelScope大模型比较擅长的是json格式来提取码吗？

350

1

0

ModelScope是不是json里面每一行，按照这个格式就行了？

166

1

0

modelscope-funasrr的autoModel里的input是有什么语音格式限制吗？

229

1

0

modelscope-funasr能直接把数据的target改成不同流派类型进行finetune吗？

204

0

0

ModelScope模型即服务

计算机视觉

包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域

我要提问

相关文章

AI短剧/AI广告生成实战流程：阿里云百炼新上线的HappyHorse 1.1功能详解、参数调试、成本指南

JVS Agent增强方案：方法论驱动的Harness层增强与合规审查实验

从视频到结构化 Prompt：一个多模态视频语义分析流程的工程实践

海洋垃圾目标检测数据集：15类别 | 目标检测

GEO管道网络策略：从单点突破到生态增长——专访GEO高级优化师罗长才

热门讨论

热门文章

ModelScope下载速度慢怎么解决？

ModelScope中，模型下载默认路径在哪个路径？

com/action/joingroup?code=v1是什么意思

ModelScope中，灵积模型服务怎么看账单比如如何看我的免费token额度还剩下多少?

ModelScope镜像地址是什么？

modelscope cache 环境变量是啥？

如何下载modelscope模型？

问了豆包，一开始说是因为app.py没有添加，但添加之后还是发布失败，求解答

在ModelScope中，这个下载文件是模型文件吗？存储路径能改吗？

在ModelScope中，下载模型时的ssl问题怎么解决？!

展开全部

video-subtitle-remover（VSR）--开源AI去字幕方案深度解析

Qwen2.5-VL：阿里通义千问最新开源视觉语言模型，能够理解超过1小时的长视频

CogVideoX-Flash：智谱首个免费AI视频生成模型，支持文生视频、图生视频，分辨率最高可达4K

LHM：单图生成3D动画人！阿里开源建模核弹，高斯点云重构服装纹理

video-analyzer：开源视频分析工具，支持提取视频关键帧、音频转录，自动生成视频详细描述

UI-TARS：字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型

极致的显存管理！6G显存运行混元Video模型

RF-DETR：YOLO霸主地位不保？开源 SOTA 实时目标检测模型，比眨眼还快3倍！

X-AnyLabeling：开源的 AI 图像标注工具，支持多种标注样式，适于目标检测、图像分割等不同场景

LTX Video：Lightricks推出的开源AI视频生成模型

展开全部

还有其他疑问?