YOLOv10发布,性能效率双提升,魔搭社区最佳实践来啦!

简介: YOLO(You Only Look Once)系列目标检测框架,由于其在计算成本与检测性能之间实现了有效平衡,故而成为实时物体检测领域的标杆。

YOLO(You Only Look Once)系列目标检测框架,由于其在计算成本与检测性能之间实现了有效平衡,故而成为实时物体检测领域的标杆。

YOLO系列算法经过不断地发展和改进,已经在架构设计、优化目标、数据增强策略等方面取得了显著的进展。然而,由于非最大抑制(NMS)后处理依赖,导致YOLO系列算法难以实现端到端部署,并且增加了推理延迟,对性能产生了负面影响。此外,YOLO系列算法中的一些组件设计存在冗余,限制了模型的性能,因此还有很大的改进空间。

自今年2月YOLOv9发布之后,YOLO系列的接力到清华大学THU-MIG实验室。在这项工作中,研究团队旨在从后处理和模型架构两个方面进一步提升YOLO 的性能效率边界。清华大学THU-MIG实验室首先提出了用于 YOLO 无 NMS 训练的一致对偶分配,这同时带来了具有竞争力的性能和较低的推理延迟。此外,研究团队引入了整体效率-准确度驱动的 YOLO 模型设计策略。

从效率和准确度的角度全面优化了 YOLO 的各个组件,大大降低了计算开销并提高了性能。并发布新一代用于实时端到端物体检测的 YOLO 系列,称为 YOLOv10。大量实验表明,YOLOv10 在各种模型规模上都实现了最先进的性能和效率。例如,YOLOv10-S 为 1.8×在 COCO 上相似的 AP 下比 RT-DETR-R18 更快,同时享受 2.8×参数和 FLOP 数量更少。与 YOLOv9-C 相比,在相同性能下,YOLOv10-B 的延迟减少了 46%,参数减少了 25%。


今天,YOLOv10项目登顶github global Trending榜,收到了来自全球开发者对其的认可。


论文地址:

https://arxiv.org/pdf/2405.14458

项目地址:

https://github.com/THU-MIG/yolov10

模型下载

YOLOV10现已开源到魔搭社区,欢迎开发者下载使用!

模型地址:

https://modelscope.cn/models/THU-MIG/Yolov10

from modelscope import snapshot_download
MODEL_PATH = snapshot_download('THU-MIG/Yolov10')

模型推理

本文在魔搭社区免费提供的GPU免费算力上体验:


推理代码:

# 安装依赖
!pip install supervision git+https://github.com/THU-MIG/yolov10.git
# 下载模型
from modelscope import snapshot_download
MODEL_PATH = snapshot_download('THU-MIG/Yolov10')
# 推理代码
from ultralytics import YOLOv10
import supervision as sv
import cv2
from IPython.display import Image
#下载示例图片
!wget -P /mnt/workspace/ -q https://modelscope.oss-cn-beijing.aliyuncs.com/resource/image_detection.png
IMAGE_PATH = '/mnt/workspace/image_detection.png'
model = YOLOv10(f'{MODEL_PATH}/yolov10n.pt')
image  = cv2.imread(IMAGE_PATH)
results = model(source=image, conf=0.25, verbose=False)[0]
detections = sv.Detections.from_ultralytics(results)
box_annotator = sv.BoxAnnotator()
category_dict = {
    0: 'person', 1: 'bicycle', 2: 'car', 3: 'motorcycle', 4: 'airplane', 5: 'bus',
    6: 'train', 7: 'truck', 8: 'boat', 9: 'traffic light', 10: 'fire hydrant',
    11: 'stop sign', 12: 'parking meter', 13: 'bench', 14: 'bird', 15: 'cat',
    16: 'dog', 17: 'horse', 18: 'sheep', 19: 'cow', 20: 'elephant', 21: 'bear',
    22: 'zebra', 23: 'giraffe', 24: 'backpack', 25: 'umbrella', 26: 'handbag',
    27: 'tie', 28: 'suitcase', 29: 'frisbee', 30: 'skis', 31: 'snowboard',
    32: 'sports ball', 33: 'kite', 34: 'baseball bat', 35: 'baseball glove',
    36: 'skateboard', 37: 'surfboard', 38: 'tennis racket', 39: 'bottle',
    40: 'wine glass', 41: 'cup', 42: 'fork', 43: 'knife', 44: 'spoon', 45: 'bowl',
    46: 'banana', 47: 'apple', 48: 'sandwich', 49: 'orange', 50: 'broccoli',
    51: 'carrot', 52: 'hot dog', 53: 'pizza', 54: 'donut', 55: 'cake',
    56: 'chair', 57: 'couch', 58: 'potted plant', 59: 'bed', 60: 'dining table',
    61: 'toilet', 62: 'tv', 63: 'laptop', 64: 'mouse', 65: 'remote', 66: 'keyboard',
    67: 'cell phone', 68: 'microwave', 69: 'oven', 70: 'toaster', 71: 'sink',
    72: 'refrigerator', 73: 'book', 74: 'clock', 75: 'vase', 76: 'scissors',
    77: 'teddy bear', 78: 'hair drier', 79: 'toothbrush'
}
labels = [
    f"{category_dict[class_id]} {confidence:.2f}"
    for class_id, confidence in zip(detections.class_id, detections.confidence)
]
annotated_image = box_annotator.annotate(
    image.copy(), detections=detections, labels=labels
)
cv2.imwrite('annotated_demo.jpeg', annotated_image)
Image(filename='annotated_demo.jpeg', height=600)


模型训练

数据集链接:

https://modelscope.cn/datasets/AI-ModelScope/tumor-dj2a1

下载数据集

!mkdir /mnt/workspace/datasets
%cd /mnt/workspace/datasets
# Refer to: https://modelscope.cn/datasets/AI-ModelScope/tumor-dj2a1/summary
!git clone https://www.modelscope.cn/datasets/AI-ModelScope/tumor-dj2a1.git

模型定制

%cd /mnt/workspace/
!yolo task=detect mode=train epochs=10 batch=32 plots=True \
model={MODEL_PATH}/yolov10n.pt \
data=/mnt/workspace/datasets/tumor-dj2a1/data.yaml

检测分类的混淆矩阵如下:


训练的各项loss以及各个评估指标如下 :


定制模型推理:

from ultralytics import YOLOv10
model = YOLOv10('/mnt/workspace/runs/detect/train2/weights/best.pt')
dataset = sv.DetectionDataset.from_yolo(
    images_directory_path="/mnt/workspace/datasets/tumor-dj2a1/valid/images",
    annotations_directory_path="/mnt/workspace/datasets/tumor-dj2a1/valid/labels",
    data_yaml_path="/mnt/workspace/datasets/tumor-dj2a1/data.yaml"
)
bounding_box_annotator = sv.BoundingBoxAnnotator()
label_annotator = sv.LabelAnnotator()

import random
random_image = random.choice(list(dataset.images.keys()))
random_image = dataset.images[random_image]
results = model(source=random_image, conf=0.25)[0]
detections = sv.Detections.from_ultralytics(results)
annotated_image = bounding_box_annotator.annotate(
    scene=random_image, detections=detections)
annotated_image = label_annotator.annotate(
    scene=annotated_image, detections=detections)
sv.plot_image(annotated_image)

Output:

0: 640x640 1 tumor, 6.4ms

Speed: 1.2ms preprocess, 6.4ms inference, 0.8ms postprocess per image at shape (1, 3, 640, 640)


本文微调示例参考:https://colab.research.google.com/github/roboflow-ai/notebooks/blob/main/notebooks/train-yolov10-object-detection-on-custom-dataset.ipynb


点击链接👇直达原文

https://modelscope.cn/models/THU-MIG/Yolov10/summary

相关文章
|
8月前
|
机器学习/深度学习 编解码 Shell
|
8月前
魔塔社区的模型支持使用DJL 进行推理吗?
想使用DJL 加载魔塔社区的模型并进行推理
|
8月前
|
数据采集 自然语言处理 前端开发
社区供稿 | 猎户星空百亿参数大模型 Orion-14B系列开源,一张3060就能跑(附魔搭社区推理微调最佳实践)
1月21日,傅盛在猎户星空大模型发布会上宣布,“为企业应用而生” 的开源百亿参数猎户星空大模型正式发布。猎户星空大模型(Orion-14B)是由猎户星空研发的预训练多语言大语言模型,以其140亿参数规模展现出了卓越的性能。
|
数据安全/隐私保护 开发者 异构计算
阿里巴巴开源可控视频生成框架VideoComposer!(内含体验、推理实践干货)
8月16日,时间、空间可控的视频生成模型 VideoComposer 在魔搭社区开源。
阿里巴巴开源可控视频生成框架VideoComposer!(内含体验、推理实践干货)
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
FullStack Bench:字节豆包联合M-A-P社区开源的全新代码评估基准
FullStack Bench是由字节跳动豆包大模型团队与M-A-P社区联合推出的全新代码评估基准,专注于全栈编程和多语言编程能力评估。该基准覆盖超过11种真实编程场景,包含3374个问题,涉及16种编程语言,旨在更有效地衡量大模型在现实世界中的代码开发能力。
65 5
FullStack Bench:字节豆包联合M-A-P社区开源的全新代码评估基准
|
2月前
|
机器学习/深度学习 人工智能 算法
Optima:清华联合北邮推出优化通信效率和任务有效性的训练框架
Optima是由清华大学和北京邮电大学联合推出的一个优化通信效率和任务有效性的训练框架。该框架通过迭代生成、排名、选择和训练范式,显著提高了基于大型语言模型(LLM)的多智能体系统(MAS)的通信效率和任务效果。Optima不仅减少了令牌使用,还为改进推理时间扩展法则提供了新的可能性。
57 6
Optima:清华联合北邮推出优化通信效率和任务有效性的训练框架
|
2月前
|
弹性计算 人工智能 自然语言处理
魔搭社区与函数计算:高效部署开源大模型的文本生成服务体验
在数字化时代,人工智能技术迅速发展,开源大模型成为重要成果。魔搭社区(ModelScope)作为开源大模型的聚集地,结合阿里云函数计算,提供了一种高效、便捷的部署方式。通过按需付费和弹性伸缩,开发者可以快速部署和使用大模型,享受云计算的便利。本文介绍了魔搭社区与函数计算的结合使用体验,包括环境准备、部署应用、体验使用和资源清理等步骤,并提出了改进建议。
|
5月前
|
机器学习/深度学习 编译器 PyTorch
自研分布式训练框架EPL问题之吸引社区参与共建如何解决
自研分布式训练框架EPL问题之吸引社区参与共建如何解决
|
8月前
|
机器学习/深度学习 缓存 算法
LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架]
LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架]
LLM 大模型学习必知必会系列(十二):VLLM性能飞跃部署实践:从推理加速到高效部署的全方位优化[更多内容:XInference/FastChat等框架]
|
8月前
|
数据采集 机器学习/深度学习 存储
性能提升30%!中国电信进一步开源12B星辰大模型TeleChat-12B!魔搭社区最佳实践来啦!
中国电信人工智能研究院开源12B参数规模星辰语义大模型TeleChat-12B,相较1月开源7B版本,内容、性能和应用等方面整体效果提升30%,其中,多轮推理、安全问题等领域提升超40%。在C-eval、MMLU、AGIEVAL等国际权威榜单上,排名处于国内同级别参数开源模型的前列,进一步促进大模型开源生态繁荣,助力AI产业加速高质量发展。另据悉,中国电信人工智能研究院将于年内开源千亿级参数大模型。