实战 | 实时手部关键点检测跟踪(附完整源码+代码详解)

简介: 实战 | 实时手部关键点检测跟踪(附完整源码+代码详解)

引言

手部关键点检测是计算机视觉领域的一项重要技术,主要用于识别与定位手部在图像或视频中的关键位置点,如指关节和手腕等。通过精确识别这些关键点,我们可以获取到手部的精确姿态和手势信息。

手部关键点检测在许多领域都有着广泛的应用可能性。例如,在人机交互中,通过检测用户的手部关键点和手势,计算机可以实现无触摸的交互界面,这对于虚拟现实(VR)和增强现实(AR)应用尤为重要。此外,在健康医疗领域,可以通过对患者手部的关键点检测,来评估和诊断一些由手部动作异常引发的疾病,如帕金森氏症等。再比如,手部关键点检测也可以用于机器人视觉系统,通过对人手的识别和理解,使得机器人能更好地协作和交互。它还在手语识别、动作捕捉、游戏控制等场景找到了广泛应用。

本文介绍了一个基于OpenCV和cvzone库的实时手部跟踪系统,附全部源码,并对源码内容进行了详细讲解。

实现步骤详解

实现效果

摄像头初始化

import cv2
# 初始化摄像头以捕捉视频
# 通常 '0' 指内置摄像头
cap = cv2.VideoCapture(0)

摄像头初始化:通过cv2.VideoCapture(0)初始化摄像头,通常情况下0代表默认摄像头。

手部检测器配置

# 初始化 HandDetector 类并设置参数
detector = HandDetector(staticMode=False,  # 非静态模式,持续检测
                        maxHands=2,         # 最多检测两只手
                        modelComplexity=1,  # 手部识别模型复杂度
                        detectionCon=0.5,   # 手部检测的最小置信度
                        minTrackCon=0.5)    # 追踪的最小置信度

创建HandDetector对象,配置参数如最大检测手数、模型复杂度、检测和追踪的最小置信度,这些参数平衡了检测速度和准确性。

实时帧处理循环

实时帧处理循环:程序进入一个无限循环,不断从摄像头读取视频帧。对于每一帧进行:

手部检测:利用findHands方法检测画面中的手部,同时根据配置参数在图像上绘制手部轮廓和关键点。

# 实时从摄像头获取帧
while True:
    # 读取每一帧图像
    # 'success' 表示是否成功捕获,'img' 存储捕获的图像
    success, img = cap.read()
    # 在当前帧中寻找手部
    # 'draw' 参数决定是否在图像上绘制手部关键点和边界框
    # 'flipType' 翻转图像,便于某些检测操作
    hands, img = detector.findHands(img, draw=True, flipType=True)

获取关键点并计算手指间距

手指计数:对每只检测到的手,使用fingersUp方法计算并打印出抬起的手指数。

# 计算第一只手抬起的手指数量
        fingers1 = detector.fingersUp(hand1)
        print(f'H1 = {fingers1.count(1)}', end=" ")  # 输出抬起手指的数量

手指间距离计算:计算第一只手的食指和中指指尖之间的距离,并在图像上用特定颜色标出。

# 定位食指和中指指尖
        tipOfIndexFinger = lmList1[8][0:2]
        tipOfMiddleFinger = lmList1[12][0:2]
        # 计算并绘制食指与中指指尖间的距离
        length, info, img = detector.findDistance(tipOfIndexFinger, tipOfMiddleFinger, img, color=(255, 0, 255), scale=5)

双手中指距离计算:如果有两只手被检测到,还计算两只手的食指指尖之间的距离,同样在图像上标出。

# 计算第二只手抬起的手指数量
            fingers2 = detector.fingersUp(hand2)
            print(f'H2 = {fingers2.count(1)}', end=" ")
            # 定位第二只手的食指指尖
            tipOfIndexFinger2 = lmList2[8][0:2]
            # 计算并绘制两只手食指指尖间的距离
            length, info, img = detector.findDistance(tipOfIndexFinger, tipOfIndexFinger2, img, color=(255, 0, 0), scale=10)

图像显示

# 显示处理后的图像
    cv2.imshow("图像", img)
    # 保持窗口打开,等待1毫秒后显示下一帧
    cv2.waitKey(1)

使用imshow函数在名为"图像"的窗口中显示处理后的图像。

整个程序的核心在于利用HandDetector类提供的功能来实时检测和分析手部特征。这使得它能够应用于各种应用场景,如手势识别、游戏控制、无障碍交互等。通过实时更新图像并显示手部信息,用户可以直观地看到手部检测和分析的结果。

完成源码

# 导入所需库
from cvzone.HandTrackingModule import HandDetector
import cv2
# 初始化摄像头以捕捉视频
# 通常 '0' 指内置摄像头
cap = cv2.VideoCapture(0)
# 初始化 HandDetector 类并设置参数
detector = HandDetector(staticMode=False,  # 非静态模式,持续检测
                        maxHands=2,         # 最多检测两只手
                        modelComplexity=1,  # 手部识别模型复杂度
                        detectionCon=0.5,   # 手部检测的最小置信度
                        minTrackCon=0.5)    # 追踪的最小置信度
# 实时从摄像头获取帧
while True:
    # 读取每一帧图像
    # 'success' 表示是否成功捕获,'img' 存储捕获的图像
    success, img = cap.read()
    # 在当前帧中寻找手部
    # 'draw' 参数决定是否在图像上绘制手部关键点和边界框
    # 'flipType' 翻转图像,便于某些检测操作
    hands, img = detector.findHands(img, draw=True, flipType=True)
    # 检查是否检测到手
    if hands:
        # 获取第一只手的信息
        hand1 = hands[0]           # 第一只手
        lmList1 = hand1["lmList"]  # 21个关键点坐标列表
        bbox1 = hand1["bbox"]      # 手部边界框坐标
        center1 = hand1['center']  # 手心中心点坐标
        handType1 = hand1["type"]  # 手型("Left" 或 "Right")
        # 计算第一只手抬起的手指数量
        fingers1 = detector.fingersUp(hand1)
        print(f'H1 = {fingers1.count(1)}', end=" ")  # 输出抬起手指的数量
        # 定位食指和中指指尖
        tipOfIndexFinger = lmList1[8][0:2]
        tipOfMiddleFinger = lmList1[12][0:2]
        # 计算并绘制食指与中指指尖间的距离
        length, info, img = detector.findDistance(tipOfIndexFinger, tipOfMiddleFinger, img, color=(255, 0, 255), scale=5)
        # 检查是否有第二只手
        if len(hands) == 2:
            # 获取第二只手的信息
            hand2 = hands[1]
            lmList2 = hand2["lmList"]
            bbox2 = hand2["bbox"]
            center2 = hand2['center']
            handType2 = hand2["type"]
            # 计算第二只手抬起的手指数量
            fingers2 = detector.fingersUp(hand2)
            print(f'H2 = {fingers2.count(1)}', end=" ")
            # 定位第二只手的食指指尖
            tipOfIndexFinger2 = lmList2[8][0:2]
            # 计算并绘制两只手食指指尖间的距离
            length, info, img = detector.findDistance(tipOfIndexFinger, tipOfIndexFinger2, img, color=(255, 0, 0), scale=10)
        print()  # 打印换行,提高输出可读性
    # 显示处理后的图像
    cv2.imshow("图像", img)
    # 保持窗口打开,等待1毫秒后显示下一帧
    cv2.waitKey(1)


相关文章
|
机器学习/深度学习 算法 计算机视觉
基于深度学习的停车位关键点检测系统(代码+原理)
基于深度学习的停车位关键点检测系统(代码+原理)
|
JavaScript 前端开发 API
基于MediaPipe 和 TensorFlow.js的3D手势检测
最近看到Google发布了Tensorflow.js关于手势姿态检测模型的新版本,该模型改进了2D精度,支持3D,并具有同时预测双手关键点的新能力。晚上下班回来,把源码下载下来跑了一下demo,被这个精度惊艳到了。瞬间萌生了了一个想法,有了这个3D手势检测算法,那我是不是可以把佛山无影手的招式记录下来,然后把它教给机器人,然后让机器人给我当保镖!
基于MediaPipe 和 TensorFlow.js的3D手势检测
|
并行计算 Ubuntu 机器人
计算机视觉教程7-3:Openpose配置与实践
计算机视觉教程7-3:Openpose配置与实践
3156 0
计算机视觉教程7-3:Openpose配置与实践
|
5月前
|
机器学习/深度学习 监控 算法
基于mediapipe深度学习的手势数字识别系统python源码
本内容涵盖手势识别算法的相关资料,包括:1. 算法运行效果预览(无水印完整程序);2. 软件版本与配置环境说明,提供Python运行环境安装步骤;3. 部分核心代码,完整版含中文注释及操作视频;4. 算法理论概述,详解Mediapipe框架在手势识别中的应用。Mediapipe采用模块化设计,包含Calculator Graph、Packet和Subgraph等核心组件,支持实时处理任务,广泛应用于虚拟现实、智能监控等领域。
|
机器学习/深度学习 JSON 数据可视化
YOLO11-pose关键点检测:训练实战篇 | 自己数据集从labelme标注到生成yolo格式的关键点数据以及训练教程
本文介绍了如何将个人数据集转换为YOLO11-pose所需的数据格式,并详细讲解了手部关键点检测的训练过程。内容涵盖数据集标注、格式转换、配置文件修改及训练参数设置,最终展示了训练结果和预测效果。适用于需要进行关键点检测的研究人员和开发者。
2411 0
|
JSON 人工智能 数据格式
AI计算机视觉笔记二十六:YOLOV8自训练关键点检测
本文档详细记录了使用YOLOv8训练关键点检测模型的过程。首先通过清华源安装YOLOv8,并验证安装。接着通过示例权重文件与测试图片`bus.jpg`演示预测流程。为准备训练数据,文档介绍了如何使用`labelme`标注工具进行关键点标注,并提供了一个Python脚本`labelme2yolo.py`将标注结果从JSON格式转换为YOLO所需的TXT格式。随后,通过Jupyter Notebook可视化标注结果确保准确性。最后,文档展示了如何组织数据集目录结构,并提供了训练与测试代码示例,包括配置文件`smoke.yaml`及训练脚本`train.py`,帮助读者完成自定义模型的训练与评估。
3593 2
|
机器学习/深度学习 编解码 监控
目标检测实战(六): 使用YOLOv8完成对图像的目标检测任务(从数据准备到训练测试部署的完整流程)
这篇文章详细介绍了如何使用YOLOv8进行目标检测任务,包括环境搭建、数据准备、模型训练、验证测试以及模型转换等完整流程。
20864 59
目标检测实战(六): 使用YOLOv8完成对图像的目标检测任务(从数据准备到训练测试部署的完整流程)
|
10月前
|
传感器 人机交互 定位技术
XR交互技术趋势:6DoF追踪、手势识别、眼动跟踪……
XR交互技术与实时云渲染共同推动了虚拟现实和增强现实的沉浸式体验发展。XR交互技术通过6DoF追踪、手势追踪、眼动追踪等手段,提供更自然、精准的用户交互方式;而实时云渲染则利用云端计算能力,为终端设备呈现高质量、低延迟的复杂图形内容。两者结合,使用户在XR环境中获得更加真实、流畅的体验。未来,XR交互技术将向多模态、精细化方向发展,进一步提升用户的沉浸感和交互体验。
735 20
|
XML 机器学习/深度学习 数据格式
YOLOv8训练自己的数据集+常用传参说明
YOLOv8训练自己的数据集+常用传参说明
21153 3
|
机器学习/深度学习 人工智能 算法
基于YOLOv8的人员跌倒实时检测系统【训练和系统源码+Pyside6+数据集+包运行】
本文介绍了基于YOLOv8算法的人员跌倒实时检测系统,通过4978张图片训练出有效模型,并开发了带GUI界面的系统,支持图片、视频和摄像头实时检测,具备更换背景、标题,调节检测置信度等功能。
2217 0
基于YOLOv8的人员跌倒实时检测系统【训练和系统源码+Pyside6+数据集+包运行】