手部关键点识别+分类综合项目应用[附代码]

简介: 笔记

环境:pytorch


文件夹说明


applications-->存放检测项目定义的函数


components-->


                       -->classify_imagenet:存放分类模型网络和权重文件及分类标签


                       -->hand_detect:存放yolov3手部检测网络和权重


                       -->hand_keypoints:存放关键点检测网络和权重


lib--->


           -->hand_lib:存放一些定义的函数和配置文件


materials-->


               -->audio:语音包(比如正在识别请等待、识别的物体是这之类的)【可以自己再录】



使用步骤


1.下载三个权重文件,百度云:

权重说明:


hand_416-2021-02-20.pt  # 手部目标检测(不是关键点哦),放在components/hand_detect/weigths里

ReXNetV1-size-256-wingloss102-0.122.pth # 21点关键点检测,放在components/hand_keypoints/weights里

imagenet_size-256_20210409.pth  # 分类检测,放在components/classify_imagenet/weights里


2.进入lib-->hand_lib-->cfg文件夹:


       将下载的三个权重文件放在components中三个文件中的weights文件里面。

20.png

   修改handpose.cfg配置文件:


修改说明【注意:填写完路径以后,一定不要在后面加注释,不然会报错,可以在上面或许下面加注释】,如果需要检测本地视频,可以去applications-->handpose_local_app.py直接找到VideoCaptrue,修改为自己的视频路径


       detect_model_path=    # 填写yolov3手部目标检测模型路径


  handpose_x_model_path= # 关键点检测权重路径

 

  classify_model_path =  # 分类权重路径

      camera_id = 0  # 摄像头ID,0是自己笔记本的


21.png

4.运行main.py

可以看一下效果~~imagenet里没有剪刀这个类,我只是随便试了一下~


22.gif

目录
相关文章
|
缓存 自然语言处理 物联网
LLama Factory+ModelScope实战——使用 Web UI 进行监督微调
LLaMA Factory 是一个高效的大语言模型训练和推理框架,它通过提供一站式的 Web UI 界面和集成多种训练方法,简化了大模型的微调过程,并能够适配多种开源模型。
element el-cascader动态编辑赋值后,不回显的解决方法(整理)
element el-cascader动态编辑赋值后,不回显的解决方法(整理)
|
Linux C语言
Linux 中的文件锁定命令:flock、fcntl、lockfile、flockfile
Linux 中的文件锁定命令:flock、fcntl、lockfile、flockfile
648 0
|
安全 开发工具 git
CTF工具隐写分离神器Binwalk安装和详细使用方法
CTF工具隐写分离神器Binwalk安装和详细使用方法
3986 0
|
机器人 人机交互 vr&ar
实战 | 实时手部关键点检测跟踪(附完整源码+代码详解)
实战 | 实时手部关键点检测跟踪(附完整源码+代码详解)
|
9月前
|
人工智能 Python
JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当
JoyCaption 是一款开源的图像提示词生成工具,支持多种生成模式和灵活的提示选项,适用于社交媒体、图像标注、内容创作等场景,帮助用户快速生成高质量图像描述。
1219 21
JoyCaption:开源的图像转提示词生成工具,支持多种风格和场景,性能与 GPT4o 相当
|
12月前
|
存储 C语言
C语言指针与指针变量的区别指针
指针是C语言中的重要概念,用于存储内存地址。指针变量是一种特殊的变量,用于存放其他变量的内存地址,通过指针可以间接访问和修改该变量的值。指针与指针变量的主要区别在于:指针是一个泛指的概念,而指针变量是具体的实现形式。
|
机器学习/深度学习 计算机视觉 知识图谱
【YOLOv8改进】MobileViT 更换主干网络: 轻量级、通用且适合移动设备的视觉变压器 (论文笔记+引入代码)
MobileViT是针对移动设备的轻量级视觉Transformer网络,结合CNN的局部特征、Transformer的全局注意力和ViT的表示学习。在ImageNet-1k上,它以600万参数实现78.4%的top-1准确率,超越MobileNetv3和DeiT。MobileViT不仅适用于图像分类,还在目标检测等任务中表现出色,且优化简单,代码已开源。YOLOv8引入了MobileViT块,整合卷积和Transformer结构,提升模型性能。更多详情可参考相关专栏和链接。
|
图形学
【unity小技巧】实现没有动画的FPS武器摇摆和摆动效果
【unity小技巧】实现没有动画的FPS武器摇摆和摆动效果
193 0
|
存储 Oracle 关系型数据库