基于AidLux&AI中台,轻松落地动态人脸识别AI应用

简介: 该项目来自阿加犀公司举办的AidLux动态人脸识别AI实战训练营,由PauIX老师主讲,课程内容涉及人脸识别原理及Retinaface实战、动态人脸识别整体流程实战、AI视觉软件中台人脸识别实战等。

1. 引言

该项目来自阿加犀公司举办的AidLux动态人脸识别AI实战训练营,由PauIX老师主讲,课程内容涉及人脸识别原理及Retinaface实战、动态人脸识别整体流程实战、AI视觉软件中台人脸识别实战等。
欢迎大家加入训练营,课程链接:
https://mp.weixin.qq.com/s/kTezijvdGTqF-eFM1lucoA

开始课程之前,需要准备一台安卓系统的手机,手机中安装AidLux软件,一般手机的应用市场就有,本次课程需要使用为面向开发者的内测版本AidLux 1.4beta,下载链接如下:
下载链接
http://Aidlux123.quickconnect.cn/d/s/spGcMhq9Yqvl2xQMe1lfUAntnhdLiesf/Atf6Qjb5djg4y7QCfyryNyLKNNL5E4iU-kLIAmuLPTAo
百度网盘
https://pan.baidu.com/s/1jzm_Aaw1tuAcqDflitCTvA?pwd=g60t 提取码:g60t
夸克网盘(压缩文件,需解压)
链接:https://pan.quark.cn/s/293a0b5fec0a
然后分享一份此次训练营的物料包,里面是课程使用的代码。
百度云盘链接↓
链接: https://pan.baidu.com/s/15HZmaV8u5HnOulZuVOWCZA?pwd=4vbu
提取码: 4vbu

2. 人脸识别原理及Retinaface实战

2.1 人脸识别的概念

人脸识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机和摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行面部识别的一系列相关技术,通常也加做人像识别,面部识别。
人脸识别的概念.jpg

2.2 人脸识别的关键技术和流程

关键技术:

  1. 人脸定位:检测范围内出现的人脸、定位、过滤。
  2. 人脸关键点检测:提取人脸关键点位置,常用有5/21/68/468点定位。
  3. 人脸追踪:对检测出的人脸进行追踪。
  4. 人脸图像预处理:光线补偿、直方图均衡化、几何矫正。
  5. 人脸特征提取:通过深度学习将人脸像素特征转化为多维的特征向量。
  6. 特征比对:通过对特征间的距离、寻找最相似的两个特征向量。

人脸识别整体流程
人脸识别流程.jpg

人脸识别落地应用
人脸识别工程化应用.jpg

2.3人脸识别算法Retinaface的训练和数据集

RetinaFace原理
详见sansa大佬的博客,这里不展开细讲
https://zhuanlan.zhihu.com/p/103005911
代码地址:
https://github.com/biubug6/Pytorch_Retinaface
数据集处理
该地址包含干净的Wideface数据集:https://github.com/Linzaer/Ultra-Light-Fast-Generic-Face-Detector-1MB
这个是数据集官方网站的地址:
http://shuoyang1213.me/WIDERFACE/
下载后的数据集一共包含这三个:
widerface数据集.jpg

此时的文件夹是只有图片的,然而作者要求的数据格式是:

├── wider_face:  存放数据集根目录
      ├── WIDER_train: 训练集解压后的文件目录
      │          └──  images: 
      │                   ├──  0--Parade:         对应该类别的所有图片
      │                   ├──  ........
      │                   └──  61--Street_Battle: 对应该类别的所有图片
      │
      ├── WIDER_val: 验证集解压后的文件目录
      │          └──  images: 
      │                   ├──  0--Parade:         对应该类别的所有图片
      │                   ├──  ........
      │                   └──  61--Street_Battle: 对应该类别的所有图片
      |
      ├── WIDER_test: 训练集解压后的文件目录
      │          └──  images: 
      │                   ├──  0--Parade:         对应该类别的所有图片
      │                   ├──  ........
      │                   └──  61--Street_Battle: 对应该类别的所有图片
      │
      └── wider_face_split: 标注文件解压后的文件目录
                  ├──  wider_face_train.mat:         训练集的标注文件,MATLAB存储格式
                  ├──  wider_face_train_bbx_gt.txt:  训练集的标注文件,txt格式
                  ├──  wider_face_val.mat:           验证集的标注文件,MATLAB存储格式
                  ├──  wider_face_val_bbx_gt.txt:    验证的标注文件,txt格式
                  ├──  wider_face_test.mat:          测试集的标注文件,MATLAB存储格式
                  ├──  wider_face_test_filelist.txt: 测试的标注文件,txt格式
                  └──  readme.txt:                   标注文件说明

所以我们还少了数据的索引文件,这时候要使用作者提供的脚本wider_val.py,将图片信息导出成txt文件:

# -*- coding: UTF-8 -*-
'''
@author: mengting gu
@contact: 1065504814@qq.com
@time: 2020/11/2 上午11:47
@file: widerValFile.py
@desc:
'''
import os
import argparse

parser = argparse.ArgumentParser(description='Retinaface')
parser.add_argument('--dataset_folder', default=r'E:\pytorch\Retinaface\data\widerface\WIDER_val\images/', type=str, help='dataset path')
args = parser.parse_args()

if __name__ == '__main__':
    # testing dataset
    testset_folder = args.dataset_folder
    testset_list = args.dataset_folder[:-7] + "label.txt"

    with open(testset_list, 'r') as fr:
        test_dataset = fr.read().split()
    num_images = len(test_dataset)

    for i, img_name in enumerate(test_dataset):
        print("line i :{}".format(i))
        if img_name.endswith('.jpg'):
            print("     img_name :{}".format(img_name))
            f = open(args.dataset_folder[:-7] + 'wider_val.txt', 'a')
            f.write(img_name + '\n')
    f.close()

导出后的完整格式如下:
数据集格式.jpg

为了进一步方便大家理解txt文件内容的含义,我们打开wider_face_train_bbx_gt.txt文件,比如第一行0--Parade/0_Parade_marchingband_1_849.jpg代表图片的路径,第二行的1代表在该图片中人脸的数量为1个。第三行449 330 122 149 0 0 0 0 0 0为人脸的详细信息。从第四行开始又是另一张图片,以此类推。

0--Parade/0_Parade_marchingband_1_849.jpg
1
449 330 122 149 0 0 0 0 0 0 
0--Parade/0_Parade_Parade_0_904.jpg
1
361 98 263 339 0 0 0 0 0 0 
0--Parade/0_Parade_marchingband_1_799.jpg
21
78 221 7 8 2 0 0 0 0 0 
78 238 14 17 2 0 0 0 0 0 
113 212 11 15 2 0 0 0 0 0 
134 260 15 15 2 0 0 0 0 0 
163 250 14 17 2 0 0 0 0 0 
201 218 10 12 2 0 0 0 0 0 
182 266 15 17 2 0 0 0 0 0 
245 279 18 15 2 0 0 0 0 0 
304 265 16 17 2 0 0 0 2 1 
328 295 16 20 2 0 0 0 0 0 
389 281 17 19 2 0 0 0 2 0 
406 293 21 21 2 0 1 0 0 0 
436 290 22 17 2 0 0 0 0 0 
522 328 21 18 2 0 1 0 0 0 
643 320 23 22 2 0 0 0 0 0 
653 224 17 25 2 0 0 0 0 0 
793 337 23 30 2 0 0 0 0 0 
535 311 16 17 2 0 0 0 1 0 
29 220 11 15 2 0 0 0 0 0 
3 232 11 15 2 0 0 0 2 0 
20 215 12 16 2 0 0 0 2 0 

数据集的格式介绍引用了两位大佬的博客内容,详解大家可以看两位大佬的博客,博客链接如下:
太阳花的小绿豆
pogg_
PauIX老师提供了转换后的txt文件,大家可以直接使用。
https://pan.baidu.com/s/1Laby0EctfuJGgGMgRRgykA

模型训练

python train.py --network mobile0.25 

如有需要,请先下载预训练模型,放在weights文件夹中。如果想从头开始训练,则在data/config.py文件中指定'pretrain': False

2.4 本节课的小作业

原来的detect.py只能检测图片,新建detect_video.py实现视频检测,在detect.py的基础上进行修改,修改的代码位于main函数中,具体修改如下:

 # testing begin
    #     for i in range(100):
    image_path = "./curve/Kuangbiao.mp4"
    save_path = "./results/testout.mp4"
    img_raw = cv2.VideoCapture(image_path)
    frames = int(img_raw.get(cv2.CAP_PROP_FRAME_COUNT))
    size = (int(img_raw.get(cv2.CAP_PROP_FRAME_WIDTH)), int(img_raw.get(cv2.CAP_PROP_FRAME_HEIGHT)))
    fourcc = cv2.VideoWriter_fourcc(*'XVID')
    out = cv2.VideoWriter(save_path, fourcc, 25.0, size)

    for j in range(frames):
        ref, frame = img_raw.read()
        img = np.float32(frame)
        im_height, im_width, _ = img.shape
        scale = torch.Tensor([img.shape[1], img.shape[0], img.shape[1], img.shape[0]])
        img -= (104, 117, 123)
        img = img.transpose(2, 0, 1)
        img = torch.from_numpy(img).unsqueeze(0)
        img = img.to(device)
        scale = scale.to(device)

        tic = time.time()
        loc, conf, landms = net(img)  # forward pass
        print('net forward time: {:.4f}'.format(time.time() - tic))

3. AidLux部署Retinaface

AidLux部署Retinaface的流程,大家可以观看本次训练营的课程,这里不再展开讲。笔者此前也参加过训练营并写了博客,博客中详细介绍了AidLux的使用说明以及算法在AidLux平台部署的过程,大家可以参考着部署人脸识别算法Retinaface。
https://blog.csdn.net/weixin_42538848/article/details/129256231

4. AI视觉算法开发平台介绍及使用

AI视觉算法开发平台,是华勤技术基于自研结构化架构+海量自研AI算法+算法应用/训练/开发功能的一站式AI应用解决方案平台,可跨平台部署,支持一体机/服务器/云端多场景使用。任何想要给自己AI赋能的团队或者个人,无需额外人力,都能快速拥有AI算法开发的能力。
AI中台.jpg

华勤AI中台的使用
首先打开手机端的AidLux,然后点击应用中心,在应用中心里下载安装aid-IVS软件,安装后才能在进入AI中台。具体流程如下:
ai中台下载.jpg

安装完成aid-IVS后,打开终端,cd至zhongtai目录,执行bash start.sh脚本。
打开AI中台.jpg

之后再重新打开一个网页,将8000端口改为8088即可打开中台:
中台主页.jpg

笔者录制了一份AI中台部署人脸识别算法的操作视频,按照训练营课程内容模拟动态人脸识别全流程,尝试在AI技术中台系统中加载自己的视频流,运行人脸识别项目,完成整个流程的串联。
操作视频

5. 学习心得

笔者最近也在尝试做人脸识别算法,通过AidLux动态人脸识别AI实战训练营的学习,对于人脸识别算法在AidLux平台和AI中台的部署应用有了新的认识,从中受益良多,在此感谢成都阿加犀公司和华勤公司提供的学习平台,感谢PauIX老师的授课。

目录
相关文章
|
3天前
|
机器学习/深度学习 算法 API
【Paddle】PCA线性代数基础 + 领域应用:人脸识别算法(1.1w字超详细:附公式、代码)
【Paddle】PCA线性代数基础 + 领域应用:人脸识别算法(1.1w字超详细:附公式、代码)
8 0
|
3天前
|
人工智能 NoSQL atlas
Atlas Vector Search:借助语义搜索和 AI 针对任何类型的数据构建智能应用
一切才刚刚开始,MongoDB 致力于提供优秀的开发者数据平台,助力开发者打造新一代 AI 赋能的应用
1262 2
|
3天前
|
人工智能 NoSQL atlas
Fireworks AI和MongoDB:依托您的数据,借助优质模型,助力您开发高速AI应用
我们欣然宣布MongoDB与 Fireworks AI 正携手合作让客户能够利用生成式人工智能 (AI)更快速、更高效、更安全地开展创新活动
1264 1
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来:AI在持续学习系统中的创新应用
【5月更文挑战第11天】 随着人工智能(AI)技术的飞速发展,其在教育领域的应用日益增多。特别是在持续学习系统(Lifelong Learning Systems, LLS)中,AI技术正开启着个性化和适应性教学的新篇章。本文聚焦于AI在LLS中的创新应用,探讨了机器学习、自然语言处理和认知建模等关键技术如何共同作用于构建智能化的学习环境。文章旨在分析当前AI技术在持续学习领域的最新进展,并展望其对未来教育模式的影响。
|
3天前
|
机器学习/深度学习 人工智能 自动驾驶
构建未来:AI在持续学习系统中的创新应用
【5月更文挑战第11天】 在人工智能的迅猛发展浪潮中,一个不断进化的分支便是AI在持续学习系统中的应用。本文旨在探讨AI技术如何革新持续学习系统,并分析其在不同领域的创新实践。文章首先界定了持续学习系统的概念,随后深入解析了深度学习、强化学习以及转移学习等关键技术在其中的作用。通过案例分析,展示了这些技术如何在医疗诊断、自动驾驶及个性化教育中发挥至关重要的角色。最终,讨论了面临的挑战与未来的发展趋势,为读者提供了一个关于AI在持续学习领域未来可能展开的蓝图。
20 1
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术的应用和发展
【5月更文挑战第10天】AI技术的应用和发展
24 1
|
3天前
|
数据采集 人工智能 安全
以AI对抗AI,瑞数“动态安全+AI”助力在线反欺诈
瑞数信息也将进一步加强在反欺诈领域的技术革新和实践,助力企业全方位筑牢网络安全防线,努力实现“御敌于千里之外”。
|
3天前
|
人工智能 搜索推荐 机器人
AI在医疗领域的突破性应用:重塑未来的医疗格局
【5月更文挑战第9天】AI正重塑医疗领域,从医学影像诊断的自动化提升准确性,到个性化治疗方案的制定,智能手术与机器人辅助提高手术安全,预防性医学借助大数据预测健康风险,智能调度优化医院运营,以及聊天机器人和虚拟健康助手提供便捷咨询。这些突破性应用将深刻改变医疗格局,实现更高效率和精度的医疗服务。
|
3天前
|
人工智能 计算机视觉
CVPR 2024:跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式
【5月更文挑战第6天】南洋理工大学研究团队在CVPR 2024会议上提出SurMo,一种动态人体渲染新方法,能高度还原视频中的人物动作和细节,如飞扬的裙摆。SurMo通过4D运动建模,结合表面运动编码、物理运动解码和4D外观解码,实现动态图像的精确合成。尽管面临复杂动作捕捉和计算资源需求的挑战,SurMo在动态人体渲染任务上表现出色,展现了表面基运动三角平面的强大表达能力。[论文链接](https://arxiv.org/pdf/2404.01225.pdf)
19 1
|
3天前
|
人工智能 自然语言处理 搜索推荐
AI在医疗领域的应用有哪些?
【5月更文挑战第7天】AI在医疗领域的应用有哪些?
50 6

热门文章

最新文章