阿里视觉智能开放平台(灵杰AI开放服务)【评测】人脸活体检测、智能美肤、文字识别等功能很多等待你的开发

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
简介: 阿里视觉智能开放平台(灵杰AI开放服务)DetectLivingFace 人脸活体检测、智能美肤、文字识别等功能很多等待你的开发

阿里视觉智能开放平台之DetectLivingFace 人脸活体检测


人脸活体检测(DetectLivingFace)能力可以检测图片中的人脸是否为来自认证设备端的近距离裸拍活体人脸对象,可广泛应用在人脸实时采集场景,满足人脸注册认证的真实性和安全性要求。活体判断的前置条件是图像中有人脸。具有针对手机、门禁机、考勤机、PC智能终端认证设备场景下的对翻拍、PS图片、打印图片、高仿模具等作弊攻击的高精度拦截的核心产品优势。广泛适用于系统人脸登录防攻击、门禁闸机刷脸通行、金融远程身份认证等实人认证场景。产品通过标准API被轻量化集成,让所有开发者可一键拥有人脸活体检测能力。


1.人体人脸

1.1人脸检测与五官定位

功能描述

人脸检测与五官定位能力可以检测图片中的人脸并给出每张人脸定位和关键点信息。输出人脸数量、人脸矩形坐标、人脸姿态、双瞳孔中心坐标、人脸置信度列表等信息。支持检测含有多张人脸的照片。

应用场景

人脸关键点检测,是后续识别、分析和特效应用的基础。它为人脸识别、表情分析、疲劳检测、三维人脸重建、人脸美颜、换脸等人脸相关应用提供了人脸精确信息。

特色优势

  • 1.稠密关键点:提供105个关键点,足以应对人脸识别、姿态矫正、换脸等要求高精度人脸定位的应用。
  • 2.适应能力强:适应最大90度侧脸,平面360旋转人脸等情景。适用于各种应用场景。
  • 3.支持多人脸:支持在同张图中检测上千个人脸。

实战测试

image.png

image.png

image.png

快速识别出授权图像中人脸数量和区域,输出数量、矩行坐标、姿态、双瞳孔中心坐标、105关键点等信息,可支持多人场景的检测。更多开源免费模型体验及下载,详见魔搭社区:FLCM人脸关键点置信度模型RetinaFace人脸检测关键点模型MogFace人脸检测模型-largeTinyMog人脸检测器-tinyMtcnn人脸检测关键点模型ULFD人脸检测模型-tiny


可以看出在多人、单人、跨年龄层都取得不错的效果

1.2 人脸活体检测

功能描述

人脸活体检测能力可以检测图片中的人脸是否为来自认证设备端的近距离裸拍活体人脸对象,可广泛应用在人脸实时采集场景,满足人脸注册认证的真实性和安全性要求。活体判断的前置条件是图像中有人脸。

能力范围来看:

1. 认证设备端是指借助近距离裸拍活体正面人脸用于认证、通行等服务场景的含RGB摄像头的硬件设备,常见的认证设备端有手机、门禁机、考勤机、PC等智能终端认证设备。

2. 裸拍活体正面人脸是指真人未经重度PS、风格化、人工合成等后处理的含正面人脸(非模糊、遮挡、大角度的正面人脸)的照片。常见的非真人有纸张人脸、电子屏人脸等;常见经过重度PS后处理的照片有摆拍街景照、摆拍人物风景照、摆拍证件照等;常见的其他后处理及生成照片有动漫人脸、绘画人脸等。

应用场景

  • 系统人脸登录防攻击:通过检测上传的图像是否为真人实拍,而非攻击及PS等后处理照片,以防止攻击者登录系统带来安全风险。
  • 门禁闸机刷脸通行:面向人脸注册和认证环节设备端实时的活体检测,实现注册与认证过程中的真人校验,防止非法分子盗用、伪造他人身份打卡通行。
  • 智慧酒店自助入住:在酒店前台自助办理入住场景中,运用活体检测技术实现无人监管场景下,住客非活体攻击(纸张人脸、电子屏人脸)的高效率拦截。
  • 金融远程身份认证:面向投资理财、基金交易、保险理赔等金融业务的活体检测需求,高效率实现对翻拍、PS图片、打印图片、高仿模具等攻击的拦截,确保用户身份真实。

特色优势

  • 基于图片中人像目标的高维度特征(风格化、摩尔纹、成像畸形等),判断目标对象是否为活体,有效防止屏幕二次翻拍等作弊攻击,支持单张或多张判断逻辑。
  • 灵活支持RGB摄像头设备的实时活体检测,可有效防止翻拍、头模、打印图片等样本攻击。
  • 简单易用:可直接调用的API接口,服务简单易用,易被集成,兼容性强。

输入限制

  • 图像格式:PNG、JPG、JPEG、BMP、GIF、WEBP。
  • 图像大小:不超过10 MB。如您有大图需求,请通过钉钉群(23109592)联系我们。
  • 图像分辨率:建议大于256×256像素,像素过低可能会影响识别效果。
  • URL地址中不能包含中文字符。

检测说明

  • 最长检测时间是5秒,如果在该时间内没有完成检测,系统会强制返回超时错误码。
  • 图像下载时间限制为3秒,如果下载时间超过3秒,系统会返回下载超时。
  • 图像检测接口响应时间依赖图像的下载时间。请保证被检测图像所在的存储服务稳定可靠,建议您使用阿里云OSS存储或者CDN缓存。
  • 最多可检测10张图像。


实战测试

image.png

image.png

image.png

image.png

image.png


可以看出这个活体检测效果很出众,可以快速把真人直照和翻照(照片、卡通等)识别出来


1.高精度防伪、尊重隐私、高灵敏拦截、简单易用

2.人脸活体检测功能使用起来非常简单,尤其是api调用方式很简单,而且使用文档写的也很详细


image.png


1.3 智能美肤

功能描述

智能美肤功能可实现输入一张人物图像,自动对脸部以及全身皮肤进行美肤,同时尽可能的保留皮肤质感。功能支持情况如下:

  • 脸部美肤:脸部区域匀肤、去瑕疵,比如:痘、痘印、雀斑等。
  • 全身皮肤:全身皮肤区域美白。
  • 多人照片:支持不超过10人的多人图片处理。

应用场景

  • 专业修图:可用于影楼、电商、图片直播等专业摄影场景,利用智能美肤算法快速进行美肤修图,提高工作效率。
  • 美颜拍摄:用于娱乐、生活等场景,提高人物美观度。

特色优势

  • 保留皮肤质感:使用深度学习算法,实现精准美肤,皮肤光滑有质感。
  • 保持背景稳定:仅对裸露的皮肤区域进行修饰,不影响背景区域。
  • 支持多人美肤:支持单张图像中多人的美肤。

效果展示:

image.png

image.png

image.png

可以看出美颜效果很不错!


1.4 更多功能简介:

人脸属性识别

检测授权图像中信息,输出人脸数量,概率、性别、年龄、表情(中性/微笑)、是否戴眼镜、是否佩戴口罩等多种属性,实现高性能的属性识别。

image.png

image.png


动作行为识别

判断输入授权图片的人体动作行为,当前可以识别的行为类别包括:举手、吃喝、吸烟、打电话、玩手机、趴桌睡觉、跌倒等动作。

image.png

image.png

更多有趣功能自行尝试


2.阿里视觉智能开放平台其他开放能力

2.1 概况预览

image.png


参考文档:https://help.aliyun.com/document_detail/155007.html?spm=a2c4g.11186623.0.0.33a45487V5u43t


2.1文字识别

2.1.1 表格识别


自动识别表格位置、表格内容信息,适用于黑色的,横线、竖线都齐全的表格中内容识别。

image.pngimage.png

image.png

2.1.2 PDF识别

image.png

整体看到效果很不错

相关文章
|
4月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之是否可以实现批量功能
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
4月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之如何在线调用视频人像增强功能
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
6月前
|
人工智能 网络安全 开发工具
视觉智能开放平台操作报错合集之服务部署在pdd的服务器,调用报错:The SSL connection could not be established,该如何解决
在使用视觉智能开放平台时,可能会遇到各种错误和问题。虽然具体的错误代码和消息会因平台而异,但以下是一些常见错误类型及其可能的原因和解决策略的概述,包括但不限于:1. 认证错误、2. 请求参数错误、3. 资源超限、4. 图像质量问题、5. 服务不可用、6. 模型不支持的场景、7. 网络连接问题,这有助于快速定位和解决问题。
139 0
|
4月前
|
机器学习/深度学习 文字识别 前端开发
基于 Spring Boot 3.3 + OCR 实现图片转文字功能
【8月更文挑战第30天】在当今数字化信息时代,图像中的文字信息越来越重要。无论是文档扫描、名片识别,还是车辆牌照识别,OCR(Optical Character Recognition,光学字符识别)技术都发挥着关键作用。本文将围绕如何使用Spring Boot 3.3结合OCR技术,实现图片转文字的功能,分享工作学习中的技术干货。
209 2
|
4月前
|
文字识别 前端开发 算法
视觉智能开放平台产品使用合集之是否支持识别头发和发质的功能
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
4月前
|
文字识别 算法 API
视觉智能开放平台产品使用合集之同图检测功能是什么意思
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
32 0
|
5月前
|
文字识别 Java API
印刷文字识别使用问题之发票凭证识别功能是否可以对接ERP系统
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
5月前
|
文字识别
印刷文字识别使用问题之自定义模板功能在什么地方
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
5月前
|
人工智能 文字识别 开发工具
印刷文字识别使用问题之是否支持识别并返回文字在图片中的位置信息
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。
|
5月前
|
人工智能 JSON 文字识别
印刷文字识别使用问题之如何数电发票进行识别
印刷文字识别产品,通常称为OCR(Optical Character Recognition)技术,是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中,显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

热门文章

最新文章

相关产品

  • 视觉智能开放平台