达摩院视觉AI课 | 学习笔记

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 快速学习达摩院视觉AI课

开发者学堂课程【达摩院视觉AI课达摩院视觉AI课】学习笔记,与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/335/detail/3833


达摩院视觉AI介绍

 

内容介绍:

一、平台概述

二、产品核心功能

三、演示:服务开通&调用

 

一、平台概述

1.视觉智能开放平台简介

使命:让天下没有难用的视觉AI

与阿里巴巴天下没有难做的生意使命是一脉相承的

目标∶聚合阿里内外视觉能力,打造以公共云API能力为内核的视觉开放平台,提供统一的产品体验、提供统一的接入标准,丰富案例和工具套件,让开发者和业务伙伴省心、安心的集成使用,构建AI应用生态和品牌阵地,成为国内领先的公共云视觉能力供给方。

1.png

 

简单来说,即搭平台、聚能力、树品牌、建生态

健康的AI生态从原子能力出发,结合AI能力构建上层产品,通过产品落地成一套包含业务或场景的解决方案,本平台关注的主要是两块,

图中最基础的原子或分子AI能力供给,开发者给予用户和用户伙伴给予平台提供的能力,完善自己的产品,落地成一个解决方案,提供给自己的客户。

阿里云视觉智能开放平台致力于让视觉AI触手可及,助力商业数字新基建2.png

 

整个视觉智能开放平台构建在阿里云平台基础设施之上,确保数据可靠性和服务稳定性,同时结合达摩院及阿里经济体内众多的科学家与工程师提供的AI能力,借助阿里云的底座及阿里团队安全的运转,从客户数据、数据脱敏、模型安全、合规审计等多个维度出发,构建提供全链路的安全措施,同时结合云端一体化的框架,最终对平台用户提供专业、多样、实用、易用的AI能力,专业、多样、实用、易用是视觉智能平台的核心优势,专业指平台聚集了达摩院、阿里经济体内的图像、视频、3D视觉等领军内的科学家和工程师沉淀出来的AI能力,打造全球领先的视觉智能技术商业化服务平台,让天下没有难用是视觉AI能力,多样指平台提供的阿里经济体全方位视觉AI能力的输出,汇聚了规模化、多样化以及力度的场景化的视觉AI能力,从而为开发者和用户提供一站式AI能力选择,平台拥有从阿里经济体内海量场景级最佳案例中锤炼出的AI能力,同时依托阿里云智能坚实的基础设施服务,平台采用通用且标准化的接口方式,为开发者和用户提供实用且易用的视觉AI能力,让用户可以快速接入使用平台的视觉AI能力,用户的资源可以专注在侧,以上是平台的优势。

 

二、产品核心功能

视觉智能开放平台产品能力介绍

1.多样、实用、开放的AI能力

3.png

 

平台目前囊括了人脸人体、文字识别、商品理解等15个大类的能力,细分的能力有超过150多种,目前业内常用或不常用的能力都可以在平台上找到,平台还在上架一些比较前沿的科技的视觉AI能力,给到平台用户使用

每个大类下有几种或数十种类目相关的原子能力

 

2.文字识别

(1)功能列表

·身份证识别   ·驾驶证识别   ·出租车发票识别

·户口页识别   ·行驶证识别   ·火车票识别

·银行卡识别   ·车牌识别    ·营业执照识别

·名片识别    ·VIN码识别    ·公章识别

文字识别下有身份证识别、银行卡识别、名片识别、车辆识别等不同产品下需要的原子识别的AI能力,结合不同的应用场景,用户可以方便使用。

 

(2)应用场景

注册登记审核

通过身份证、护照、银行卡等能力可以快速准确的识别上传的证件,高达99%的识别准确率,可以提升审核效率,降低人工审核录入成本。

解决各种金融,医疗以及企业日常报销等场景的票据识别问题,通过诸如增值税发票、出租车发票、火车票等细分场景里的票证识别能力,实现高效.快速、低成本的各种行业票剧等识别与录入能力。

 

3.人脸人体

(1)功能列表

·人脸数量检测   ·性别识别    ·人脸置信度检测

·人脸口罩检测   ·年龄识别    ·人脸姿态检测

·人脸特征点检测  ·简单表情识别  ·人脸特征点定位检测

·人脸定位检测   ·佩戴眼镜识别  ·瞳孔检测

人脸人体类目下有人脸数量检测、比对、搜索等原子AI能力,是由数十种之多。

 

(2)应用场景

身份验证

基于图像或视频输入进行检测,与注册库比对,实现1:N的人脸比对,或与证件比对,实现1∶1的人脸比对。适用于人脸登录、VIP人脸识别、人脸通关等无需刷卡验证的场景。

通过人脸特征点定位跟踪识别,进行3D人脸重建估计、识别摇头、眨眼、张嘴等动作,判断是否为真人。在安检、APP等场景进行安全身份验证时使用。

 

切换到官网业内进行演示

4.png

 

直接访问阿里云官网,aliyun.com,找到产品,产品类目下人工智能区域找到视觉智能平开放台

5.png

 

点击进入,或直接搜索vision.aliyun.com进入平台

平台首页可以看到炫酷的人像,这个是比较热门的活动和一些推荐在此展现

6.png

 

往下拖动是一些比较热门的算法,如属性识别、人脸搜索1:N、通用识别、车牌识别等,感兴趣可以进入官网试用

7.png 

 

点击算法,进入算法详情页面

首页往下滑动是平台介绍、最新动态、平台上的案例、合作伙伴等

首页右侧可以看到钉钉群二维码,里面有一些技术支持同学在里面解答用户常见问题以及使用过程的咨询,

在首页顶部有能力广场,是平台所有算法的展示

8.png 

 

左侧有十多个类目,每个类目下的具体算法

点击类目名,可以进入类目的介绍页

9.png 

 

里面有类目的描述,立即开通、技术文档、产品价格

目前平台绝大部分算法处于公测免费的使用,大家可以调用,不收取费用,还有一部分算法实现商业化

10.png 

 

会提供QPS或资源包调用的计费模式,点击产品价格查看

目前主要是人脸比对1:1、人脸检测、行人检测等几个算法

类目页下方根据算法的关联性做归类,如人脸属性类、比对类、检测类、编辑类分别将人脸的数十个算法归类到下方

11.png

 

点击卡片体验调试进入详情页,与在能力广场直接进入是一样的,都是算法的详情页

展示详情页:

假设点击文字识别的车辆交通类的车牌识别

12.png

 

进入后在详情页顶部有算法介绍,算法中实现什么功能以及场景的使用

点击免费开通可以立即开通

13.png

 

使用刷卡前需要开通服务才能走后台调用,已开通本服务,前往控制台调用

详情页体验调试里面,不需要开通就能调试

图中有预设的车牌图,右侧是调用可视化展示。也可以上传自己的图片展示测试效果

14.png

 

可视化结果中点击代码展示

是调用JSON的数据结构的展示,对于开发同学是有帮助的

如果详细了解细节,点击帮助文档

15.png

 

有单层算法详细的请求参数和返回数据结构的描述以及数据结构的示例,开发者可以了解更多细节

下面是调用的请求参数和真实请求URL

16.png

 

下面是算法示例代码,目前提供了Java、Node.js、Go、Python、.Net、Ruby等代码的示范,有其他更多的算法支持了解17.png

 

下面是技术文档、HTTP SDK、新手指导的连接

帮助文档是比较重要的一部分,对开发者而言,帮助文档是直观的方式帮助快速了解算法的输入输出

18.png

 

进入帮助中心左侧是阿里云视觉智能开放平台的页面,从上往下有产品简介、使用平台的限制介绍、目前平台的产品公测及商业化情况、快速入门,建议新手重点了解快速入门,方便快速熟悉平台教程。

下面还有SDK及其详细介绍,如车牌识别是文字识别中的车辆交通类识别,点击进入车牌识别

19.png

 

介绍页描述当前算法的信息,算法输入的限制,即详情页帮助文本相同的内容,当前算法的请求参数和返回数据字段描述

车牌识别首先输入上海地域的OSS链接,如果需要非上海区域,尝试用本地上传的方式,在SDK参考中Java支持本地上传,直接传入图片,返回数据会对每个字段做描述,方便了解输入输出协议

20.png

 

输入输出格式的示例

除去帮助文档重点查看,还包括平台中提供的控制台

21.png

 

进入控制台首先是整个平台的概览,已开通的能力,可以自行登陆官网开通,开通是免费的,绝大部分算法目前是公测和免费调用,查看有无适合自己的算法并尝试使用,还包括当前一周的能力总调用量,再查询出出详情,还包括未开通能力的概览

点击进入平台官网,回到平台官网页面,开发能力每个类目都能点击查

22.png

 

在类目详情页当前资源包,能够显示资源包使用情况

23.png

 

类目下的调用情况也可以查询,对应当前算法的使用情况与限制配置都可以查看,图中可以看到购买的检测资源包,购买时间、到期时间、调用量限制

人脸人体、视觉搜索涉及图收,有一个图像数据库派发图像数据库管理能力,可以直接使用API的方式管理数据库24.png 

 

可以在界面上直接操作,用户也可以查看帮助文档中图片数据库的描述,创建的各种数据库、查询或添加样本都有对应的API提供,使用能力时可以直接查看参数

 

三、演示:服务开通&调用

人脸检测定位教程演示

调用服务要有前提,首先要有阿里云的账号,账号下创建AccessKey

不会创建查看创建AccessKey

在控制台中进入RAM访问控制,是对此账号和AK管理,点击人员管理、用户、创建子账号,如test2020lx2,显示名称test

25.png

 

只需要编程访问,启动AccessKey和AccessKey Secret点击确定

账号绑定安全设备,需要输入验证码

建议使用阿里云账号是,绑定安全设备,多重认证,账号被盗的概率很低

将复制存储,方便后期使用

26.png

创建用户后,需要给用户授权,是阿里云账号的权限管理,不同账号可以使用阿里云上不同的资源,输入VIAPI,是视觉智能平台的简称,设置完成后,账号具备调用平台的权限

API创建后,在接口中需要传入图片地址,上海地域OSS,回到控制台,创建

27.png

 

选择上海区域,读写控制简单调式设置为公共读,生产业务建议设置为私有,使用OSS生成签名链接的方式,会更加安全。

Bucket创建完成后,创建文件

28.png

 

上传图片,会得到一个URL地址,拷贝一下

也可以直接用本地图片上传调用,使用IntelliJ IDEA创建javai项目

29.png

 

创建项目后,添加POM依赖

添加了两个依赖,第一个依赖是阿里云的核心库,人脸人体提供的SDK,将二者添加,将对应的架包下载到本地

com.aliyun

aliyun-java-sdk-core

4.5.14


com.aliyun

aliyun-java-sdk-facebody

1.2.2


查看示例代码,创建class,添加java类

将代码拷入

AK不能随意泄露给别人,他人拿到AK可以直接调用服务,本次的AK是临时创建,之后会删掉


 

也可以直接用示例代码中的图片,刚刚已经上传图片,使用刚刚上传的图片,发起调用就可以,请求成功

30.png

 

数据打印出来对应requestId,data字段,里面有一张人脸faceCount、区域矩形框,对应的特征点,调用是成功的

完成注册AK,同时在上海区域的OSS上创建图片链接,同时用AK完成一次人脸检测定位的简单调用,更复杂的调用,OSS用私有的方式访问,做OSS签名的URL,平台目前是支持OSS URL签名访问的,如果不想使用上海区域OSS,使用本地图片上传的方式调用,建议使用上海OSS Bucket,可以节省本地消耗,速度更快。

相关文章
|
19天前
|
人工智能 编解码 安全
[译][AI OpenAI-doc] 视觉
学习如何使用 GPT-4 来理解图像。具有视觉功能的 GPT-4 Turbo 允许模型接收图像并回答与之相关的问题。了解图像上传、处理、成本计算、模型限制等详细信息。
|
27天前
|
人工智能 编解码 安全
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
【4月更文挑战第14天】清华大学与新加坡国立大学团队针对大型多模态模型(LMMs)在处理高分辨率图像时的局限,提出新模型LLaVA-UHD。该模型通过图像模块化、压缩和空间模式组织策略,有效提升了处理任意比例和高分辨率图像的能力。实验显示,LLaVA-UHD在9个基准测试中超越现有模型,且在TextVQA任务上准确率提升6.4%,同时训练时间更短。然而,模型训练成本高、泛化能力待优化是未来需解决的问题。
32 8
揭秘AI幻觉:GPT-4V存在视觉编码漏洞,清华联合NUS提出LLaVA-UHD
|
2月前
|
人工智能 UED
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
【2月更文挑战第17天】“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
104 1
“视觉AI任意门”AnyDoor,只需点两下鼠标就可以实现任意场景物体交换
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
探索无限:Sora与AI视频模型的技术革命 - 开创未来视觉艺术的新篇章
探索无限:Sora与AI视频模型的技术革命 - 开创未来视觉艺术的新篇章
61 1
|
2月前
|
机器学习/深度学习 人工智能 知识图谱
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
【2月更文挑战第16天】LeCun视觉世界模型论文,揭示AI学习物理世界的关键
19 2
LeCun视觉世界模型论文,揭示AI学习物理世界的关键
|
4月前
|
机器学习/深度学习 存储 人工智能
如何在本地部署视觉AI系统呢
如何在本地部署视觉AI系统呢
|
4月前
|
存储 机器学习/深度学习 人工智能
视觉AI的公共云服务有哪些优势
视觉AI的公共云服务有哪些优势
|
4月前
|
人工智能 API 开发工具
视觉AI的公共云
视觉AI的公共云
|
4月前
|
人工智能 算法 小程序
【AI 学习笔记】第二章:国内套壳犹如雨后春笋,贩卖焦虑成最大赢家
【AI 学习笔记】第二章:国内套壳犹如雨后春笋,贩卖焦虑成最大赢家
|
4月前
|
人工智能 自然语言处理 机器人
【AI 学习笔记】第一章:chatGPT的降临,让我害怕
【AI 学习笔记】第一章:chatGPT的降临,让我害怕