达摩院视觉AI课 | 学习笔记

本文涉及的产品
对象存储 OSS,OSS 加速器 50 GB 1个月
简介: 快速学习达摩院视觉AI课

开发者学堂课程【达摩院视觉AI课达摩院视觉AI课】学习笔记,与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/335/detail/3833


达摩院视觉AI介绍

 

内容介绍:

一、平台概述

二、产品核心功能

三、演示:服务开通&调用

 

一、平台概述

1.视觉智能开放平台简介

使命:让天下没有难用的视觉AI

与阿里巴巴天下没有难做的生意使命是一脉相承的

目标∶聚合阿里内外视觉能力,打造以公共云API能力为内核的视觉开放平台,提供统一的产品体验、提供统一的接入标准,丰富案例和工具套件,让开发者和业务伙伴省心、安心的集成使用,构建AI应用生态和品牌阵地,成为国内领先的公共云视觉能力供给方。

1.png

 

简单来说,即搭平台、聚能力、树品牌、建生态

健康的AI生态从原子能力出发,结合AI能力构建上层产品,通过产品落地成一套包含业务或场景的解决方案,本平台关注的主要是两块,

图中最基础的原子或分子AI能力供给,开发者给予用户和用户伙伴给予平台提供的能力,完善自己的产品,落地成一个解决方案,提供给自己的客户。

阿里云视觉智能开放平台致力于让视觉AI触手可及,助力商业数字新基建2.png

 

整个视觉智能开放平台构建在阿里云平台基础设施之上,确保数据可靠性和服务稳定性,同时结合达摩院及阿里经济体内众多的科学家与工程师提供的AI能力,借助阿里云的底座及阿里团队安全的运转,从客户数据、数据脱敏、模型安全、合规审计等多个维度出发,构建提供全链路的安全措施,同时结合云端一体化的框架,最终对平台用户提供专业、多样、实用、易用的AI能力,专业、多样、实用、易用是视觉智能平台的核心优势,专业指平台聚集了达摩院、阿里经济体内的图像、视频、3D视觉等领军内的科学家和工程师沉淀出来的AI能力,打造全球领先的视觉智能技术商业化服务平台,让天下没有难用是视觉AI能力,多样指平台提供的阿里经济体全方位视觉AI能力的输出,汇聚了规模化、多样化以及力度的场景化的视觉AI能力,从而为开发者和用户提供一站式AI能力选择,平台拥有从阿里经济体内海量场景级最佳案例中锤炼出的AI能力,同时依托阿里云智能坚实的基础设施服务,平台采用通用且标准化的接口方式,为开发者和用户提供实用且易用的视觉AI能力,让用户可以快速接入使用平台的视觉AI能力,用户的资源可以专注在侧,以上是平台的优势。

 

二、产品核心功能

视觉智能开放平台产品能力介绍

1.多样、实用、开放的AI能力

3.png

 

平台目前囊括了人脸人体、文字识别、商品理解等15个大类的能力,细分的能力有超过150多种,目前业内常用或不常用的能力都可以在平台上找到,平台还在上架一些比较前沿的科技的视觉AI能力,给到平台用户使用

每个大类下有几种或数十种类目相关的原子能力

 

2.文字识别

(1)功能列表

·身份证识别   ·驾驶证识别   ·出租车发票识别

·户口页识别   ·行驶证识别   ·火车票识别

·银行卡识别   ·车牌识别    ·营业执照识别

·名片识别    ·VIN码识别    ·公章识别

文字识别下有身份证识别、银行卡识别、名片识别、车辆识别等不同产品下需要的原子识别的AI能力,结合不同的应用场景,用户可以方便使用。

 

(2)应用场景

注册登记审核

通过身份证、护照、银行卡等能力可以快速准确的识别上传的证件,高达99%的识别准确率,可以提升审核效率,降低人工审核录入成本。

解决各种金融,医疗以及企业日常报销等场景的票据识别问题,通过诸如增值税发票、出租车发票、火车票等细分场景里的票证识别能力,实现高效.快速、低成本的各种行业票剧等识别与录入能力。

 

3.人脸人体

(1)功能列表

·人脸数量检测   ·性别识别    ·人脸置信度检测

·人脸口罩检测   ·年龄识别    ·人脸姿态检测

·人脸特征点检测  ·简单表情识别  ·人脸特征点定位检测

·人脸定位检测   ·佩戴眼镜识别  ·瞳孔检测

人脸人体类目下有人脸数量检测、比对、搜索等原子AI能力,是由数十种之多。

 

(2)应用场景

身份验证

基于图像或视频输入进行检测,与注册库比对,实现1:N的人脸比对,或与证件比对,实现1∶1的人脸比对。适用于人脸登录、VIP人脸识别、人脸通关等无需刷卡验证的场景。

通过人脸特征点定位跟踪识别,进行3D人脸重建估计、识别摇头、眨眼、张嘴等动作,判断是否为真人。在安检、APP等场景进行安全身份验证时使用。

 

切换到官网业内进行演示

4.png

 

直接访问阿里云官网,aliyun.com,找到产品,产品类目下人工智能区域找到视觉智能平开放台

5.png

 

点击进入,或直接搜索vision.aliyun.com进入平台

平台首页可以看到炫酷的人像,这个是比较热门的活动和一些推荐在此展现

6.png

 

往下拖动是一些比较热门的算法,如属性识别、人脸搜索1:N、通用识别、车牌识别等,感兴趣可以进入官网试用

7.png 

 

点击算法,进入算法详情页面

首页往下滑动是平台介绍、最新动态、平台上的案例、合作伙伴等

首页右侧可以看到钉钉群二维码,里面有一些技术支持同学在里面解答用户常见问题以及使用过程的咨询,

在首页顶部有能力广场,是平台所有算法的展示

8.png 

 

左侧有十多个类目,每个类目下的具体算法

点击类目名,可以进入类目的介绍页

9.png 

 

里面有类目的描述,立即开通、技术文档、产品价格

目前平台绝大部分算法处于公测免费的使用,大家可以调用,不收取费用,还有一部分算法实现商业化

10.png 

 

会提供QPS或资源包调用的计费模式,点击产品价格查看

目前主要是人脸比对1:1、人脸检测、行人检测等几个算法

类目页下方根据算法的关联性做归类,如人脸属性类、比对类、检测类、编辑类分别将人脸的数十个算法归类到下方

11.png

 

点击卡片体验调试进入详情页,与在能力广场直接进入是一样的,都是算法的详情页

展示详情页:

假设点击文字识别的车辆交通类的车牌识别

12.png

 

进入后在详情页顶部有算法介绍,算法中实现什么功能以及场景的使用

点击免费开通可以立即开通

13.png

 

使用刷卡前需要开通服务才能走后台调用,已开通本服务,前往控制台调用

详情页体验调试里面,不需要开通就能调试

图中有预设的车牌图,右侧是调用可视化展示。也可以上传自己的图片展示测试效果

14.png

 

可视化结果中点击代码展示

是调用JSON的数据结构的展示,对于开发同学是有帮助的

如果详细了解细节,点击帮助文档

15.png

 

有单层算法详细的请求参数和返回数据结构的描述以及数据结构的示例,开发者可以了解更多细节

下面是调用的请求参数和真实请求URL

16.png

 

下面是算法示例代码,目前提供了Java、Node.js、Go、Python、.Net、Ruby等代码的示范,有其他更多的算法支持了解17.png

 

下面是技术文档、HTTP SDK、新手指导的连接

帮助文档是比较重要的一部分,对开发者而言,帮助文档是直观的方式帮助快速了解算法的输入输出

18.png

 

进入帮助中心左侧是阿里云视觉智能开放平台的页面,从上往下有产品简介、使用平台的限制介绍、目前平台的产品公测及商业化情况、快速入门,建议新手重点了解快速入门,方便快速熟悉平台教程。

下面还有SDK及其详细介绍,如车牌识别是文字识别中的车辆交通类识别,点击进入车牌识别

19.png

 

介绍页描述当前算法的信息,算法输入的限制,即详情页帮助文本相同的内容,当前算法的请求参数和返回数据字段描述

车牌识别首先输入上海地域的OSS链接,如果需要非上海区域,尝试用本地上传的方式,在SDK参考中Java支持本地上传,直接传入图片,返回数据会对每个字段做描述,方便了解输入输出协议

20.png

 

输入输出格式的示例

除去帮助文档重点查看,还包括平台中提供的控制台

21.png

 

进入控制台首先是整个平台的概览,已开通的能力,可以自行登陆官网开通,开通是免费的,绝大部分算法目前是公测和免费调用,查看有无适合自己的算法并尝试使用,还包括当前一周的能力总调用量,再查询出出详情,还包括未开通能力的概览

点击进入平台官网,回到平台官网页面,开发能力每个类目都能点击查

22.png

 

在类目详情页当前资源包,能够显示资源包使用情况

23.png

 

类目下的调用情况也可以查询,对应当前算法的使用情况与限制配置都可以查看,图中可以看到购买的检测资源包,购买时间、到期时间、调用量限制

人脸人体、视觉搜索涉及图收,有一个图像数据库派发图像数据库管理能力,可以直接使用API的方式管理数据库24.png 

 

可以在界面上直接操作,用户也可以查看帮助文档中图片数据库的描述,创建的各种数据库、查询或添加样本都有对应的API提供,使用能力时可以直接查看参数

 

三、演示:服务开通&调用

人脸检测定位教程演示

调用服务要有前提,首先要有阿里云的账号,账号下创建AccessKey

不会创建查看创建AccessKey

在控制台中进入RAM访问控制,是对此账号和AK管理,点击人员管理、用户、创建子账号,如test2020lx2,显示名称test

25.png

 

只需要编程访问,启动AccessKey和AccessKey Secret点击确定

账号绑定安全设备,需要输入验证码

建议使用阿里云账号是,绑定安全设备,多重认证,账号被盗的概率很低

将复制存储,方便后期使用

26.png

创建用户后,需要给用户授权,是阿里云账号的权限管理,不同账号可以使用阿里云上不同的资源,输入VIAPI,是视觉智能平台的简称,设置完成后,账号具备调用平台的权限

API创建后,在接口中需要传入图片地址,上海地域OSS,回到控制台,创建

27.png

 

选择上海区域,读写控制简单调式设置为公共读,生产业务建议设置为私有,使用OSS生成签名链接的方式,会更加安全。

Bucket创建完成后,创建文件

28.png

 

上传图片,会得到一个URL地址,拷贝一下

也可以直接用本地图片上传调用,使用IntelliJ IDEA创建javai项目

29.png

 

创建项目后,添加POM依赖

添加了两个依赖,第一个依赖是阿里云的核心库,人脸人体提供的SDK,将二者添加,将对应的架包下载到本地

com.aliyun

aliyun-java-sdk-core

4.5.14


com.aliyun

aliyun-java-sdk-facebody

1.2.2


查看示例代码,创建class,添加java类

将代码拷入

AK不能随意泄露给别人,他人拿到AK可以直接调用服务,本次的AK是临时创建,之后会删掉


 

也可以直接用示例代码中的图片,刚刚已经上传图片,使用刚刚上传的图片,发起调用就可以,请求成功

30.png

 

数据打印出来对应requestId,data字段,里面有一张人脸faceCount、区域矩形框,对应的特征点,调用是成功的

完成注册AK,同时在上海区域的OSS上创建图片链接,同时用AK完成一次人脸检测定位的简单调用,更复杂的调用,OSS用私有的方式访问,做OSS签名的URL,平台目前是支持OSS URL签名访问的,如果不想使用上海区域OSS,使用本地图片上传的方式调用,建议使用上海OSS Bucket,可以节省本地消耗,速度更快。

相关文章
|
11月前
|
人工智能 计算机视觉
HarmonyOS NEXT AI基础视觉服务-背景替换
这是一个基于AI基础视觉服务的背景替换案例,通过调用设备相册选择图片并智能分割主体,支持动态更换背景颜色。主要步骤包括:1) 导入模块与定义组件;2) 实现图片选择与格式转换;3) 使用`subjectSegmentation.doSegmentation`接口完成主体分割;4) 通过随机RGB值实现背景色动态更换。代码结构清晰,功能完整,适合学习AI图像处理技术。
HarmonyOS NEXT AI基础视觉服务-背景替换
|
11月前
|
存储 人工智能 数据安全/隐私保护
HarmonyOS NEXT AI基础视觉服务-人脸对比
这是一套基于AI基础视觉服务实现的人脸对比系统,用户可通过调用设备相册选择两张图片,系统将提取人脸特征并计算相似度,最终以结构化数据形式展示对比结果(如相似度值和是否为同一人)。代码涵盖模块导入、双图选择、图像处理、人脸对比核心逻辑及UI界面构建,支持异常处理与权限管理,确保功能稳定性和兼容性。适配场景包括身份验证、人脸匹配等,具有较高的实用价值。
HarmonyOS NEXT AI基础视觉服务-人脸对比
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
417 10
AI Compass前沿速览:IndexTTS2–B站、HuMo、Stand-In视觉生成框架、Youtu-GraphRAG、MobileLLM-R1–Meta、PP-OCRv5
|
11月前
|
人工智能 计算机视觉
HarmonyOS NEXT AI基础视觉服务-人脸识别
这是一个基于AI基础视觉服务的人脸识别案例,通过调用设备相册选择图片,利用MediaLibraryKit、ImageKit和CoreVisionKit等模块完成图像处理与人脸检测,并展示结构化结果。核心功能包括:相册访问授权、图像数据转换、人脸位置及特征点检测,最终以弹窗形式输出检测信息。代码涵盖模块导入、功能实现与UI构建,适合学习AI视觉应用开发流程。
|
9月前
|
人工智能 IDE 开发工具
📘 AI Clouder认证学习笔记|从初入江湖到晨光乍现
正如史蒂夫·乔布斯所言:“求知若渴,虚心若愚。”本文是一篇AI Clouder认证学习笔记,记录了一位初学者在探索AI领域的过程中所经历的挑战与成长。作者分享了从软件安装问题到技术工具掌握的心路历程,并强调了心态与自驱力的重要性。通过Python编程、通义灵码等工具的学习,以及对教学设计的深刻反思。
205 5
|
11月前
|
人工智能 文字识别 计算机视觉
HarmonyOS NEXT AI基础视觉服务-文字识别
本案例展示了一款基于AI基础视觉服务的文字识别应用,通过调用设备相机拍摄照片并识别图片中的文字内容。主要实现步骤包括:1) 导入所需功能模块;2) 调用相机获取图片URI;3) 将图片转换为可识别的像素图;4) 配置视觉识别参数并执行文字识别;5) 构建界面组件,实现拍照与结果显示交互。核心要点涵盖相机权限、图像格式兼容及结构化识别结果处理,完整代码整合了各功能模块的调用流程,确保功能顺畅运行。
|
数据采集 人工智能 算法
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型,结合视觉预测与动作执行,显著提升机器人任务成功率。
598 20
Seer:上海 AI Lab 与北大联合开源端到端操作模型,结合视觉预测与动作执行信息,使机器人任务提升成功率43%
|
人工智能 达摩院 计算机视觉
SHMT:体验 AI 虚拟化妆!阿里巴巴达摩院推出自监督化妆转移技术
SHMT 是阿里达摩院与武汉理工等机构联合研发的自监督化妆转移技术,支持高效妆容迁移与动态对齐,适用于图像处理、虚拟试妆等多个领域。
545 9
SHMT:体验 AI 虚拟化妆!阿里巴巴达摩院推出自监督化妆转移技术
|
12月前
|
存储 人工智能 安全
有奖体验 AI 模特换装,解锁电商视觉新体验
在电商中,制作精美的商品展示图成本高且流程复杂。AI 换装技术允许商家快速更换模特的服装或配件,无需重新拍摄,大大缩短准备时间。这项技术减少了对专业摄影师和后期团队的依赖,使中小商家也能轻松产出高质量的商品图片,灵活响应市场变化,有效降低成本,提升竞争力。本方案利用函数计算 FC 构建 Web 服务,采用百炼视觉模型 qwen-vl-max-latest、aitryon、aitryon-refiner、shoemodel-v1 来分别实现 AI 人物主体信息提取、模特试衣、试衣精修、模特换鞋。
|
12月前
|
存储 人工智能 安全
有奖体验 AI 模特换装,解锁电商视觉新体验
有奖体验 AI 模特换装,解锁电商视觉新体验
有奖体验 AI 模特换装,解锁电商视觉新体验