如何使用谷歌Mobile Vision API 开发手机应用

简介: 一年一度的谷歌开发者大会 Google I/O 昨日在山景城开幕,在首日的 Keynote 中,谷歌宣布了一系列新的硬件、应用、基础研究等。而在下午面向开发者的 session 中,也有很多有关机器学习的内容值得我们学习。所以这届 Google I/O 并非略显乏味,反而充实了更多机器学习内容。在这篇文章中,机器之心根据视频为大家介绍了一个面向初学者的教程:如何使用谷歌 Mobile Vision API 在手机上开发应用。

1638092453(1).png

点击查看原视频链接

在此 Session 中,来自谷歌 Mobile Vision 团队的 Yulong Liu、Hsiu Wang 对 Mobile Vision API 的开发应用进行了讲解。


谷歌 Mobile Vision 团队的工作是提供最新的计算机视觉算法,并在低延迟、无网络访问的情况下在设备上实现。而 Mobile Vision API 既能在安卓手机上部署,也能在 iOS 上部署。


在视频中,Hisu 演示了如何使用 Mobile Vision 的 Face、Barcode 和 Text API。在视频演示中,使用 Barcode API 手机扫描广告页上的二维码,就能自动跳转到产品页;Face API 可让你虚拟试戴产品;最后,使用 Text API 扫描信用卡快速支付。


微信图片_20211128174322.jpg


Mobile Vision API 包含四大组件:共用 API(Common Utility API)以及上面介绍的三种特定应用 API。共用 API 提供构建应用通道的基础设施与模块。


1.Barcode API


  • 支持 1D 条形码和 2D 二维码类型
  • 支持多种条形码格式
  • 应用场景:跟踪并识别任意条形码或二维码


2.Face API


  • 捕捉脸部图像,支持不同的角度以及非常夸张的表情
  • 生成 Facial Landmarks 用于定位等业务
  • 脸部表情分类
  • 应用场景:生成用户趣味头像,识别商品并推荐购买方式,等等等等


3.Text API


  • 支持 20 种以上拉丁语系语言
  • 支持段、句、词分析
  • 应用场景:信用卡信息提取,名片信息提取,实时翻译,等等等等


在详细讲解代码之前,Hisu 先介绍了 Mobile Vision API 的基础概念与使用案例。最简单的使用案例就是图像检测:如果想要建立一个检测器,先要提供一张图像,然后运行算法产生检测结果。


Google Mobile Vision (GMV) 同时支持 iOS 与 Anriod 平台,用户只需根据 API 与业务需求简单地设定以下三个类即可构建完整的图像处理 Pipeline:设定 Detector 类用于捕捉图像内容;设定 Processor 类允许用户灵活地处理单张或多张图像(即 Focus 模式与 Multi 模式);最后用户只需完整地重构 Tracker,根据图像信息完成业务逻辑。无论是 iOS 还是 Andriod,遵循以上流程即可构建 GMV 应用。


微信图片_20211128174344.jpg以上是完整的流程。摄像头源内部使用了 Camera API,它将图像帧传递给检测器,检测器运行算法来生成检测结果。然后结果被传递给处理器。处理器是首个后处理(post-processing)步骤,它负责筛除、合并、或传递检测到的 item 到相关 Tracker。


总结来就是两个步骤:


1. 配置追踪管道;

2. 部署 Tracker 实时追踪时间变化。


图中的 Camera Source、Detector、Processor 都由 Mobile Vision API 提供,用户要做的就是基于自己商业逻辑编写代码,实现 Tracker。

Barcode API


如今二维码处处可见,开发手机端的二维码扫描应用也变的非常常见。使用 Barcode API 前,只需在不同的平台中部署相应的 Dependency。Android 平台由 Google Play 提供服务;而在 iOS 平台中可以使用 CocoaPods 包管理工具安装。下面是开发安卓手机二维码应用的代码演示。


首先,开发者需要指定具体的编译工具与运行环境依赖,不同的 GMV API 需要不同的依赖,开发者只需根据业务指定 android:value 为 barcode, face 或 text。在用户第一次使用时,开发者所制定的内容会自动下载到设备中(即需要用户连接至网络环境中);一旦下载完成后,用户即可在无网络连接的环境下使用相应的 GMV 应用和服务。


微信图片_20211128174413.jpg

完成对 Camera Source 的初始化。


微信图片_20211128174433.jpg


接下来开发者需要根据业务需求和 GMV API 构建自己的应用。在 Detector 部分中,开发者可以指定不同的 barcode 格式用于 detector 检测,例如 QR 二维码或是 UPA 条形码;接着输入某一帧图像或是图片后,Detector 的实例即可自动读取相关的信息;最后用户可以根据需求调用 valueAt 方法获得码值或是使用 cornerPoints 属性获取对应的位置。此外,Barcode 类中还提供了标准的条码类型,开发者可以根据不同的条码类型对应的提取相应的信息。下图的 Demo 展示了整个过程:


微信图片_20211128174455.jpg


下一步就是开始 Processor 步骤:Mobile Vision API 提供两种 Focusing Processor 和 Multi Processor。下图演示了 Focusing Processor 类,它能让你在多二维码的环境中专注分析某一个二维码,用户可以调整设备摄像头拍摄的位置切换至不同的二维码。而 Multi Processor 则提供了同时处理图像中所有二维码的能力,开发者可以使用工厂模式进行不同二维码的处理。


微信图片_20211128174516.jpg

微信图片_20211128174547.jpg


最后则是重载 Tracker 类完成所有的业务逻辑。在 Barcode 模式中,开发者至少需要定义 4 个方法来处理不同的情况:分别是处理新扫描到的码、在未探测到新码时如何更新当前的码、如何处理未探测到任何码的情况,以及完成所有任务后如何存储文件或是关闭服务等清理操作。


微信图片_20211128174618.jpg

整体流程如下:


微信图片_20211128174637.jpg


Barcode API 在 iOS 系统上也可用,以下是 iOS 平台编译环境的依赖。


微信图片_20211128174650.jpg

iOS 系统上的 Pipeline 与安卓系统非常相似,只是在 AVCaptureSession 类的初始化与语法上有所区别。


微信图片_20211128174713.jpgFace API


Face API 可以准确的捕捉用户的脸部,但并不提供识别的支持。开发者可以使用 Face API 构建许多有趣的应用,例如根据用户的照片生成有趣的头像,或是联合 Google Cloud Vision API 分析用户的情绪。同时,Face API 允许开发者捕捉到极其夸张的面部表情,轻而易举地帮助喜爱搞怪的用户完成属于他们自己的图像应用。


Facial Landmarks 则是另一项特性,该特性可以定位用户面部的特征,如眼睛与嘴巴。该项功能允许开发者实时地追踪用户面部并完成相应的业务,如在视频中为用户添加酷炫的太阳镜。


微信图片_20211128174732.jpg


脸部表情分类的特性允许开发者实时地获取用户的表情信息,如用户眼睛是否睁开,或用户是否在微笑;根据这些信息开发者可以高度定制自己的业务。


微信图片_20211128174803.jpg


尽管 Face API 功能丰富,其使用方法却与 Barcode API 一样简单,程序的逻辑也基本一致。首先设置运行依赖中的 android:value 为 face,接下来完成对 Detector 类、Processor 类与 Tracker 类的设置与业务逻辑。


在 Face Detector 类中,开发者可以调用多种方法获取图像中用户脸部的位置、对应表情的概率以及 Facial Landmarks 用于之后的处理。

微信图片_20211128174823.jpg


下图展示了单个脸部的追踪代码,开发者可以使用 LargestFaceFocusingProcessor 类来指定捕捉单个面部表情。这个类可以将 detector 实例捕捉到的图像进行处理并将结果传至 tracker 实例完成相应的业务。


微信图片_20211128174837.jpg


多个脸部的实时处理并没有太多不同,开发者只要使用 MultiProcessor 类对图像进行处理,同时重载 Tracker 方法使用工厂模式对多个脸部进行处理。下图代码中高亮的部分则是使用 MultiProcessor 与 FocusingProcessor 不同的地方。


微信图片_20211128174837.jpg


多个脸部的实时处理并没有太多不同,开发者只要使用 MultiProcessor 类对图像进行处理,同时重载 Tracker 方法使用工厂模式对多个脸部进行处理。下图代码中高亮的部分则是使用 MultiProcessor 与 FocusingProcessor 不同的地方。


微信图片_20211128174919.jpg

微信图片_20211128174922.jpg


在 Tracker 的定义中,开发者需要指定不同的方法来处理以下两种情况:第一次检测到用户面部时应该如何处理,如根据 landmarks 为用户立刻添加一副墨镜;实时地追踪用户的面部相对位置的变化与拍摄角度的变化,调整当前的添加的墨镜位置。下图为简单的定义:


微信图片_20211128174943.jpg


以上为 Face API 在安卓系统的 Demo,我们可以看到使用该 API 可以简单高效地构建不同的应用。在 iOS 系统上,整体流程仍然大致相同:


微信图片_20211128174959.jpg

微信图片_20211128175002.jpg

微信图片_20211128175006.jpgText API


Text API 目前只支持基于拉丁语系的语言,并不支持中文,这使得该 API 对于国内的开发者而言并无太多惊喜可言。然而,对于需要处理英文或其他语言的业务该 API 则允许开发者从段、句、词等不同角度进行分析与信息提取。下图中 textRecognizer 实例允许开发者使用 getLanguage 方法获取语言,这意味着开发者无需进行任何假设即可实时自动地获得当前的语言信息;getBoundingBox 方法允许开发者处理文字的相对位置,标准化输入输出的格式;getValue 方法允许开发者获取整段的文字信息,或是迭代式的使用 getComponents 方法获取句、词信息。至于整体的 Text API 使用流程,经过 Barcode 和 Face 的介绍后,相信大家已经十分熟悉了。几乎相同的流程,允许开发者快速地上手不同的 API,部署不同的应用。

微信图片_20211128175055.jpg

微信图片_20211128175106.jpgTips:


  1. 由于 GMV API 有大约 60 毫秒的延迟,避免将 Detector 部署在 UI 线程,而在后台线程中可保证最佳的用户体验避免卡顿的画面。
  2. 尽可能的在使用 API 前完成图像的预处理。实际应用中,用户不可避免地会处于光线较差或是抖动的拍摄环境中,精细的图像预处理可以帮助 API 获取更清晰的图像,从而提高使用的效率与准确率。
  3. 与 Google Cloud Vision API 共同使用。GMV API 提供了低延迟、无网络访问的情况下基本的图像识别与处理功能,而开发者可以在本地设备处理图像后联合使用 GCV API 获得更加丰富的功能。例如:GMV 可以在实时拍摄的视频中不断检索判断图像中是否出现面部表情或图像质量是否适合 GCV 使用,一旦满足使用条件即可使用 GCV 提供的高级功能判断用户的情绪状态等。


更多有关 Mobile Vision API 的资源,可查看下图:

微信图片_20211128175123.jpg

今年的谷歌 I/O 大会有大量关于机器学习、TensorFlow 的技术 session,机器之心会持续为大家进行介绍。

相关文章
|
5天前
|
监控 搜索推荐 API
淘宝店铺详情API接口的开发、应用与收益
淘宝开放平台提供了丰富的API接口,帮助开发者获取海量的商品和店铺数据。本文聚焦于淘宝店铺详情API接口的开发、应用及收益。首先,开发者需注册账号并创建应用以获取API密钥。接着,通过阅读接口文档,使用Python等语言编写代码调用API,处理返回的数据。该接口广泛应用于竞品分析、数据分析、价格监控、个性化推荐等领域,为开发者带来提高用户体验、降低运营成本、增加收入等多方面收益。同时,开发者需注意遵守法律法规、请求频率限制及数据安全等问题,确保合法合规地使用接口资源。
27 4
|
15天前
|
自然语言处理 搜索推荐 数据挖掘
淘宝商品描述 API 接口的开发、应用与收益
淘宝商品描述API接口的开发与应用涵盖注册成为开发者、了解API规范、选择开发工具及语言(如Python)和实现代码调用。该接口可用于优化电商平台商品展示、同步数据、竞品分析、智能客服及个性化推荐,从而提高销售转化率、降低运营成本并拓展业务机会。通过自动化处理和数据分析,企业能更精准地满足消费者需求,提升竞争力。
56 9
|
21天前
|
安全 搜索推荐 数据挖掘
虾皮店铺商品API接口的开发、运用与收益
虾皮(Shopee)作为东南亚领先的电商平台,通过开放API接口为商家和开发者提供了全面的数据支持。本文详细介绍虾皮店铺商品API的开发与运用,涵盖注册认证、API文档解读、请求参数设置、签名生成、HTTP请求发送及响应解析等步骤,并提供Python代码示例。API接口广泛应用于电商导购、价格比较、商品推荐、数据分析等场景,带来提升用户体验、增加流量、提高运营效率等收益。开发者需注意API密钥安全、请求频率控制及遵守使用规则,确保接口稳定可靠。虾皮API推动了电商行业的创新与发展。
94 31
|
14天前
|
供应链 搜索推荐 API
深度解析1688 API对电商的影响与实战应用
在全球电子商务迅猛发展的背景下,1688作为知名的B2B电商平台,为中小企业提供商品批发、分销、供应链管理等一站式服务,并通过开放的API接口,为开发者和电商企业提供数据资源和功能支持。本文将深入解析1688 API的功能(如商品搜索、详情、订单管理等)、应用场景(如商品展示、搜索优化、交易管理和用户行为分析)、收益分析(如流量增长、销售提升、库存优化和成本降低)及实际案例,帮助电商从业者提升运营效率和商业收益。
108 20
|
4天前
|
JSON API 数据安全/隐私保护
淘宝商品评价 API 的获取与应用
淘宝商品评价API是电商数据分析的重要工具,帮助商家和开发者获取淘宝平台上的商品评价信息。通过注册淘宝开放平台账号、申请AppKey和AppSecret、获取API权限等步骤,用户可以调用该API进行市场分析、竞品研究及店铺运营优化。API支持HTTP GET/POST请求,返回JSON或XML格式的评价数据,包括评价内容、时间、评分等。本文详细介绍API的使用方法,并提供Python代码示例,助力用户更好地利用这一资源。注意遵守请求频率限制、数据隐私保护等相关规定,确保合法合规使用数据。
28 3
|
8天前
|
XML API 开发者
探究获取亚马逊畅销榜API接口及实战应用
亚马逊MWS(商城网络服务)提供了一系列API接口,帮助开发者获取平台数据,其中畅销榜API尤为关键。通过注册开发者账号、创建应用并申请权限,可使用HTTP POST请求获取商品的销售排名、价格等信息。Python代码示例展示了如何构建和发送请求,并处理返回的XML或JSON数据。注意遵守亚马逊的频率限制、数据准确性和合规性要求,以确保安全合法地利用这些数据支持电商业务决策。
24 1
|
9天前
|
JSON 监控 API
获取1688商品SKU信息API接口及实战应用
在电商蓬勃发展的今天,数据成为宝贵的财富。1688作为国内知名批发采购平台,提供商品SKU信息API接口,可获取库存、价格、规格等关键数据,助力电商运营、市场分析和价格监控。本文介绍如何注册1688开放平台账号、创建应用并获取AppKey/AppSecret,申请API权限,使用Python实现接口调用,处理响应数据,并注意请求频率限制和错误处理。通过该接口,可为电商运营和数据分析提供有力支持。
31 2
|
19天前
|
监控 搜索推荐 API
京东JD商品详情原数据API接口的开发、运用与收益
京东商品详情API接口是京东开放平台的重要组成部分,通过程序化方式向第三方提供商品详细信息,涵盖名称、价格、库存等。它促进了京东生态系统的建设,提升了数据利用效率,并推动了企业和商家的数字化转型。开发者可通过注册账号、获取密钥、调用接口并解析返回结果来使用该API。应用场景包括电商平台的价格监控、竞品分析、个性化推荐系统开发、移动应用开发及数据整合与共享等。该接口不仅为企业和开发者带来商业价值提升、用户体验优化,还助力数据资产积累,未来应用前景广阔。
76 9
|
18天前
|
供应链 搜索推荐 API
1688商品类目API接口的开发应用与收益
1688平台作为全球领先的B2B在线交易市场,提供了丰富的API接口,助力企业高效获取商品信息、优化供应链管理。本文聚焦1688商品类目API接口的开发应用,涵盖接口概述、环境配置、Python代码示例及实际案例,展示其为企业带来的显著收益,如提升运营效率、优化市场策略、降低成本和增强用户体验。通过合理调用API,企业可大幅提升竞争力。
37 7
|
19天前
|
JSON 数据挖掘 API
唯品会按关键字搜索 VIP 商品 API 接口的开发应用与收益
在电商蓬勃发展的今天,精准的商品搜索功能至关重要。唯品会的按关键字搜索VIP商品API接口通过高效、精准的检索,提升了用户购物体验和商家销售业绩。该接口基于RESTful架构,采用JSON格式交互,支持唯品会APP内搜索、第三方平台合作及数据分析等场景,显著提升用户活跃度与忠诚度,拓展销售渠道,增加收入,并挖掘数据驱动的商业价值,助力唯品会持续发展。
28 4

热门文章

最新文章