Chrome开始集成图形识别 API(Shape Detection API)

简介:

最近,Chrome团队尝试在Chrome中集成了一套与图形识别相关的API,使得图形识别这种以前只在原生应用中存在,或者在浏览器上,要借助其他难用的外部库才能实现的功能,现在只要少量代码即可实现。这些API包括人脸识别,条形码/二维码识别和文本识别,基本上覆盖了当前互联网应用的大部分场景。

现状

图形识别这种对系统资源和设备的计算能力要求颇高的功能,通常只有底层的原生API能驾驭,流行的框架主要是开源的Open CV和各大移动平台的图形识别服务:

Chrome开始集成图形识别 API(Shape Detection API)

而Chrome的这些API,当前还处于实验阶段,只集成在Chrome Canary版本中,特别是Android版更新较快。使用前还需要通过把“实验性网络平台功能”chrome://flags/#enable-experimental-web-platform-features设置为Enable来激活。

激活后,在Console控制台输入以下JavaScript代码,就能验证你的浏览器是否支持相应的API了:

  • window.FaceDetector
  • window.BarcodeDetector
  • window.TextDetector

如果支持,就会返回如function FaceDetector() { [native code] }的信息。

Chrome Canary是Chrome的一条与其他项目并行的实验性分支,是许多前卫激进的特性的试验场,而且迭代很快,有时甚至是每日一更新,所以不出所料,也不太稳定。和其他Chrome版本一样,也可以在Chrome Release Channels上下载。

从现在公布的信息来看,以下这些场景可能得以轻松实现:

1、人脸识别:

  • 自动框选你家庭聚会照片里的亲戚朋友们,然后你就可以给每个人都贴标签了,不用自己逐个框选。
  • 在社交网站上注册的时候,你上传了一张照片,浏览器可以帮你裁剪好最佳尺寸。

2、条形码识别:

  • 识别网页中的条形码/二维码,并作相应的动作,比如链接跳转,支付等等。

3、文本识别:

  • OCR
  • 配合语音接口,朗读图片中的文字

除此之外,开发者大可以尽情发挥想象,创造更多独一无二有趣的应用。

社区反映

图形识别虽然是刚需,但自去年底公布消息以来,可能是由于这些API尚处于实验阶段,尚待打磨,在开发社区内还未形成大范围的讨论,目前能收集到的主要是以下资料供开发者参考。

  • API: Accelerated Shape Detection in Images - by Miguel Casas-Sanchez (Google Inc.) | 中文版 by 谈浩
  • Face detection using Shape Detection API - by Paul Kinlan

不过正因为进化迅速,这套图形识别API从去年的M57版本发展至今,已经发生了不小的变化,也许在不久的将来,就会合并到稳定版中,真正为广大开发者所用,构建更多有趣的应用。




本文作者:佚名
来源:51CTO
目录
打赏
0
0
0
0
26198
分享
相关文章
AI驱动的开发者工具:打造沉浸式API集成体验
本文介绍了阿里云在过去十年中为开发者提供的API服务演变。内容分为两大部分:一是从零开始使用API的用户旅程,涵盖API的发现、调试与集成;二是回顾阿里云过去十年为开发者提供的服务及发展历程。文中详细描述了API从最初的手写SDK到自动化生成SDK的变化,以及通过API Explorer、IDE插件和AI助手等工具提升开发者体验的过程。这些工具和服务旨在帮助开发者更高效地使用API,减少配置和调试的复杂性,提供一站式的解决方案。
自学记录鸿蒙API 13:实现多目标识别Object Detection
多目标识别技术广泛应用于动物识别、智能相册分类和工业检测等领域。本文通过学习HarmonyOS的Object Detection API(API 13),详细介绍了如何实现一个多目标识别应用,涵盖从项目初始化、核心功能实现到用户界面设计的全过程。重点探讨了目标类别识别、边界框生成、高精度置信度等关键功能,并分享了性能优化与功能扩展的经验。最后,作者总结了学习心得,并展望了未来结合语音助手等创新应用的可能性。如果你对多目标识别感兴趣,不妨从基础功能开始,逐步实现自己的创意。
209 60
百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms
百聆是一款开源的AI语音对话助手,结合ASR、VAD、LLM和TTS技术,提供低延迟、高质量的语音对话体验,适用于边缘设备和低资源环境。
238 4
百聆:集成Deepseek API及语音技术的开源AI语音对话助手,实时交互延迟低至800ms
DeepSeek Engineer:集成 DeepSeek API 的开源 AI 编程助手,支持文件读取、编辑并生成结构化响应
DeepSeek Engineer 是一款开源AI编程助手,通过命令行界面处理用户对话并生成结构化JSON,支持文件操作和代码生成。
342 5
DeepSeek Engineer:集成 DeepSeek API 的开源 AI 编程助手,支持文件读取、编辑并生成结构化响应
一个接口4个步骤轻松搞定最新版Chrome、Edge、Firefox浏览器集成ActiveX控件
目前的浏览器市场,谷歌浏览器占据了半壁江山,因此,谷歌也是最有话语权的,2015年开始取消支持 NPAPI 插件,2022 年10月停止支持 PPAPI 插件;而曾经老大哥IE浏览器也已停止服务,退出历史舞台,导致大量曾经安全、便捷的ActiveX控件无法使用。为了解决这个难题,本人特研发出allWebPlugin中间件,重新让所有ActiveX控件能在谷歌、火狐等浏览器使用。
自学记录鸿蒙 API 13:骨骼点检测应用Core Vision Skeleton Detection
骨骼点检测技术能够从图片中识别出人体的关键骨骼点位置,如头部、肩部、手肘等,广泛应用于运动健身指导、游戏交互、医疗辅助、安全监控等领域。我决定深入学习HarmonyOS Next API 13中的Skeleton Detection API,并开发一个简单的骨骼点检测应用。通过理解API核心功能、项目初始化与配置、实现检测功能、构建用户界面,以及性能优化和功能扩展,逐步实现这一技术的应用。未来计划将其应用于健身指导和智能监控领域,探索与其他AI能力的结合,开发更智能的解决方案。如果你也对骨骼点检测感兴趣,不妨一起进步!
168 9
Ocelot集成Consul实现api网关与服务发现
本文介绍了如何在.NET微服务架构中集成API网关Ocelot和Consul服务发现。首先通过Docker安装并配置Consul,接着在GoodApi项目中实现服务的自动注册与注销,并配置健康检查。然后,通过修改Ocelot的配置文件`ocelot.json`和`Program.cs`,实现基于Consul的服务发现,确保API请求能够正确路由到后端服务。最后,解决了服务解析时可能出现的问题,确保服务的IP地址而非节点名称被正确解析。
62 0
Ocelot集成Consul实现api网关与服务发现
沉浸式集成阿里云 OpenAPI|Alibaba Cloud API Toolkit for VS Code
Alibaba Cloud API Toolkit for VSCode 是集成了 OpenAPI 开发者门户多项功能的 VSCode 插件,开发者可以通过这个插件方便地查找API文档、进行API调试、插入SDK代码,并配置基础环境设置。我们的目标是缩短开发者在门户和IDE之间的频繁切换,实现API信息和开发流程的无缝结合,让开发者的工作变得更加高效和紧密。
沉浸式集成阿里云 OpenAPI|Alibaba Cloud API Toolkit for VS Code
WebChat:开源的网页内容增强问答 AI 助手,基于 Chrome 扩展的最佳实践开发,支持自定义 API 和本地大模型
WebChat 是一个基于 Chrome 扩展开发的 AI 助手,能够帮助用户理解和分析当前网页的内容,支持自定义 API 和本地大模型。
220 0
Windows Forms应用程序中集成一个ASP.NET API服务
Windows Forms应用程序中集成一个ASP.NET API服务
121 9

热门文章

最新文章