阿里云视觉智能 API,核心技术一站共享!-阿里云开发者社区

开发者社区> 机器智能技术> 正文

阿里云视觉智能 API,核心技术一站共享!

简介: 随着人工智能的技术不断成熟,AI 技术已应用到了社会的各行各业,尤其是计算机视觉技术应用更为广泛,计算机视觉(Computer Vision)是一门研究如何使机器“看”的科学,计算机视觉智能技术试图创建能够从图像视频或者多维数据中获取“信息和知识”的人工智能系统。作为AI技术的主要组成部分,计算机视觉(图像、视频、3D 图形)智能技术近年来随着深度学习、大规模数据处理能力及云基础设施的迅猛发展,逐步应用到各行各业中,发挥了越来越大的作用。

--------点击屏幕右侧或者屏幕底部“+订阅”,关注我,随时分享机器智能最新行业动态及技术干货------------

背景:阿里巴巴集团内的视觉智能基石

视觉智能技术相比其它 AI 类技术(语音语言等),功能流派更多,场景也更复杂 。整个阿里巴巴经济体围绕着自身大量业务场景(电商零售、金融物流、文娱营销、企业服务等多个行业)的应用需求,应用了大量的视觉智能技术作为产品和解决方案的基石,这些产品有些在今天已经被社会所熟知,如天猫,淘宝,支付宝, 1688 等。

这些视觉类技术方案、产品或能力中,除了场景内部的业务属性技术外,起到核心且基础作用的,是数量众多、功能各异的,以 API 形式服务于上层的视觉原子能力(或能力组件)。这些原子能力,有些是通用的,但大部分是面向场景的。在服务模式上,为了体现规模化、多样性的优势,以及追求接入、发现和运行的低成本,需要有一种统一的平台和服务方式,让这些大厦的基石走出阿里,去服务更广泛的用户和开发者群体,发挥更大的价值。

全栈式视觉智能:阿里云视觉智能平台

为了荟聚整个经济体的视觉技术基础能力,更好的服务于企业用户、生态合作伙伴、开发者,由阿里巴巴集团技术委员会视觉技术小组和战略合作部牵头,达摩院联合阿里云产品与解决方案管理部以及集团各个视觉技术团队一起创建了阿里云视觉智能 API 开放平台

image.png

亮剑:阿里巴巴集团下的顶尖视觉智能技术

阿里云视觉开放平台基于阿里巴巴视觉智能技术实践经验,集成了阿里巴巴内部最顶尖的技术,如今面向全社会的企业和开发者,共享这些技术。目前聚焦如下主要服务类目:图像识别、图像分割、图像增强、图像搜索 、人脸人体 、文字识别 、商品理解 、内容安全、视频理解、视频分割、视频增强、视频搜索3D 视觉等 40 多种视觉原子能力。

人脸识别: 基于图像或视频中的人脸检测、分析/比对技术,以及人体检测技术,提供人脸/人体的检测定位、人脸属性识别和人脸比对等独立模块。可以为开发者和企业提供高性能的在线API服务,应用于人脸AR、人脸识别和认证、大规模人脸检索、照片管理等各种场景。

image.png


人脸识别

文字识别: 基于阿里云深度学习技术,为用户提供通用的印刷文字识别和文档结构化等能力。 文字识别技术可以灵活应用于个人证件识别、行业票证识别、资产类证件识别、通过文档识别与整理等行业场景,满足认证、鉴权、票据流转审核等业务需求。

image.png

身份证识别

商品理解:基于阿里云深度学习算法,结合图像或视频的商品检测、分析/比对技术,为用户提供对商品类目、标签、属性的识别以及置信度信息等能力。可广泛应用于电子商务、零售、生产等行业,实现货架商品识别、商品二维码识别、商品属性识别与商品比对等应用场景。

image.png

电子商务

内容安全:基于阿里云视觉分析技术和深度识别技术,并经过在阿里经济体内和云上客户的多领域、多场景的广泛应用和不断优化,可提供风险和治理领域的图像识别、定位、检索等全面服务能力,不仅能帮助用户降低色情、暴恐、涉政、广告、垃圾信息等违规风险,而且能大幅度降低人工审核成本。

image.png

新零售

图像识别:基于阿里云深度学习技术,可实现精准识别图像中的视觉内容,包括上千种物体标签、数十种常见场景等,可为用户提供图像打标、场景分类、颜色识别、风格识别以及元素识别等能力。图像识别技术可广泛应用于数字营销、新零售、广告设计等行业场景。

image.png

智能相册编辑与管理

图像增强:基于阿里云深度学习技术,为用户提供图像视觉质量修复和图像属性增强等能力。图像增强技术灵活应用于摄影、艺术、广告、媒体等行业,满足老照片修复、图像去噪、图像曝光矫正、图像色彩矫正等业务需求。

image.png

图片素材加工

图像分割:基于阿里云深度学习技术,结合检测识别技术,为用户提供高精度图像分割能力,可实现秒级全自动主体、场景像素级识别,4通道透明素材制作能力。不仅实现了发丝级精抠,对高度镂空主体、复杂背景等场景都有很好的效果,同时支持人、货、场等三种类型需求,可广泛应用于电子商务、零售、泛文娱、个人应用等各种场景。

image.png

电商行业banner制作

目标检测:基于阿里云计算机视觉与深度学习技术,对通用或指定的目标进行检测、识别、打标。目标检测技术广泛应用于安防、交通等行业内图像场景的目标检测与跟踪。

image.png

路况分析

这些能力都是由阿里数十年的研发和实践沉淀下来的原子能力。而达摩院作为整个集团的先进技术探索集中探索研发基地,也将不断的为平台提供着更多通用或专用的优秀视觉算法能力阿里云视觉智能平台作为面向全社会的 OPENAPI 开放平台,企业用户、开发者可以在阿里云视觉平台上选择相关能力,自行封装产品、服务或者是解决方案满足自身或者最终用户的应用需求。

体验:OPENAPI即试即用

作为视觉小组 OpenAPI 战役的承载产品,阿里云视觉智能平台未来将集成达摩院,阿里云等 200 余种视觉能力,并精选 100 余种优质能力上线 API 集市,由各个视觉技术团队、平台和工具支撑部门不断更新支持,平台所上线的 API 能力均可以在 OPENAI 平台,试用,无需代码,无需部署,可视化交互场景让产品经理也能清楚了解手上视觉能力的价值。

image.png

以文字识别-银行卡识别RecognizeBankCard为例

  • 1、打开 OPENAI 平台搜索文字识别,选择银行卡识别点击上传本地图片或者输入 OSS 的 url 链接

image.png

  • 2、点击立即调用即可在瞬间完成调用

image.png

实战:一键开通,多能力调用

  • 1、阿里云视觉智能平台目前已集成 8 大类目 40 多项明星原子能力,只需要选择类目查看详情,一键开通即可调用此类目下所有 API 能力。

image.png

  • 2、进入 SDK 参考-查看对应语言类目 - 安装阿里云 SDK 核心库-安装视觉智能 API 相关服务 - 配置参数 - 调用成功

image.png

原石:用明星能力搭建应用场景的核心

平台的愿景是搭建一个完美的舞台供“能力”表演,如今,我们拿出了当初用于构建淘宝,支付宝,1688 内视觉场景的原子能力,让开发者能使用最优质的能力进行研发场景,让算法团队接触最真实的开发场景进行能力开发,让每一个参与方各取所需,实现能力交易,多方共赢。希望能够帮助企业,开发者孵化造就更多的淘宝,支付宝,甚至阿里巴巴。

image.png

了解更多 AI 产品请戳:>>点击查看<<

点击观看产品发布会:>>点击查看<<

原文链接:https://developer.aliyun.com/article/746593

版权声明:如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:developerteam@list.alibaba-inc.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

阿里云机器智能研究领域主要围绕机器学习等前沿技术开展理论与应用研究。《机器智能技术》圈子基于阿里巴巴达摩院的技术沉淀,围绕【研究报告】、【前沿技术】、【应用案例】、【行业新闻】、【传奇人物】多个方向为广大开发者贡献干货内容。

官方博客