视觉应用探索
记:阿里云高校计划视觉AI训练营 Day 1笔记。
目录
1.视觉生产概述
2.精细理解
3.视觉生成
4.视觉编辑
5.视觉增强
6.视觉制造
7.应用场景
8.视觉开放平台
1. 定义
1.1 计算机视觉
计算机视觉(Computer Vision)是研究如何使机器“看”的科学,计算机视觉智能技术试图创建能够从图像视频或者多维数据中获取“信息和知识”的AI系统。作为AI技术的主要组成部分,计算机视觉(图像、视频、3D图形)智能技术近年来随着深度学习、大规模数据处理能力及云基础设施的迅猛发展,正逐步应用到各行各业,发挥越来越大的作用。
1.2 视觉生产定义
1.3 视觉生产分类
1.4 通用基础框架
1.5 五个关键维度
2 精细理解
分割 = 识别(是什么)+检测(识别+位置)+知道每个像素是什么
2.1 精细理解—分割抠图
2.2 分割抠图的难点
2.3 分割抠图一般解题思路
2.4 分割抠图——模型框架
2.5 分割抠图——应用场景
分割抠图技术可以实现秒级全自动主体、场景像素级识别,制作4通道透明素材。不仅实现了发丝级精抠,对高度镂空主体、复杂背景等场景都有很好的效果,同时支持人、货、场三种类型需求,可广泛应用于电子商务、零售、泛文娱、个人应用等多种场景。
视觉生产
3.1视觉生产的一般框架流程
3.2视觉生产应用场景
视觉生产服务基于阿里云深度学习技术,视频生产技术对视频内容进行理解,可将视频调色、字幕擦除、电商视频摘要、视频超分辨,可广泛应用于影视、泛文娱、个人应用等各种场景。
图像生产技术灵活应用于摄影、艺术、广告、媒体等行业,满足老照片修复、图像去噪、图像曝光矫正、图像色彩矫正等业务需求。
4 视觉编辑
4.1 视觉编辑——视频植入
4.2 视觉编辑——视频内容擦除
5 视觉增强
5.1 视觉增强——视频增强
5.2 视觉增强应用场景
视觉增强技术基于阿里云深度学习技术,提供图像视觉质量修复和图像属性增强等能力,广泛应用于人脸修复增强、渲染图超分、视频超分、视频插帧、HDR色彩的扩展等应用场景。
6 视觉制造
6.1 视觉制造核心逻辑
6.2 视觉制造应用场景
视觉制造技术基于阿里云深度学习技术和阿里巴巴多年业务实际中的积淀,提供实体设计制造、柔性生产等能力,广泛应用于包装几何生成、服饰几何生成、材质工艺、视觉迁移及融合、多样性拓展、2D3D融合等应用场景。
7 视觉开放平台
7.1 视觉智能开放平台定位
阿里云视觉智能开放平台是基于阿里巴巴视觉智能技术实践经验,面向视觉智能技术企业和开发商(含开发者),为其提供高易用、普惠的视觉API服务,帮助企业快速建立视觉智能技术的应用能力的综合性视觉AI能力平台。平台会为您提供普惠易用的AI能力。适用于城市大脑、安防、数字营销、泛金融身份认证、互联网娱乐、手机应用等行业,企业和开发商(含开发者)可以选择相应能力自行封装解决方案或者是产品、服务。
7.2 视觉智能开放平台能力分布
阿里云视觉智能开放平台将围绕多个视觉领域,例如:通用、图像、视频、目标识别以及3D、AR/VR等类目,不断的为您提供多种视觉AI能力。具体方向包括:人脸人体、文字识别、商品理解、内容审核、图像识别、图像生产、分割抠图、视觉搜索、目标检测、图像分析处理、视频理解、视频生产、视频分割13个类目多个API能力。
7.3 省心省力的普惠服务
据相关消息,整个阿里巴巴集团有数千名开发人员围绕着视觉技术在电子商务、城市大脑、金融支付、交通物流、通信会议、新零售、文娱等多个行业的应用需求,不断贡献着各类技术创新与应用实践,形成了多个产品和解决方案。基于阿里巴巴20多年的商业积淀,依托阿里巴巴商业操作系统和阿里云强大的技术能力,向全球开发者提供了定额永久免费、满足普遍性的实惠定制化服务,满足开发者和客户的不同的使用场景。依托阿里云智能坚实的基础设施服务,提供普惠易用的AI能力,采用通用、标准化的接口,方便用户快速接入视觉智能API,省心省力,让天下没有难用的视觉智能技术!