阿里云达摩院资深算法专家浅谈:视觉生产技术探索及应用

本文涉及的产品
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
简介: 本次我们邀请到了阿里巴巴达摩院的资深算法专家谢宣松,来给大家分享基于阿里云在视觉生产技术上的探索和应用。

  何为视觉生产?
  在介绍视觉生产之前我们需要给它进行定义,到底什么是视觉生产。简单来说视觉生产就是通过一个/一系列视觉过程,产出新的视觉表达。这里的产出是指人或机器能够感知的图像视频,而不是标签或者特征并且必须是新的视觉表达,和输入的不一样。在过去,这个过程大多数是由人工来实现,但是现在我们希望通过AI技术,来产生一系列新的图像,本篇文章主要介绍的也是这一过程。
  总体来说视觉生产是有分类的,主要分为以下几个分类:生成、拓展、摘要以及升维,生成就是从零到一从无到有的过程,拓展是指1到N的过程,摘要则是和拓展相反,是N到1的过程,将内容浓缩起来,把最主要的信息找出来。而升维就比较特殊,打个比方图像是2d的形式,但是如果加了时间轴就变成了动态的了,就变成了二维+t,这样就是从二维升到三维,这一过程称之为升维。除此以外对图片的增、删、改、查的过程也属于视觉生产范畴。这些视觉生产相关的内容其实我们也都有在做,也上线了一些产品,例如鹿班、alibabawood、画蝶,以及我们近期上线的视觉智能开放平台,这些产品都是聚焦在视觉生产上面的,后面也会跟大家详细介绍。
图1.png

图1

  另外视觉生产它也有一个基本的通用框架,具体内容可看图2,这里面要着重介绍的是视觉生产引擎部分,因为它是整个框架里面最为核心的部分。视觉生成引擎一般分成两大类,一种是生产引擎,基于相关模型去真正的生成一些内容,类似从无到有的一个过程。当然了,还有一种是搜索引擎,解决的思路就是我生产很困难,那么我去找到或者搜索到一个和我要求一致或者类似的素材然后在对他进行一定的改变,从而得到一个新的素材。对于产出的素材我们也会遵循一定的规范,一般会从可看、合理、多样、可控以及可用这几个维度去判断,其中是否可用是从能否为产品或者平台带来用户以及它的商业价值的角度进行判断。通过这5个维度能保证我们的视觉生产它可以有一个比较好的结果,或者说比较合理的一个结果。
图2.png

图2

  想要生产出一份优质的素材,首先你需要去精细的理解它,因为唯有理解才能生成。理解的阶段大致分为识别、检测以及分割,最终的目的是知道每一个像素是什么。做分割,事实上这也是学术界和工业界研究很久的任务,但事实上要想把它做好还是非常不容易的。因为分割的话,它会有复杂的背景、各种各样的遮挡关系以及某些特定场景下特别高的要求。所以在图片分割上我们进行了深入的研究并制定了相关的模型框架如图3所示,第一个步就是进行一个mask粗分割,然后我们对这些数据质量非常高标注效果非常好的进行一个精分割的网络,再将他们结合起来,这样做的好处是他能够像粗分割那样获取数据,并且结合精确的、细腻的高质量的数据得到一个结果,我们也将这个模型发表到CVPR2020上面,大家有兴趣可以去看看。
图3.png

图3

  视觉生成技术的应用
  那介绍完视觉生成技术,接下来我们给大家介绍3个视觉生成技术的应用案例。像文章开头时候说的鹿班(https://luban.aliyun.com)就是我们早些时候针对平面图像做的一个设计,也算是整个业界中第一个大规模落地的在线AI服务。除了鹿班类的平面图像生产外,针对视频我们同样制作了一款工具,名字叫做AlibabaWOOD(https://alibabawood.aliyun.com),它就专注于短视频的生成,目前也是一个云上的公共产品。详细的平台介绍可以点击产品官网链接进行查看。
图4.png

图4

  视频既然可以通过视觉生产去制作,我们也在思考通过视觉生产能否对现有的视频进行处理呢?答案是可以的。
  我这里举个例子,如图5红线框的位置它本来没有东西,但是为了达到广告投放效果又不影响观看者的观看体验,我们通过视觉生产的方式在视频中插入了一个广告,从而实广告和内容融合在一起。
图5.png

图5

  前面说了这么多视觉生产技术,其实我们已经将这些技术形成的算法沉淀在了统一的平台上。阿里云视觉智能开放平台(vision.aliyun.com)截止现在,这个平台已经上线了100+的AI算法,这些算命法主要是通过API的方式实现调用。平台目前处于公测期,所有的AI算法都是免费开放的,也欢迎广大开发者前来调用,创建更多有价值的产品和解决方案!
图6.png

图6

  以上内容只是星瞳此次分享的一部分,由于篇幅原因,其他内容就不在这里展示了,感兴趣的同学可以点击下方的视频链接进行观看。如果在观看期间有视觉相关的疑问,都可通过钉钉搜索23109592进群和我们沟通。
直播回看链接:https://edu.csdn.net/course/play/28249/388355

相关文章
|
2月前
|
存储 监控 安全
企业上网监控系统中红黑树数据结构的 Python 算法实现与应用研究
企业上网监控系统需高效处理海量数据,传统数据结构存在性能瓶颈。红黑树通过自平衡机制,确保查找、插入、删除操作的时间复杂度稳定在 O(log n),适用于网络记录存储、设备信息维护及安全事件排序等场景。本文分析红黑树的理论基础、应用场景及 Python 实现,并探讨其在企业监控系统中的实践价值,提升系统性能与稳定性。
62 1
|
2月前
|
算法 调度
基于精英个体保留策略遗传优化的生产调度算法matlab仿真
本程序基于精英个体保留策略的遗传算法,实现生产调度优化。通过MATLAB仿真,输出收敛曲线与甘特图,直观展示调度结果与迭代过程。适用于复杂多约束生产环境,提升资源利用率与调度效率。
|
4月前
|
监控 算法 JavaScript
公司局域网管理视域下 Node.js 图算法的深度应用研究:拓扑结构建模与流量优化策略探析
本文探讨了图论算法在公司局域网管理中的应用,针对设备互联复杂、流量调度低效及安全监控困难等问题,提出基于图论的解决方案。通过节点与边建模局域网拓扑结构,利用DFS/BFS实现设备快速发现,Dijkstra算法优化流量路径,社区检测算法识别安全风险。结合WorkWin软件实例,展示了算法在设备管理、流量调度与安全监控中的价值,为智能化局域网管理提供了理论与实践指导。
117 3
|
4月前
|
存储 监控 算法
基于 C# 时间轮算法的控制局域网上网时间与实践应用
在数字化办公与教育环境中,局域网作为内部网络通信的核心基础设施,其精细化管理水平直接影响网络资源的合理配置与使用效能。对局域网用户上网时间的有效管控,已成为企业、教育机构等组织的重要管理需求。这一需求不仅旨在提升员工工作效率、规范学生网络使用行为,更是优化网络带宽资源分配的关键举措。时间轮算法作为一种经典的定时任务管理机制,在局域网用户上网时间管控场景中展现出显著的技术优势。本文将系统阐述时间轮算法的核心原理,并基于 C# 编程语言提供具体实现方案,以期深入剖析该算法在局域网管理中的应用逻辑与实践价值。
97 5
|
4月前
|
存储 机器学习/深度学习 算法
论上网限制软件中 Python 动态衰减权重算法于行为管控领域的创新性应用
在网络安全与行为管理的学术语境中,上网限制软件面临着精准识别并管控用户不合规网络请求的复杂任务。传统的基于静态规则库或固定阈值的策略,在实践中暴露出较高的误判率与较差的动态适应性。本研究引入一种基于 “动态衰减权重算法” 的优化策略,融合时间序列分析与权重衰减机制,旨在显著提升上网限制软件的实时决策效能。
127 2
|
27天前
|
机器学习/深度学习 算法 新能源
【优化调度】基于matlab粒子群算法求解水火电经济调度优化问题研究(Matlab代码实现)
【优化调度】基于matlab粒子群算法求解水火电经济调度优化问题研究(Matlab代码实现)
|
29天前
|
算法 机器人 定位技术
基于机器视觉和Dijkstra算法的平面建筑群地图路线规划matlab仿真
本程序基于机器视觉与Dijkstra算法,实现平面建筑群地图的路径规划。通过MATLAB 2022A读取地图图像,识别障碍物并进行路径搜索,支持鼠标选择起点与终点,最终显示最优路径及长度,适用于智能导航与机器人路径规划场景。
|
30天前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于PSO粒子群优化的XGBoost时间序列预测算法matlab仿真
本程序基于Matlab 2024b实现,结合粒子群优化(PSO)与XGBoost算法,用于时间序列预测。通过PSO优化XGBoost超参数,提升预测精度。程序包含完整注释与操作视频,运行后生成预测效果图及性能评估指标RMSE。
|
27天前
|
传感器 并行计算 算法
【无人机编队】基于非支配排序遗传算法II NSGA-II高效可行的无人机离线集群仿真研究(Matlab代码实现)
【无人机编队】基于非支配排序遗传算法II NSGA-II高效可行的无人机离线集群仿真研究(Matlab代码实现)
115 3