阿里云达摩院资深算法专家浅谈:视觉生产技术探索及应用

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频资源包5000点
简介: 本次我们邀请到了阿里巴巴达摩院的资深算法专家谢宣松,来给大家分享基于阿里云在视觉生产技术上的探索和应用。

  何为视觉生产?
  在介绍视觉生产之前我们需要给它进行定义,到底什么是视觉生产。简单来说视觉生产就是通过一个/一系列视觉过程,产出新的视觉表达。这里的产出是指人或机器能够感知的图像视频,而不是标签或者特征并且必须是新的视觉表达,和输入的不一样。在过去,这个过程大多数是由人工来实现,但是现在我们希望通过AI技术,来产生一系列新的图像,本篇文章主要介绍的也是这一过程。
  总体来说视觉生产是有分类的,主要分为以下几个分类:生成、拓展、摘要以及升维,生成就是从零到一从无到有的过程,拓展是指1到N的过程,摘要则是和拓展相反,是N到1的过程,将内容浓缩起来,把最主要的信息找出来。而升维就比较特殊,打个比方图像是2d的形式,但是如果加了时间轴就变成了动态的了,就变成了二维+t,这样就是从二维升到三维,这一过程称之为升维。除此以外对图片的增、删、改、查的过程也属于视觉生产范畴。这些视觉生产相关的内容其实我们也都有在做,也上线了一些产品,例如鹿班、alibabawood、画蝶,以及我们近期上线的视觉智能开放平台,这些产品都是聚焦在视觉生产上面的,后面也会跟大家详细介绍。
图1.png

图1

  另外视觉生产它也有一个基本的通用框架,具体内容可看图2,这里面要着重介绍的是视觉生产引擎部分,因为它是整个框架里面最为核心的部分。视觉生成引擎一般分成两大类,一种是生产引擎,基于相关模型去真正的生成一些内容,类似从无到有的一个过程。当然了,还有一种是搜索引擎,解决的思路就是我生产很困难,那么我去找到或者搜索到一个和我要求一致或者类似的素材然后在对他进行一定的改变,从而得到一个新的素材。对于产出的素材我们也会遵循一定的规范,一般会从可看、合理、多样、可控以及可用这几个维度去判断,其中是否可用是从能否为产品或者平台带来用户以及它的商业价值的角度进行判断。通过这5个维度能保证我们的视觉生产它可以有一个比较好的结果,或者说比较合理的一个结果。
图2.png

图2

  想要生产出一份优质的素材,首先你需要去精细的理解它,因为唯有理解才能生成。理解的阶段大致分为识别、检测以及分割,最终的目的是知道每一个像素是什么。做分割,事实上这也是学术界和工业界研究很久的任务,但事实上要想把它做好还是非常不容易的。因为分割的话,它会有复杂的背景、各种各样的遮挡关系以及某些特定场景下特别高的要求。所以在图片分割上我们进行了深入的研究并制定了相关的模型框架如图3所示,第一个步就是进行一个mask粗分割,然后我们对这些数据质量非常高标注效果非常好的进行一个精分割的网络,再将他们结合起来,这样做的好处是他能够像粗分割那样获取数据,并且结合精确的、细腻的高质量的数据得到一个结果,我们也将这个模型发表到CVPR2020上面,大家有兴趣可以去看看。
图3.png

图3

  视觉生成技术的应用
  那介绍完视觉生成技术,接下来我们给大家介绍3个视觉生成技术的应用案例。像文章开头时候说的鹿班(https://luban.aliyun.com)就是我们早些时候针对平面图像做的一个设计,也算是整个业界中第一个大规模落地的在线AI服务。除了鹿班类的平面图像生产外,针对视频我们同样制作了一款工具,名字叫做AlibabaWOOD(https://alibabawood.aliyun.com),它就专注于短视频的生成,目前也是一个云上的公共产品。详细的平台介绍可以点击产品官网链接进行查看。
图4.png

图4

  视频既然可以通过视觉生产去制作,我们也在思考通过视觉生产能否对现有的视频进行处理呢?答案是可以的。
  我这里举个例子,如图5红线框的位置它本来没有东西,但是为了达到广告投放效果又不影响观看者的观看体验,我们通过视觉生产的方式在视频中插入了一个广告,从而实广告和内容融合在一起。
图5.png

图5

  前面说了这么多视觉生产技术,其实我们已经将这些技术形成的算法沉淀在了统一的平台上。阿里云视觉智能开放平台(vision.aliyun.com)截止现在,这个平台已经上线了100+的AI算法,这些算命法主要是通过API的方式实现调用。平台目前处于公测期,所有的AI算法都是免费开放的,也欢迎广大开发者前来调用,创建更多有价值的产品和解决方案!
图6.png

图6

  以上内容只是星瞳此次分享的一部分,由于篇幅原因,其他内容就不在这里展示了,感兴趣的同学可以点击下方的视频链接进行观看。如果在观看期间有视觉相关的疑问,都可通过钉钉搜索23109592进群和我们沟通。
直播回看链接:https://edu.csdn.net/course/play/28249/388355

相关文章
|
20天前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法与应用
探索人工智能中的强化学习:原理、算法与应用
|
19天前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
38 1
|
19天前
|
并行计算 算法 测试技术
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面
C语言因高效灵活被广泛应用于软件开发。本文探讨了优化C语言程序性能的策略,涵盖算法优化、代码结构优化、内存管理优化、编译器优化、数据结构优化、并行计算优化及性能测试与分析七个方面,旨在通过综合策略提升程序性能,满足实际需求。
48 1
|
26天前
|
机器学习/深度学习 监控 算法
基于反光衣和检测算法的应用探索
本文探讨了利用机器学习和计算机视觉技术进行反光衣检测的方法,涵盖图像预处理、目标检测与分类、特征提取等关键技术。通过YOLOv5等模型的训练与优化,展示了实现高效反光衣识别的完整流程,旨在提升智能检测系统的性能,应用于交通安全、工地监控等领域。
|
20天前
|
机器学习/深度学习 人工智能 算法
探索人工智能中的强化学习:原理、算法及应用
探索人工智能中的强化学习:原理、算法及应用
|
13天前
|
算法
基于WOA算法的SVDD参数寻优matlab仿真
该程序利用鲸鱼优化算法(WOA)对支持向量数据描述(SVDD)模型的参数进行优化,以提高数据分类的准确性。通过MATLAB2022A实现,展示了不同信噪比(SNR)下模型的分类误差。WOA通过模拟鲸鱼捕食行为,动态调整SVDD参数,如惩罚因子C和核函数参数γ,以寻找最优参数组合,增强模型的鲁棒性和泛化能力。
|
19天前
|
机器学习/深度学习 算法 Serverless
基于WOA-SVM的乳腺癌数据分类识别算法matlab仿真,对比BP神经网络和SVM
本项目利用鲸鱼优化算法(WOA)优化支持向量机(SVM)参数,针对乳腺癌早期诊断问题,通过MATLAB 2022a实现。核心代码包括参数初始化、目标函数计算、位置更新等步骤,并附有详细中文注释及操作视频。实验结果显示,WOA-SVM在提高分类精度和泛化能力方面表现出色,为乳腺癌的早期诊断提供了有效的技术支持。
|
7天前
|
存储 算法
基于HMM隐马尔可夫模型的金融数据预测算法matlab仿真
本项目基于HMM模型实现金融数据预测,包括模型训练与预测两部分。在MATLAB2022A上运行,通过计算状态转移和观测概率预测未来值,并绘制了预测值、真实值及预测误差的对比图。HMM模型适用于金融市场的时间序列分析,能够有效捕捉隐藏状态及其转换规律,为金融预测提供有力工具。
|
7天前
|
机器学习/深度学习 算法 信息无障碍
基于GoogleNet深度学习网络的手语识别算法matlab仿真
本项目展示了基于GoogleNet的深度学习手语识别算法,使用Matlab2022a实现。通过卷积神经网络(CNN)识别手语手势,如"How are you"、"I am fine"、"I love you"等。核心在于Inception模块,通过多尺度处理和1x1卷积减少计算量,提高效率。项目附带完整代码及操作视频。
|
15天前
|
算法
基于GA遗传算法的PID控制器参数优化matlab建模与仿真
本项目基于遗传算法(GA)优化PID控制器参数,通过空间状态方程构建控制对象,自定义GA的选择、交叉、变异过程,以提高PID控制性能。与使用通用GA工具箱相比,此方法更灵活、针对性强。MATLAB2022A环境下测试,展示了GA优化前后PID控制效果的显著差异。核心代码实现了遗传算法的迭代优化过程,最终通过适应度函数评估并选择了最优PID参数,显著提升了系统响应速度和稳定性。