阿里云达摩院资深算法专家浅谈:视觉生产技术探索及应用

简介: 本次我们邀请到了阿里巴巴达摩院的资深算法专家谢宣松,来给大家分享基于阿里云在视觉生产技术上的探索和应用。

  何为视觉生产?
  在介绍视觉生产之前我们需要给它进行定义,到底什么是视觉生产。简单来说视觉生产就是通过一个/一系列视觉过程,产出新的视觉表达。这里的产出是指人或机器能够感知的图像视频,而不是标签或者特征并且必须是新的视觉表达,和输入的不一样。在过去,这个过程大多数是由人工来实现,但是现在我们希望通过AI技术,来产生一系列新的图像,本篇文章主要介绍的也是这一过程。
  总体来说视觉生产是有分类的,主要分为以下几个分类:生成、拓展、摘要以及升维,生成就是从零到一从无到有的过程,拓展是指1到N的过程,摘要则是和拓展相反,是N到1的过程,将内容浓缩起来,把最主要的信息找出来。而升维就比较特殊,打个比方图像是2d的形式,但是如果加了时间轴就变成了动态的了,就变成了二维+t,这样就是从二维升到三维,这一过程称之为升维。除此以外对图片的增、删、改、查的过程也属于视觉生产范畴。这些视觉生产相关的内容其实我们也都有在做,也上线了一些产品,例如鹿班、alibabawood、画蝶,以及我们近期上线的视觉智能开放平台,这些产品都是聚焦在视觉生产上面的,后面也会跟大家详细介绍。
图1.png

图1

  另外视觉生产它也有一个基本的通用框架,具体内容可看图2,这里面要着重介绍的是视觉生产引擎部分,因为它是整个框架里面最为核心的部分。视觉生成引擎一般分成两大类,一种是生产引擎,基于相关模型去真正的生成一些内容,类似从无到有的一个过程。当然了,还有一种是搜索引擎,解决的思路就是我生产很困难,那么我去找到或者搜索到一个和我要求一致或者类似的素材然后在对他进行一定的改变,从而得到一个新的素材。对于产出的素材我们也会遵循一定的规范,一般会从可看、合理、多样、可控以及可用这几个维度去判断,其中是否可用是从能否为产品或者平台带来用户以及它的商业价值的角度进行判断。通过这5个维度能保证我们的视觉生产它可以有一个比较好的结果,或者说比较合理的一个结果。
图2.png

图2

  想要生产出一份优质的素材,首先你需要去精细的理解它,因为唯有理解才能生成。理解的阶段大致分为识别、检测以及分割,最终的目的是知道每一个像素是什么。做分割,事实上这也是学术界和工业界研究很久的任务,但事实上要想把它做好还是非常不容易的。因为分割的话,它会有复杂的背景、各种各样的遮挡关系以及某些特定场景下特别高的要求。所以在图片分割上我们进行了深入的研究并制定了相关的模型框架如图3所示,第一个步就是进行一个mask粗分割,然后我们对这些数据质量非常高标注效果非常好的进行一个精分割的网络,再将他们结合起来,这样做的好处是他能够像粗分割那样获取数据,并且结合精确的、细腻的高质量的数据得到一个结果,我们也将这个模型发表到CVPR2020上面,大家有兴趣可以去看看。
图3.png

图3

  视觉生成技术的应用
  那介绍完视觉生成技术,接下来我们给大家介绍3个视觉生成技术的应用案例。像文章开头时候说的鹿班(https://luban.aliyun.com)就是我们早些时候针对平面图像做的一个设计,也算是整个业界中第一个大规模落地的在线AI服务。除了鹿班类的平面图像生产外,针对视频我们同样制作了一款工具,名字叫做AlibabaWOOD(https://alibabawood.aliyun.com),它就专注于短视频的生成,目前也是一个云上的公共产品。详细的平台介绍可以点击产品官网链接进行查看。
图4.png

图4

  视频既然可以通过视觉生产去制作,我们也在思考通过视觉生产能否对现有的视频进行处理呢?答案是可以的。
  我这里举个例子,如图5红线框的位置它本来没有东西,但是为了达到广告投放效果又不影响观看者的观看体验,我们通过视觉生产的方式在视频中插入了一个广告,从而实广告和内容融合在一起。
图5.png

图5

  前面说了这么多视觉生产技术,其实我们已经将这些技术形成的算法沉淀在了统一的平台上。阿里云视觉智能开放平台(vision.aliyun.com)截止现在,这个平台已经上线了100+的AI算法,这些算命法主要是通过API的方式实现调用。平台目前处于公测期,所有的AI算法都是免费开放的,也欢迎广大开发者前来调用,创建更多有价值的产品和解决方案!
图6.png

图6

  以上内容只是星瞳此次分享的一部分,由于篇幅原因,其他内容就不在这里展示了,感兴趣的同学可以点击下方的视频链接进行观看。如果在观看期间有视觉相关的疑问,都可通过钉钉搜索23109592进群和我们沟通。
直播回看链接:https://edu.csdn.net/course/play/28249/388355

相关文章
|
28天前
|
弹性计算 安全 关系型数据库
阿里云产品在技术探索中的实践和思考
本文讲述了作者在使用阿里云产品进行技术探索的实践中,如何借助ECS、RDS、OSS、SLB和VPC构建高可用分布式系统。从最初的虚拟主机服务到全面的云服务,阿里云帮助解决了性能、负载均衡、数据存储和网络安全等问题。在面对性能优化、成本控制和安全管理的挑战时,作者通过监控、调整和采用安全措施确保了系统的高效运行。未来,作者将继续在云计算领域探索,利用AI、大数据及物联网技术驱动业务创新和增长。
73 0
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
【CVPR2024】阿里云人工智能平台PAI图像编辑算法论文入选CVPR2024
近期,阿里云人工智能平台PAI发表的图像编辑算法论文在CVPR-2024上正式亮相发表。论文成果是阿里云与华南理工大学贾奎教授领衔的团队共同研发。此次入选标志着阿里云人工智能平台PAI自主研发的图像编辑算法达到了先进水平,赢得了国际学术界的认可。在阿里云人工智能平台PAI算法团队和华南理工大学的老师学生们一同的坚持和热情下,将阿里云在图像生成与编辑领域的先进理念得以通过学术论文和会议的形式,向业界传递和展现。
|
16天前
|
弹性计算 安全 网络安全
带你读《从基础到应用云上安全航行指南》——干货长文快收藏!阿里云专家教你如何安全访问和管理ECS资源(3)
**《从基础到应用云上安全航行指南》——阿里云专家教你如何安全访问和管理ECS资源(3)** 在阿里云的广阔云海中,ECS(弹性计算服务)资源如同航行的船只,承载着我们的业务与数据。如何确保这些
|
16天前
|
机器学习/深度学习 人工智能 运维
阿里云DAS-您的专属AI专家,引领数据库自治驾驶
阿里云数据库自治服务(DAS)可以被誉为“您的专属AI专家”,它确实在引领数据库进入自治驾驶的时代。 DAS的核心优势在于其结合了多年大规模数据库集群运维调优的专家经验与机器学习等智能化技术。这
|
25天前
|
弹性计算 安全 微服务
【阿里云云原生专栏】容器网络技术前沿:阿里云Terway网络方案详解
【5月更文挑战第26天】阿里云Terway是高性能的容器网络方案,基于ECS的ENI实现,提供低延迟高吞吐的网络服务。它简化网络管理,实现安全隔离,并与阿里云服务无缝集成。Terway由CNI、Node和Controller组成,适用于微服务、混合云和多租户环境,为企业数字化转型中的复杂网络需求提供强大支持。
182 1
|
26天前
|
敏捷开发 Kubernetes Cloud Native
【阿里云云原生专栏】跨云部署与管理:阿里云云原生技术的多云策略
【5月更文挑战第25天】阿里云云原生技术提供多云策略,助力企业高效跨云部署与管理。通过容器化(如Kubernetes)、服务网格等,实现应用一致性与可移植性;统一资源管理,简化跨云操作。挑战包括数据同步、网络问题和平台差异,但阿里云的解决方案为企业在多云环境中实现资源优化、业务敏捷和系统可靠性提供了强有力支持。随着云计算发展,阿里云将持续演进其多云策略,为企业数字化转型提供保障。
101 1
|
27天前
|
存储 消息中间件 弹性计算
盘点 AutoMQ 深度使用的阿里云云原生技术
AutoMQ是云原生Kafka实现,采用共享存储架构,与阿里云合作利用OSS、ESSD、ESS和抢占式实例降低成本,实现10倍于Apache Kafka的性价比,并提供自动弹性。它使用对象存储OSS实现流式数据高效读取,通过ESSD作为WAL保证性能,弹性伸缩服务ESS简化交付,抢占式实例降低成本。此外,AutoMQ利用ECS的高可用性和ESSD的高性能存储,结合NVMe协议和多重挂载技术,实现快速故障恢复和低成本运维。该系统旨在充分利用云原生能力,推动消息和流存储服务进步。
31 0
|
1天前
|
机器学习/深度学习 算法 数据可视化
m基于PSO-LSTM粒子群优化长短记忆网络的电力负荷数据预测算法matlab仿真
在MATLAB 2022a中,应用PSO优化的LSTM模型提升了电力负荷预测效果。优化前预测波动大,优化后预测更稳定。PSO借鉴群体智能,寻找LSTM超参数(如学习率、隐藏层大小)的最优组合,以最小化误差。LSTM通过门控机制处理序列数据。代码显示了模型训练、预测及误差可视化过程。经过优化,模型性能得到改善。
14 6
|
1天前
|
算法 调度
基于变异混合蛙跳算法的车间调度最优化matlab仿真,可以任意调整工件数和机器数,输出甘特图
**摘要:** 实现变异混合蛙跳算法的MATLAB2022a版车间调度优化程序,支持动态调整工件和机器数,输出甘特图。核心算法结合SFLA与变异策略,解决Job-Shop Scheduling Problem,最小化总完成时间。SFLA模拟蛙群行为,分组进行局部搜索和全局信息交换。变异策略增强全局探索,避免局部最优。程序初始化随机解,按规则更新,经多次迭代和信息交换后终止。
|
1天前
|
机器学习/深度学习 算法 计算机视觉
基于ADAS的车道线检测算法matlab仿真
**摘要:** 基于ADAS的车道线检测算法利用Hough变换和边缘检测在视频中识别车道线,判断车道弯曲情况,提供行驶方向信息,并高亮显示。在MATLAB2022a中实现,系统包括图像预处理(灰度化、滤波、边缘检测)、车道线特征提取(霍夫变换、曲线拟合)和车道线跟踪,确保在实时场景中的准确性和稳定性。预处理通过灰度转换减少光照影响,滤波去除噪声,Canny算法检测边缘。霍夫变换用于直线检测,曲线拟合适应弯道,跟踪则增强连续帧的车道线检测。