人像卡通画训练营:课时1:视觉AI技术体系及趋势概述
视觉AI技术体系及趋势概述
内容介绍
一、 视觉AI技术概况
二、感知理解系列技术
三、 经典生成编辑技术
四、 达摩院视觉AI开放服务
一、 视觉AI技术概况
显然,视觉技术在AI领域应用广泛,任务繁多,是其中一个主要子领域,它的技术复杂性与快速发展让人印象深刻,视觉技术是人工智能的重要组成部分,因为人类信息获取中视觉和光学信息占据了相当大的比例。
今天,我将与大家分享关于视觉技术的概览,以及它的主要分类体系,重点介绍视觉技术的三个主要组成部分,首先是感知与理解类技术,它涵盖了世界感知、物体识别、检测和图像分割等基础技术,这也是视觉技术最早的发展领域之一。
接下来是视觉处理与编辑相关的技术,它也可以分为经典方法和最新的AI模型技术两大类。
二、感知理解系列技术
最重要的是,我们可以分享一些在视觉AI领域提供的各种服务。不论是在学术界、学生还是工业界,人们都可以直接使用这些视觉服务。正如前面提到的,视觉AI应用非常广泛。
大家都应该知道,从最初的感知信息,例如视觉信息,到如何将这些信息传达出去,再到对这些信息进行理解、认知,以及处理安全性等各种特征,搜索、生成、编辑、重建、三维重建、互动等各种技术,实际上在感知端和云计算端都有广泛的应用,前面提到的确实是这个领域应用非常广泛的一个事实。
这里列举了一些示例,比如如果你曾经使用过搜索引擎,你可能已经使用了其中的图像搜索技术,这在视觉搜索领域应该是最常见的技术之一,比如图像检索技术。
当然,我们还有很多大型城市级数字事件,这些领域也使用了大量的视觉核心技术,包括医疗、农业、养殖等领域,这些领域都会使用各种各样的视觉理解技术。当然,还有很多生产编辑类的技术,比如在早期阶段,像图像生成、服装设计、包装设计,以及视频编辑等领域都使用了各种各样的数据技术。
因此,视觉技术确实在各个领域都有广泛的应用。
此外,我们还可以从另一个角度来看待视觉技术的应用,例如一个人从一天开始工作,然后参与娱乐或社交等一系列活动。实际上,在这些情境中也有许多可以应用视觉技术的地方。
例如,你可能会在上班之前查看自己的照片,因为你需要打卡。在打卡的过程中,你可能需要提供一张图片,然后从中提取你的人脸,并将其发送给相关系统。此外,系统还可能会识别你的身份、你的动作等一系列信息,以记录你的工作、休息以及社交活动等。
当然,你的照片可能不够清晰或者已经有些年头了,这时你可能需要对照片进行一些编辑或增强,以使它们更好看或符合特定风格。
比如说,一个例子是艺术化的图像处理。当然,现在有许多新兴领域,例如数字人类,它们是否涉及到了视觉领域的各种技术?这些都是与视觉领域相关的。当然,前面提到的是一些行业应用或人们在日常生活中遇到的视觉技术,但由于视觉技术的多样性,是否有一种合理或科学的方式来进行分类呢?当然,实际上在学术界中,并没有一种权威或被广泛接受的理想分类方式,因此,我们可以从几个维度来分享,因为在视觉领域,一般有几种模式。
最早研究的是平面图像,这是一个二维的图像。然后,如果我们在二维图像上加上时间轴信息,就成了时间序列,进而形成了视频模式。最近,特别是在深度学习领域,三维图形也变得非常流行,所以从这些维度上,我们可以区分这些模式的不同分类方式。
此外,从另一个维度来看,视觉技术可能涉及多种目标,例如人、物体、文字、商品等,因此,也可以根据这个维度将其分为不同的技术。然后,最基本的维度是,视觉技术的功能是什么,是识别、检测、生成还是分割等,因此,可以根据这个维度进行区分。最后,如果我们的技术想要真正在行业中应用,大家应该知道并没有一个万能的AI技术,所以根据不同的场景,它可能需要进一步细分,可以根据互动、社交、工业等不同场景来划分。因此,从这四个维度,我们可以相对合理地对视觉技术进行分类。但需要注意的是,这个分类方式也可能不是最理想的,因为视觉技术在模式、规模、功能和场景等方面都有各种各样的应用。这是一个分类系统,当然不可避免地会有一些重叠。
另外,我们还可以看到,从最初的感知理解开始,因为这是人们出生后首先要做的事情,我们需要理解这个世界,然后我们要理解自己,接着我们要能够阅读和写作,最后我们可以创造视觉内容。因此,这个趋势肯定是从理解开始,然后逐渐转向创造。这也是大家关注的许多项目,特别是最近非常流行的深度生成模型的趋势。当然,另一个趋势是,模型的规模越来越大,从最初的小型模型,如传统的CNN模型,到现在的大型模型,如ViT,特别是多模态技术,参数数量也越来越大。从百万级别到千万级别,再到亿级别,模型参数的增长也是当前的一个趋势。然后,关于技术,刚才提到的是从单一模态到多模态,这是目前发展的另一个明显趋势。
另一个趋势是,在早期,我们通常使用监督学习,即给模型提供图像并添加标签或分数等监督信息。然而,现在的趋势基本上是结合文本和自然语言描述来进行训练。这种描述会作为模型的输入,并与图像一起进行训练,然后在使用模型时也可以提供文本描述,这种趋势在视觉领域非常明显。当然,事实上,对声音或其他类型的输入也可能采用类似的方式。
从单一模态到多模态的趋势也非常明显。此外,以前的任务可能是解决单一问题,比如检测问题,或者仅限于特定对象或场景的任务。然而,最近,一些模型开始强调多功能或全能性。它们既可以处理视觉任务,也可以处理文本任务,还可以执行各种不同类型的任务,这种全面性的趋势在不断发展。
至于这种趋势最终会演变成怎样的状态,以及是否真的会有一个全能的模型来解决所有问题,这可能需要根据实际情况不断观察和前进。此外,还有一个常见的情况是,以前的模型或数据集可能只能应对某些具体任务,例如,模型可能只能解决与标签直接相关的问题。但最近的模型通常更具通用性,可以处理更广泛的问题。
此外,还有一个趋势是,现在的模型通常可以解决以前在训练过程中或者在以前的数据集中无法解决的问题。例如,以前的模型可能只能在某些特定场景下进行训练,但现在的模型更加通用,可以适用于更广泛的情境。这也是一个发展趋势。
此外,模型在训练过程中还倾向于结合人类的知识和反馈,包括半监督学习和人工反馈等方式。这有助于提高模型的性能。因此,我们的模型变得越来越强大。
总的来说,前面对视觉技术的概述包括了各种任务,从感知理解到更深层的任务,如表征学习和深度推理等。视觉技术模式通常是将图像与标签或数字相对应。
这些任务在日常生活中有很多应用,例如地铁站的人数统计、人脸识别、人脸关键点检测等。视觉任务也涉及到识别、检测和理解,这些都是视觉技术领域的典型任务。人脸识别任务包括人脸检测、人脸关键点检测以及人脸识别本身。
此外,还有一些前处理任务,如人脸质量评估和图像质量校正,以及后处理任务等。视觉技术的领域非常广泛,提供了许多研究和应用的机会。
举例来说,在工业场景中,我们常常需要检测工件表面是否存在瑕疵或者其他问题。这实际上是一个在现实生活中经常遇到的问题。这个问题可以是一个检测问题,也可以是一个分割问题,甚至可能是一个时间序列问题。在工业场景中,我们需要对不同情况下的场景进行理解。
一个经典的示例是在工业场景中使用的检测模型,它可以平衡速度和精度,因为在视觉任务中,我们需要在速度、准确性和成本之间取得平衡,这是使得模型和算法能够真正应用到工业领域的关键。这种检测模型可以检测单个或多个目标,无论是静态的还是动态的。这是一个非常重要的应用领域。
此外,还有一些其他类型的图像数据,不同于常见的自然图像,比如医学图像、遥感图像、超分辨率图像等。这些问题涉及到分割、超分辨率、声音图像处理等不同的任务,或者是对人体内部结构的扫描成像,这些都是视觉领域的重要问题,需要不同的技术和方法来解决。
这种应用也属于视觉领域的一种特殊情况。在这方面,我们可以应用各种视觉技术,如对人体内部器官的分割、检测和识别,以及对病变和异常情况的识别等。这些技术主要用于感知和理解人体内外的信息。举例来说,我们可能需要从静态图像中识别和分析人体内部的结构,同时也可能需要从视频中分析人体动作。这种技术可以应用在医学、健康监测等领域。另外,还可以用于教育和娱乐应用,例如一款能够识别和评估用户动作的应用。
此外,视觉技术在城市级别和交通领域也有广泛应用。例如,识别车辆、监测交通状况、检测交通事故或违法行为等。这些应用通常需要实时分析从摄像头采集的数据,因此需要强大的系统工程技术来支持。
除了识别和检测任务之外,还有一种任务是像素级别的分割任务,也就是将图像中的每个像素分配给特定的类别。这通常被称为图像分割或抠图任务,它在许多领域都有广泛应用,如图像编辑和计算机视觉中的语义分割等。
这些任务对像素级别的准确性要求非常高,因此需要特殊的技术和算法来解决。
这些不同的视觉任务确实面临各种挑战,这些挑战可能涉及到复杂的背景、遮挡、透明物体(如婚纱)等。这些问题在处理图像分割任务时特别显著,因为图像分割要求准确地确定每个像素属于哪个类别,而这些复杂情况会增加分割的难度。
另一个挑战是标注数据的成本问题。标记大规模高质量的数据集可能非常昂贵,因此数据标注成本高昂,导致了数据的稀缺性。为了应对这个问题,研究人员开发了各种方法,如自动分割算法相结合的方式,以提高数据的质量和数量。例如,一种方法是将分割任务与图像分析相结合,以获取高质量的分割结果,然后用这些结果来扩充数据集。这可以在一定程度上缓解数据不足的问题。
此外,还有一些有趣的分割问题,如处理带有复杂结构的图像,例如包含多个图层的PSD文件。这种情况下,需要将图像分割成各个图层或对象,这是一项复杂的任务,但对于图像编辑和图像处理应用非常重要。
总的来说,不同的视觉任务面临各自的挑战,但通过创新的算法和技术,我们可以不断改善在这些任务上的性能和效率。
反过来,我能否识别您提供的图像并将其各个元素和构成部分分割出来,这是一个相对复杂的图像解析过程。因此,这涉及到对图像的高级理解和处理。
前面我已经介绍了一系列与理解相关的问题。我们在这个领域开发了几大类技术,包括图像分类、目标检测、像素级分割等等,还包括对视频的各种理解能力。这些都是视觉处理中最基础和重要的技能。
三、典生成编辑技术
当然,还有一个非常重要的技能,就是生成编辑。关于生成编辑,通常可以分为两个阶段,一个是经典的生成技术。
在经典生成技术中,我们输入一些信息,然后模型生成新的视觉数据。这个生成过程可以包括从零到一的生成、从一个图像到多个图像的变换,或者是在一张图像上增加或修改元素。实际上,视觉生成任务非常多样化,包括图像合成、图像增强、图像修复等等。有一个通用框架,我们可以输入参数和素材,然后生成所需的视觉内容。
这可以通过模型或者知识库来实现,也可以通过搜索引擎来找到相似的素材并生成输出。
生成技术的发展已经有一段时间了。最早的生成模型之一是2014年的GAN(生成对抗网络),它使用对抗训练的方式生成图像,是生成模型的经典之作。之后,出现了许多其他生成技术,包括VAE(变分自编码器)、条件生成模型等等。近年来,自回归模型和扩散模型等技术也备受关注。总之,生成技术是一个不断发展的领域,目前基于扩散模型的技术非常流行。
在评估视觉生成技术时,我们通常需要考虑几个方面。首先,生成的图像或视觉内容是否具有视觉吸引力和美感,它们是否可观。其次,生成的内容是否合理,是否符合语义逻辑,内容是否有连贯性。最后,多样性也很重要,生成的结果应该具有一定的多样性,而不是每次都生成相同的内容。
这确实是一个非常关键的维度。生成技术不仅需要产生可观且美观的结果,还需要是可控的,符合用户的预期。用户希望能够根据自己的需求生成特定的视觉内容,而不是产生意外的结果。因此,可控性和可用性是生成技术的重要指标。
从这几个维度来看,我们可以回顾视觉生成技术的发展。
其中,视频增强技术是一个重要的领域。视频增强旨在从底层视觉开始,提高视频的清晰度、细节、色彩和流畅度。这种技术的应用包括图像采集、传输、处理和存储等方面。
视频增强的需求来自多个方面,包括设备限制、环境条件以及早期视频技术的限制。视频增强可以分为几个方面的工作,如细节增强、色彩恢复、流畅度提高等。
另一个重要的生成技术是图像编辑,它可以让用户编辑、改变或合成图像。这种技术涵盖了从底层像素级别的编辑到更高级别的语义编辑。用户可以使用图像编辑技术进行各种操作,如去除物体、添加物体、修改颜色等。图像编辑技术需要满足用户的需求,使得编辑过程既可控又可用。
综上所述,生成技术的发展需要综合考虑可看、合理、多样、可控和可用等多个方面的需求。这将有助于提供更好的生成结果,满足用户和商业的需求。然而,他的连贯性不足,表达不够流畅。说实话,从传统的图像处理理论来看,修复这些问题实际上非常具有挑战性。因此,我们需要专注于多个方面的技术来克服这一问题。
在这里,我只是举了一些例子,比如在增强和细节处理方面,这实际上是一个典型的底层视觉问题,而且这个领域的发展历史非常悠久。从早期的基于C的图像分解,到后来的整合,再到现在利用单一方法来执行增强任务。
因此,这些技术不断发展,不断改进效果,从早期的分辨率到现在的4K、2K甚至8K视频,细节越来越丰富,这是一个基本问题。此外,色彩也是一个重要方面,之前提到的透明度或带有灰度感觉,通过提升像素深度从8位到10位,色彩表现更丰富。
当然,不知道是否能在这个视频展示看的出来,但我可以从SDR到HDR。如果你用过高级电视或某些高端手机,应该支持HDR方式,尽管很多格式都支持HDR。在这些方面,我们可以进行改进,以改善视频质量。我们还开发了一系列底层视觉相关的其他模型和算法,比如处理模糊图像或拍摄过程中的运动模糊等问题。
另外,还有一些有趣的领域,如人像增强。我们早期就开发了人像模型,可以修复老照片,如早期家庭照片或早期影视剧照片。
这些都是底层视觉相关的增强领域。此外,视频编辑还涉及到许多其他任务,包括风格变化、从零到一的生成、增删改等。
举了一些例子,早期风格迁移曾非常流行,将图像转化为各种风格,这些风格通常涉及到色彩和动态效果,我们可以将一个正常的人变成各种风格,但我同时希望对这个人进行美化,同时保持真实感。这些更高级的任务都属于视觉编辑的领域。
总结一下,这些任务包括将图像转化为不同风格,如经典的例子,例如将一张图像转化为日漫风格或3D风格。目前,我们还可以根据
您上传的样本图像提取其中的风格特征,然后将其应用到其他图像上。
然后同时以这种方式生成,因此这也是一种非常多样化的应用。如果您尝试过,您可能会觉得非常有趣,这方面有很多可能性。
刚刚还有一个例子,比如在特定领域,如电商海报,是否可以生成一些图像或广告图,如果您之前关注过阿里巴巴的产品,您可能已经注意到一系列相关应用,它实际上是可以为商品主图添加文本和背景,并且能够良好地融合这些元素,包括细节和布局。
这是一个非常有趣和实用的技术思想,属于经典的生成编辑领域。当然,现在我们应该知道,技术不断发展,计算能力不断增强,数据规模也在不断扩大,还有许多其他技术等等,这一系列因素推动着这些经典的自动化感知理解和应用编辑技术不断前进。比如,我们对自动化视觉分割技术的发展应该如何关注,前不久,一家公司发布了一项技术,可以通过模型自动对视觉分割任务进行处理。
这个模型非常强大,能够识别和分割可见和不可见的目标,并且非常准确。这种技术还可以应用于视频,例如检测视频中的人物并进行识别和分割。
另外,在3D领域和其他领域,这些技术也可以应用。这个模型非常有趣,有两个关键点:首先,它能够处理多个任务,解决不同的识别和分割问题;其次,它拥有非常大的数据集,训练图像数量超过一千万,采用了多种变体和监督训练。
此外,这个模型可以与其他模型结合使用,开展各种有趣的应用,例如与物体检测模型结合,甚至在图像领域或语音领域等其他问题中进行结合,以实现各种其他任务。
比如,将图像中的一只狗替换为其他对象,这是一个输入,然后根据多种输入进行操作,同时结合分割模型,以识别并替换前景目标,创造新的视觉效果。这确实是一个非常有趣的玩法,特别是像生成图像这类应用,最近变得非常热门。
也许你们已经看到过右上角的那张图,它代表了一种产品,可以生成图像并参加比赛,获得奖励。这种领域的交易和发布正在迅速增加,应用也变得越来越成熟和多样化。
当然,这个领域也有许多经典模型的发展,从早期的版本到谷歌发布的方式,再到现在最火的版本,已经到了2.1版本。在这一领域,国内也有一些知名的专业公司,在这方面做得非常出色,其中一家应该是被广泛认可的。做得最好的可能是没教易,所以我猜想大家可能已经经常使用这个工具了。当然,在国内,像文生成模型这样的应用,主要包括阿里发布的一些相关产品,要训练这些模型确实并不容易。
这里提到了一些大规模应用的例子,包括我们经常使用的书籍生成模型,而且如果我们真的想要训练一个模型,可能需要耗费数百小时,并且需要非常长的训练过程,所以除了算法本身,算力和数据方面也需要大量工作,因此要做这种大规模的应用实际上是一个系统工程的问题,当然,阿里巴巴发布了一系列通用的训练模型,包括文本生成,offer生成等等。
这些技术和模型实际上是可以应用到各个领域的,但是因为我们关注与视觉领域相关的技术更多一些,所以我们在自己的领域内进行研究。
我们通过知识重组或分组的方式,将它们作为我们编码器的输入来训练模型。这时,模型的性能会在功能越大的情况下产生更好的效果。当然,在训练效率方面也进行了大量的工作,否则每月一个训练周期是难以承受的。所以在这个领域还有很多工作可以做。
提到了一些简单的例子,如果大家关注的话,像生成有趣的动画或3D动画,或者与人物相关的卡通内容,这些领域都有很大的潜力。而且大家可能更多地使用一些开源社区的工具,比如我之前提到的像OpenAI的GPT模型。
当然,除了文本以外,这些模型目前也可以用于扩展其他任务,例如在图像上使用这些扩展模型,它们的效果也可以非常好。但这些领域也有自己特定的问题需要解决,比如在这种任务上,如何降低成本并提高速度以进行部署,这是一个现实的挑战,因为模型在生成效率和资源消耗方面仍然存在许多问题。
另外一个问题是,因为许多任务可能不需要文本引导或人类交互,它们可能是一些纯粹的领域问题,所以我们也在尝试使用技术来解决这个问题。
当然,除了这些,还有其他一些问题需要解决,我们希望以更可控的方式进行图像合成,而在这个领域,最近出现了一个模型,应该是在去年底或今年初发布的。这个模型目前应用广泛,可以对图像的不同层面进行预期的控制,无论是在轮廓、颜色、动作行为还是算法上,都可以通过这种方式进行控制。
它将网络结构分成可训练和不可训练的部分,然后我们需要分别对这些模型进行迭代训练,以保留其学习能力,同时也在控制约束下进行操作。实际上,在这个领域,我们也进行了一项有趣的研究。这项研究的核心特点是支持多个条件引导的图像合成,这使得图像的生成更加可控,不仅仅是简单的生成图像。
我只是举了一些例子,比如,你可以在多个维度上进行控制,包括形状、颜色、深度等,这可以让生成的结果更具可控性。举两个例子,一个是早期比较广泛使用的文本到图像模型,这个领域我们自己进行了研发。除了前面提到的例子,还有文本到图像的应用,但另一个是现在视频应用越来越广泛,所以是否可以直接用文本生成视频也是一个研究方向。
实际上,我们也在这个方向进行相关研究,但要说实话,视频的生成质量相对较低,距离商业可用还有一段距离。与图像生成产品相比,视频生成领域仍然存在一些问题需要解决。所以,我只是举了一个例子,展示了我们发布的通用视频生成方式,但实际上视频生成领域还需要更多的工作。
总的来说,这些领域都有巨大的潜力,尤其是文本生成图像和文本生成视频,虽然目前还存在一些挑战,但它们的发展前景非常令人期待。
这是一个充满前景和挑战的技术领域,当然,要完成这一任务,还有另一种方法。例如,如果您要处理通用的应用,这绝对是一项艰巨的任务,正如我之前所提到的,
它可能涉及深度生成结果的质量,无论是高清画质、流畅性还是语义一致性,这都是极大的挑战。那么,在特定环境或情境下,我们是否可以采取一些策略呢?比如说,我们可以定义所期望的人物、场景和动作。
这种特定模式,就像我希望在秋天的场景中生成这种高清视频,是相对可控的,这是一个非常有趣的概念,特别是在视频领域。前面基本上总结了整个视觉AI技术的概况。
四、达摩院视觉AI开放服务
实际上,我们在与行业和学术界进行合作时已经进行了广泛的研究,我们也知道,要使这些功能可供开发者或研究者使用,需要采取一种方法,以确保他们能够开发出满足用户需求的模型和功能,这需要多个层面的考虑。
例如,对于学术界,发布一篇研究论文可能已经足够,以分享方法和思想。但对于一些中高级开发者来说,他们可能需要了解如何使用这些模型,需要详细的文档和注释。还有一些人可能只需调用API,或者需要一个组件或SDK,以满足其特定需求。
此外,对于行业或大型企业解决方案提供商来说,他们需要提供完整的产品和解决方案,以满足广泛的用户需求。因此,我们需要在多个方面提供支持。
另一个重要考虑因素是,如何基于这些预训练模型进行二次开发。这种方式在用户需要个性化定制时非常有用,它基于一种统一的方式,以满足一次开发无法满足的需求。因此,我们提供了两种主要的模型开放方式,一种是通过模型服务,另一种是通过API平台。
从这两个方面,您可以找到我们前面提到的所有模型和API。