视觉AI技术体系及趋势概述（2）-阿里云开发者社区

视觉编辑开放模型

如果接触到玩得非常火一系列的风格变换，给个图变成各种各样的风格，这些风格当然很多时候都是色彩+内容的变化，还有卡通画：把一个正常的人变成一个各种各样的模式的卡通画，或者是变一个风格。是比较清新的风格？还是迪士尼的风格？还是 3D 的风格？等等。

或者一个人的皮肤不是那么好，但是又想使这个人美化以后还能保持真实的感觉，这是相对比较高级的美肤能力，这一系列都是属于视觉编辑。一张图生成各种文的风格，这些风格也可能是日漫风、 3D 风、手绘风、迪士尼风，而且这一个当前买可以定制化的。

比如以上是一个非常受欢迎的一个例子，例如给一张图，可以生成各种各样的风格，这些风格可能是日漫风，3D风，迪士尼风，或者还可以定制化，例如我希望得到一个风格，那么可以上传若干个风格的图片，然后根据这几张图片提取其中的一个风格特性，同时生成这种方式。所以这也是玩法非常多的一个方式，如果大家去试用会觉得很有趣。

电商海报设计

在一些特定的领域，比如说电商的海报领域，能不能生成一些banner图/广告图？如果大家早期关注过阿里的鹿班这个产品，就应该关注到这其中的一系列。

例如可以通过给一个商品主图以及一些文本，去生成一段背景，同时这个背景还能够非常好的和前景以及商品相互融合起来，包括这些细节也是非常使用的一个技术，是非常经典的生成编辑的能力。

视觉大模型技术

随着大模型技术的发展，以及算力，还有数据规模化的不断发展，还有多模态技术等等这一系列。前面的这些经典的像感知理解类的技术，或者生成编辑类的技术，现在都在往前发展。

视觉统一分割任务模型：SAM

对这种感知理解的技术，大家如何关注？前不久，Meta公司发表 SAM，通过模型可以对所有视觉分割任务进行统一的处理，且是zero shot 的问题。他可以对看得到、认识到之前识别不到的一系列目标对象进行识别分割，且能够达到精准的像素级别分割。这块它也可以在视频当中去做，比如我们看到视频当中有一个人，就能够把他检测出来，并且能够给出识别。在 3D 领域也都是可以去做的。

所以这个模型在两个地方很有意义，第一个解决很多目标中的分割问题。另外数据量也是非常庞大的。训练图像应该有 1000 多万，做一个 billion 的一个 mask，去做监督的训练。

这个模型也可以结合其他的模型做综合玩法。比如说像国内 grounding DINO 这个检测模型，然后跟这个 SAM 模型结合起来。还可以把一些像生成类的模型，例如Stable Diffusion，甚至 ChatGPT 这种领域的一些问题，或者语音领域的一些问题。可以结合起来去做一些事情。

例如希望把这个坐在椅子上面的狗狗换成一个猴子， change the dog to a monkey，这也是一个多模态的输入，结合这个分割模型，把这个狗识别出来，同时结合生成的技术，把这个前景的这个目标换掉，然后变成一个新的猴子这个目标，这也是非常有意思的一个玩法。

文生图大模型发展

像文生图这种模型，其实最近是特别火的。右上角这一张图，是MJ公司一战成名生成的一个图像。文生图这个领域越来越成熟，应用越来越多。同时也有非常多的经典的大模型的发展，包括早期的像 DALLE，到谷歌的imagen 方法，然后到现在最火的形成Stable Diffusion 。

这其中国内外也涌现了一批比较知名的专门在这个领域做，且做的得非常好的产品。业界中公认的做的最好的是Midjourney。

国内像文心一格，包括阿里也发布了若干个相关的一些文生图的大模型。当然想要把这些模型训练出来也是非常不容易的，这里也举例了干个大数据集，如果真的想要去训练起来一个大模型，我们可能要消耗好几百块的 GPU 卡，而且是需要训练很长的过程，其中除了算法本身以外，在算力和数据方面还有很多工作要做。所以要想做这一类的大模型其实是一个系统工程的问题。

“通义”预训练大模型系列

阿里发布了一系列的通义预训练大模型，包括M6-OFA这种包括文生图，这系列的基础模型都可以访问。

我们关注的是跟视觉领域相关的技术更多一些，在自己的这个文生图大模型上面，其实是基于一个知识重组的大模型训练。

相当于把知识信息这种先验信息，不管是语言的，视觉的或语音的，通过知识重组方式或者分组的方式作为编码器输入训练得到大模型，此时在规模越大的时候会产生更加良好的一个效果。

上图是举的几个例子，像生成这种动物或者 3D 的动物，或者跟人相关的，卡通画的人相关的。用的比较多的可能是国外的Midjourney或者是开源社区的 Stable Diffusion，此类文生图的大模型用的比较多，同时也欢迎大家去Model Scope 上使用。

基于扩散模型的图像超分

除了文生图以外基于扩散模型，其实还可以带来对于其他任务的一系列的增强和更新。比如说我们在前面说的图像超分其实也可以利用这种扩散模型去做，使得它的效果能够变得非常好。

这款它有自己特定的问题需要去解答。比如说在这种任务上面，我们怎么能够使得这个成本降低，速度加快，然后能够真的可以部署？这是一个现实的问题，因为大模型在生成的效率上面和消耗上面还是有比较多的问题。另外很多的任务可能不一定需要文本引导或需要多模态，它可能就是一个纯粹的视觉领域的问题。这也是在这个领域尝试的用大模型技术去解决的问题。

可控的图像生成：ControlNet

还有一种情况，我们希望以一种更可控的去做图像生成。去年年底的时候出的ControlNet模型在这个领域目前应用最广的，它可以对我们生成的目标进行一个预期的控制，无论是在轮廓上面还是在骨架上面、动作行为或者色彩上面，都可以通过这种方式去做。

其实它是将某个结构分成可训练的部分和不可训练部分，然后分别去针对这种模型进行充分的迭代，既能保留非常明显自身的学习能力，同时又能使得约束及控制存在。

可组合图像生成：Composer

当然在可控的投入量生产我们在达摩院上面也做了一个非常有意思的研究，此研究的核心特点是可以支持多个条件引导的图像合成，可以更加可控的生成方式去完成图片可控的生产。

例如在 8 个维度上，不管是形状还是深度形状或者 mask 等等，这上面都可以对生产的结果进行一系列的可控。

除了纯粹的文生图以外，怎么可控的去生产？举了两个例子，一个是那个业界用的比较早期的ControlNet，包括我们达摩院自研的一个 Composer 的一个模型。

文本生成图像

其实文本生成图像，现在的视频越来越用得广，那么文本能不能直接生成视频？其实这一块达摩院也在做相应的研究。

视频的生成确实要比图像的生成质量和可控性相对来说差一点，离真正的使用还是有一定的距离，它不像Midjourney或者文心一格，或者我们自己发布的一系列图像的生成产品慢慢的已经达到可用或者是商业可用的状态。但是对于视频的生产还是有比较多的问题要去解决。

发布的通义大模型文本生成视频，业界大家如何关注到？Runway 公司有个Gen-2，也就是Gen的一代、二代都可以生成一系列的视频。已经可以预测到文生视频的巨大潜力，这也是一个非常有前景，有意思，有挑战的技术方向。

当然文生视频其实还有另外一个做成的方式，例如想要做一个通用的文生视频其实非常难，生成的结果质量，不管是高清的这方面还是流畅性的这种控制还是语义的符合，是有非常大的一个挑战。那么我们在特定的环境或者是特定的范式下面能不能做一些事情？

例如我们希望什么样的人，在什么样的地方做什么样的动作，这样一个特定的模式能不能做呢？是可以的。比如说，我们做一个在盖有城堡的沙滩上跳舞，然后右边就是我希望秋天的树叶，在这个下跳舞。

这就是我们可以把这种特定范式下的视频生成做得相对可控和高清。

达摩院视觉AI开发服务

能力开放的不同形态

上面介绍到的这些能力达摩院和业界或者学业界做了非常多的探索，这些能力想要放开的话，无外乎是要要通过一个方式使得开发者/研发者/供给社研发出的模型或能力，能够满足用户的需要。这些需要是多个层面的，例如对于学生或学术圈来说，可能发一篇论文就够，把方法思想开放出去。对一些中高级的开发者，需要使用模型，使用数据，还有一些需要直接调用 API ，甚至有些人只需要一个组件或者一个 SDK 就可以满足。当然对于行业，政企，大行业或者解决方案的时候，需要提供一系列完整的产品和解决方案去满足用户的需求。

能力开放的深度和自学习服务

所以随着预训的大模型的发展，还有非常重要的是，怎么能够基于这些预训练模型进行二次开发，基于统一的范式去满足一次开发或基础模型不能满足用户定制化需求的时候的一种方式。

达摩院视觉AI开放服务

所以达摩院开放了开放了两种模式，一种是模型即服务的方式ModelScope，一种就是通过 API 平台去满足业界所有的需要，也就是前面所说的所有的模型或者 API 都可以从这两个地方去找得到。

视觉AI技术体系及趋势概述（2）

ModelScope模型即服务

热门文章

最新文章

相关课程

相关电子书

相关实验场景