视觉AI技术体系及趋势概述(2)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 视觉AI技术体系及趋势概述

视觉编辑开放模型

如果接触到玩得非常火一系列的风格变换,给个图变成各种各样的风格,这些风格当然很多时候都是色彩+内容的变化,还有卡通画:把一个正常的人变成一个各种各样的模式的卡通画,或者是变一个风格。是比较清新的风格?还是迪士尼的风格?还是 3D 的风格?等等。

或者一个人的皮肤不是那么好,但是又想使这个人美化以后还能保持真实的感觉,这是相对比较高级的美肤能力,这一系列都是属于视觉编辑。一张图生成各种文的风格,这些风格也可能是日漫风、 3D 风、手绘风、迪士尼风,而且这一个当前买可以定制化的。

比如以上是一个非常受欢迎的一个例子,例如给一张图,可以生成各种各样的风格,这些风格可能是日漫风,3D风,迪士尼风,或者还可以定制化,例如我希望得到一个风格,那么可以上传若干个风格的图片,然后根据这几张图片提取其中的一个风格特性,同时生成这种方式。所以这也是玩法非常多的一个方式,如果大家去试用会觉得很有趣。

电商海报设计

在一些特定的领域,比如说电商的海报领域,能不能生成一些banner图/广告图?如果大家早期关注过阿里的鹿班这个产品,就应该关注到这其中的一系列。

例如可以通过给一个商品主图以及一些文本,去生成一段背景,同时这个背景还能够非常好的和前景以及商品相互融合起来,包括这些细节也是非常使用的一个技术,是非常经典的生成编辑的能力。

视觉大模型技术

随着大模型技术的发展,以及算力,还有数据规模化的不断发展,还有多模态技术等等这一系列。前面的这些经典的像感知理解类的技术,或者生成编辑类的技术,现在都在往前发展。


视觉统一分割任务模型:SAM

对这种感知理解的技术,大家如何关注?前不久,Meta公司发表 SAM,通过模型可以对所有视觉分割任务进行统一的处理,且是zero shot 的问题。他可以对看得到、认识到之前识别不到的一系列目标对象进行识别分割,且能够达到精准的像素级别分割。这块它也可以在视频当中去做,比如我们看到视频当中有一个人,就能够把他检测出来,并且能够给出识别。在 3D 领域也都是可以去做的。

所以这个模型在两个地方很有意义,第一个解决很多目标中的分割问题。另外数据量也是非常庞大的。训练图像应该有 1000 多万,做一个 billion 的一个 mask, 去做监督的训练。

这个模型也可以结合其他的模型做综合玩法。比如说像国内 grounding DINO 这个检测模型,然后跟这个 SAM 模型结合起来。还可以把一些像生成类的模型,例如Stable Diffusion,甚至 ChatGPT 这种领域的一些问题,或者语音领域的一些问题。可以结合起来去做一些事情。

例如希望把这个坐在椅子上面的狗狗换成 一个猴子, change the dog to a monkey,这也是一个多模态的输入,结合这个分割模型,把这个狗识别出来,同时结合生成的技术,把这个前景的这个目标换掉,然后变成一个新的猴子这个目标,这也是非常有意思的一个玩法。

文生图大模型发展

像文生图这种模型,其实最近是特别火的。右上角这一张图,是MJ公司一战成名生成的一个图像。文生图这个领域越来越成熟,应用越来越多。同时也有非常多的经典的大模型的发展,包括早期的像 DALLE,到谷歌的imagen 方法,然后到现在最火的形成Stable Diffusion 。

这其中国内外也涌现了一批比较知名的专门在这个领域做,且做的得非常好的产品。业界中公认的做的最好的是Midjourney。

国内像文心一格,包括阿里也发布了若干个相关的一些文生图的大模型。当然想要把这些模型训练出来也是非常不容易的,这里也举例了干个大数据集,如果真的想要 去训练起来一个大模型,我们可能要消耗好几百块的 GPU 卡,而且是需要训练很长的过程,其中除了算法本身以外,在算力和数据方面还有很多工作要做。所以要想做这一类的大模型其实是一个系统工程的问题。

“通义”预训练大模型系列

阿里发布了一系列的通义预训练大模型,包括M6-OFA这种包括文生图,这系列的基础模型都可以访问。

我们关注的是跟视觉领域相关的技术更多一些,在自己的这个文生图大模型上面,其实是基于一个知识重组的大模型训练。

相当于把知识信息这种先验信息,不管是语言的,视觉的或语音的,通过知识重组方式或者分组的方式作为编码器输入训练得到大模型,此时在规模越大的时候会产生更加良好的一个效果。

上图是举的几个例子,像生成这种动物或者 3D 的动物,或者跟人相关的,卡通画的人相关的。用的比较多的可能是国外的Midjourney或者是开源社区的 Stable Diffusion,此类文生图的大模型用的比较多,同时也欢迎大家去Model Scope 上使用。

基于扩散模型的图像超分

除了文生图以外基于扩散模型,其实还可以带来对于其他任务的一系列的增强和更新。比如说我们在前面说的图像超分其实也可以利用这种扩散模型去做,使得它的效果能够变得非常好。

这款它有自己特定的问题需要去解答。比如说在这种任务上面,我们怎么能够使得这个成本降低,速度加快,然后能够真的可以部署?这是一个现实的问题,因为大模型在生成的效率上面和消耗上面还是有比较多的问题。另外很多的任务可能不一定需要文本引导或需要多模态,它可能就是一个纯粹的视觉领域的问题。这也是在这个领域尝试的用大模型技术去解决的问题。

可控的图像生成:ControlNet

还有一种情况,我们希望以一种更可控的去做图像生成。去年年底的时候出的ControlNet模型在这个领域目前应用最广的,它可以对我们生成的目标进行一个预期的控制,无论是在轮廓上面还是在骨架上面、动作行为或者色彩上面,都可以通过这种方式去做。

其实它是将某个结构分成可训练的部分和不可训练部分,然后分别去针对这种模型进行充分的迭代,既能保留非常明显自身的学习能力,同时又能使得约束及控制存在。

可组合图像生成:Composer

当然在可控的投入量生产我们在达摩院上面也做了一个非常有意思的研究,此研究的核心特点是可以支持多个条件引导的图像合成,可以更加可控的生成方式去完成图片可控的生产。

例如在 8 个维度上,不管是形状还是深度形状或者 mask 等等,这上面都可以对生产的结果进行一系列的可控。

除了纯粹的文生图以外,怎么可控的去生产?举了两个例子,一个是那个业界用的比较早期的ControlNet,包括我们达摩院自研的一个 Composer 的一个模型。

文本生成图像

其实文本生成图像,现在的视频越来越用得广,那么文本能不能直接生成视频?其实这一块达摩院也在做相应的研究。

视频的生成确实要比图像的生成质量和可控性相对来说差一点,离真正的使用还是有一定的距离,它不像Midjourney或者文心一格,或者我们自己发布的一系列图像的生成产品慢慢的已经达到可用或者是商业可用的状态。但是对于视频的生产还是有比较多的问题要去解决。

发布的通义大模型文本生成视频,业界大家如何关注到?Runway 公司有个Gen-2, 也就是Gen的一代、二代都可以生成一系列的视频。已经可以预测到文生视频的巨大潜力,这也是一个非常有前景,有意思,有挑战的技术方向。

当然文生视频其实还有另外一个做成的方式,例如想要做一个通用的文生视频其实非常难,生成的结果质量,不管是高清的这方面还是流畅性的这种控制还是语义的符合,是有非常大的一个挑战。那么我们在特定的环境或者是特定的范式下面能不能做一些事情?

例如我们希望什么样的人,在什么样的地方做什么样的动作,这样一个特定的模式能不能做呢?是可以的。比如说,我们做一个在盖有城堡的沙滩上跳舞,然后右边就是我希望秋天的树叶,在这个下跳舞。

这就是我们可以把这种特定范式下的视频生成做得相对可控和高清。

达摩院视觉AI开发服务

能力开放的不同形态

上面介绍到的这些能力达摩院和业界或者学业界做了非常多的探索,这些能力想要放开的话,无外乎是要要通过一个方式使得开发者/研发者/供给社研发出的模型或能力,能够满足用户的需要。这些需要是多个层面的,例如对于学生或学术圈来说,可能发一篇论文就够,把方法思想开放出去。对一些中高级的开发者,需要使用模型,使用数据,还有一些需要直接调用 API ,甚至有些人只需要一个组件或者一个 SDK 就可以满足。当然对于行业,政企,大行业或者解决方案的时候,需要提供一系列完整的产品和解决方案去满足用户的需求。

能力开放的深度和自学习服务

所以随着预训的大模型的发展,还有非常重要的是,怎么能够基于这些预训练模型进行二次开发,基于统一的范式去满足一次开发或基础模型不能满足用户定制化需求的时候的一种方式。

达摩院视觉AI开放服务

所以达摩院开放了开放了两种模式,一种是模型即服务的方式ModelScope,一种就是通过 API 平台去满足业界所有的需要,也就是前面所说的所有的模型或者 API 都可以从这两个地方去找得到。

相关文章
|
3天前
|
机器学习/深度学习 人工智能 供应链
AI技术在医疗领域的应用与未来展望###
本文深入探讨了人工智能(AI)技术在医疗领域的多种应用及其带来的革命性变化,从疾病诊断、治疗方案优化到患者管理等方面进行了详细阐述。通过具体案例和数据分析,展示了AI如何提高医疗服务效率、降低成本并改善患者体验。同时,文章也讨论了AI技术在医疗领域面临的挑战和未来发展趋势,为行业从业者和研究人员提供参考。 ###
|
3天前
|
机器学习/深度学习 人工智能 搜索推荐
人工智能与未来医疗:AI技术如何重塑医疗健康领域###
【10月更文挑战第21天】 一场由AI驱动的医疗革命正在悄然发生,它以前所未有的速度和深度改变着我们对于疾病预防、诊断、治疗及健康管理的认知。本文探讨了AI在医疗领域的多维度应用,包括精准医疗、药物研发加速、远程医疗普及以及患者个性化治疗体验的提升,揭示了这场技术变革背后的深远意义与挑战。 ###
21 6
|
3天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗领域的应用与挑战
【10月更文挑战第21天】 本文探讨了人工智能(AI)在医疗领域的多种应用,包括疾病诊断、治疗方案推荐、药物研发和患者管理等。通过分析这些应用案例,我们可以看到AI技术如何提高医疗服务的效率和准确性。然而,AI在医疗领域的广泛应用也面临诸多挑战,如数据隐私保护、算法透明度和伦理问题。本文旨在为读者提供一个全面的视角,了解AI技术在医疗领域的潜力和面临的困难。
|
4天前
|
人工智能 自然语言处理 监控
AI技术在文本情感分析中的应用
【10月更文挑战第22天】本文将探讨人工智能(AI)如何改变我们对文本情感分析的理解和应用。我们将通过实际的代码示例,深入了解AI如何帮助我们识别和理解文本中的情感。无论你是AI新手还是有经验的开发者,这篇文章都将为你提供有价值的信息。让我们一起探索AI的奇妙世界吧!
13 3
|
4天前
|
人工智能 边缘计算 监控
边缘AI计算技术应用-实训解决方案
《边缘AI计算技术应用-实训解决方案》提供完整的实训体系,面向高校和科研机构的AI人才培养需求。方案包括云原生AI平台、百度AIBOX边缘计算硬件,以及8门计算机视觉实训课程与2门大模型课程。AI平台支持大规模分布式训练、超参数搜索、标注及自动化数据管理等功能,显著提升AI训练与推理效率。硬件涵盖多规格AIBOX服务器,支持多种推理算法及灵活部署。课程涵盖从计算机视觉基础到大模型微调的完整路径,通过真实商业项目实操,帮助学员掌握前沿AI技术和产业应用。
18 2
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
开源版GPT-4o来了,AI大神Karpathy盛赞!67页技术报告全公开
【10月更文挑战第20天】近日,开源版GPT-4o的发布成为AI领域的焦点。作为GPT系列的最新成员,GPT-4o在性能和多模态数据处理方面实现了显著提升,得到了知名AI专家Andrej Karpathy的高度评价。该模型的开源特性将进一步促进AI研究的进展。
15 3
|
5天前
|
机器学习/深度学习 人工智能 测试技术
探索 AI 驱动的软件开发:未来技术的新趋势
【10月更文挑战第19天】本文探讨了人工智能(AI)在软件开发中的应用现状和技术优势,包括代码生成、缺陷检测、自动化测试和性能优化。AI 可以提高开发效率、减少人为错误、加速创新并持续学习。文章还讨论了实施 AI 驱动开发的挑战和最佳实践,强调了数据管理和技能培训的重要性。
|
4天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术前沿探索:解锁智能时代的无限可能
【10月更文挑战第22天】AI技术前沿探索:解锁智能时代的无限可能
11 1
|
5天前
|
机器学习/深度学习 人工智能 算法
利用AI技术进行图像识别的探索之旅
【10月更文挑战第21天】本文主要介绍了如何运用人工智能技术进行图像识别。通过深入浅出的解释,让读者对AI图像识别有更深入的理解。同时,文章还提供了一些代码示例,帮助读者更好地理解和应用这些技术。
|
5天前
|
机器学习/深度学习 人工智能 自然语言处理
智能时代的伦理挑战:AI技术的双刃剑效应
【10月更文挑战第20天】 在21世纪的科技浪潮中,人工智能(AI)如同一颗璀璨新星,引领着人类社会迈向前所未有的智能化时代。然而,正如印度圣雄甘地所言:“你必须成为你希望在世界上看到的改变。” AI技术的发展不仅带来了效率与便利的飞跃,也引发了关于隐私侵犯、就业替代、决策透明度等一系列深刻的伦理问题。本文旨在探讨AI技术作为一把双刃剑,如何在推动社会进步的同时,对我们的生活方式、价值观念乃至法律体系提出挑战,并呼吁我们在享受科技成果的同时,不忘审视其背后的伦理责任,共同塑造一个更加公正、透明的智能未来。
21 2