视觉AI技术体系及趋势概述(2)

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 视觉AI技术体系及趋势概述

视觉编辑开放模型

如果接触到玩得非常火一系列的风格变换,给个图变成各种各样的风格,这些风格当然很多时候都是色彩+内容的变化,还有卡通画:把一个正常的人变成一个各种各样的模式的卡通画,或者是变一个风格。是比较清新的风格?还是迪士尼的风格?还是 3D 的风格?等等。

或者一个人的皮肤不是那么好,但是又想使这个人美化以后还能保持真实的感觉,这是相对比较高级的美肤能力,这一系列都是属于视觉编辑。一张图生成各种文的风格,这些风格也可能是日漫风、 3D 风、手绘风、迪士尼风,而且这一个当前买可以定制化的。

比如以上是一个非常受欢迎的一个例子,例如给一张图,可以生成各种各样的风格,这些风格可能是日漫风,3D风,迪士尼风,或者还可以定制化,例如我希望得到一个风格,那么可以上传若干个风格的图片,然后根据这几张图片提取其中的一个风格特性,同时生成这种方式。所以这也是玩法非常多的一个方式,如果大家去试用会觉得很有趣。

电商海报设计

在一些特定的领域,比如说电商的海报领域,能不能生成一些banner图/广告图?如果大家早期关注过阿里的鹿班这个产品,就应该关注到这其中的一系列。

例如可以通过给一个商品主图以及一些文本,去生成一段背景,同时这个背景还能够非常好的和前景以及商品相互融合起来,包括这些细节也是非常使用的一个技术,是非常经典的生成编辑的能力。

视觉大模型技术

随着大模型技术的发展,以及算力,还有数据规模化的不断发展,还有多模态技术等等这一系列。前面的这些经典的像感知理解类的技术,或者生成编辑类的技术,现在都在往前发展。


视觉统一分割任务模型:SAM

对这种感知理解的技术,大家如何关注?前不久,Meta公司发表 SAM,通过模型可以对所有视觉分割任务进行统一的处理,且是zero shot 的问题。他可以对看得到、认识到之前识别不到的一系列目标对象进行识别分割,且能够达到精准的像素级别分割。这块它也可以在视频当中去做,比如我们看到视频当中有一个人,就能够把他检测出来,并且能够给出识别。在 3D 领域也都是可以去做的。

所以这个模型在两个地方很有意义,第一个解决很多目标中的分割问题。另外数据量也是非常庞大的。训练图像应该有 1000 多万,做一个 billion 的一个 mask, 去做监督的训练。

这个模型也可以结合其他的模型做综合玩法。比如说像国内 grounding DINO 这个检测模型,然后跟这个 SAM 模型结合起来。还可以把一些像生成类的模型,例如Stable Diffusion,甚至 ChatGPT 这种领域的一些问题,或者语音领域的一些问题。可以结合起来去做一些事情。

例如希望把这个坐在椅子上面的狗狗换成 一个猴子, change the dog to a monkey,这也是一个多模态的输入,结合这个分割模型,把这个狗识别出来,同时结合生成的技术,把这个前景的这个目标换掉,然后变成一个新的猴子这个目标,这也是非常有意思的一个玩法。

文生图大模型发展

像文生图这种模型,其实最近是特别火的。右上角这一张图,是MJ公司一战成名生成的一个图像。文生图这个领域越来越成熟,应用越来越多。同时也有非常多的经典的大模型的发展,包括早期的像 DALLE,到谷歌的imagen 方法,然后到现在最火的形成Stable Diffusion 。

这其中国内外也涌现了一批比较知名的专门在这个领域做,且做的得非常好的产品。业界中公认的做的最好的是Midjourney。

国内像文心一格,包括阿里也发布了若干个相关的一些文生图的大模型。当然想要把这些模型训练出来也是非常不容易的,这里也举例了干个大数据集,如果真的想要 去训练起来一个大模型,我们可能要消耗好几百块的 GPU 卡,而且是需要训练很长的过程,其中除了算法本身以外,在算力和数据方面还有很多工作要做。所以要想做这一类的大模型其实是一个系统工程的问题。

“通义”预训练大模型系列

阿里发布了一系列的通义预训练大模型,包括M6-OFA这种包括文生图,这系列的基础模型都可以访问。

我们关注的是跟视觉领域相关的技术更多一些,在自己的这个文生图大模型上面,其实是基于一个知识重组的大模型训练。

相当于把知识信息这种先验信息,不管是语言的,视觉的或语音的,通过知识重组方式或者分组的方式作为编码器输入训练得到大模型,此时在规模越大的时候会产生更加良好的一个效果。

上图是举的几个例子,像生成这种动物或者 3D 的动物,或者跟人相关的,卡通画的人相关的。用的比较多的可能是国外的Midjourney或者是开源社区的 Stable Diffusion,此类文生图的大模型用的比较多,同时也欢迎大家去Model Scope 上使用。

基于扩散模型的图像超分

除了文生图以外基于扩散模型,其实还可以带来对于其他任务的一系列的增强和更新。比如说我们在前面说的图像超分其实也可以利用这种扩散模型去做,使得它的效果能够变得非常好。

这款它有自己特定的问题需要去解答。比如说在这种任务上面,我们怎么能够使得这个成本降低,速度加快,然后能够真的可以部署?这是一个现实的问题,因为大模型在生成的效率上面和消耗上面还是有比较多的问题。另外很多的任务可能不一定需要文本引导或需要多模态,它可能就是一个纯粹的视觉领域的问题。这也是在这个领域尝试的用大模型技术去解决的问题。

可控的图像生成:ControlNet

还有一种情况,我们希望以一种更可控的去做图像生成。去年年底的时候出的ControlNet模型在这个领域目前应用最广的,它可以对我们生成的目标进行一个预期的控制,无论是在轮廓上面还是在骨架上面、动作行为或者色彩上面,都可以通过这种方式去做。

其实它是将某个结构分成可训练的部分和不可训练部分,然后分别去针对这种模型进行充分的迭代,既能保留非常明显自身的学习能力,同时又能使得约束及控制存在。

可组合图像生成:Composer

当然在可控的投入量生产我们在达摩院上面也做了一个非常有意思的研究,此研究的核心特点是可以支持多个条件引导的图像合成,可以更加可控的生成方式去完成图片可控的生产。

例如在 8 个维度上,不管是形状还是深度形状或者 mask 等等,这上面都可以对生产的结果进行一系列的可控。

除了纯粹的文生图以外,怎么可控的去生产?举了两个例子,一个是那个业界用的比较早期的ControlNet,包括我们达摩院自研的一个 Composer 的一个模型。

文本生成图像

其实文本生成图像,现在的视频越来越用得广,那么文本能不能直接生成视频?其实这一块达摩院也在做相应的研究。

视频的生成确实要比图像的生成质量和可控性相对来说差一点,离真正的使用还是有一定的距离,它不像Midjourney或者文心一格,或者我们自己发布的一系列图像的生成产品慢慢的已经达到可用或者是商业可用的状态。但是对于视频的生产还是有比较多的问题要去解决。

发布的通义大模型文本生成视频,业界大家如何关注到?Runway 公司有个Gen-2, 也就是Gen的一代、二代都可以生成一系列的视频。已经可以预测到文生视频的巨大潜力,这也是一个非常有前景,有意思,有挑战的技术方向。

当然文生视频其实还有另外一个做成的方式,例如想要做一个通用的文生视频其实非常难,生成的结果质量,不管是高清的这方面还是流畅性的这种控制还是语义的符合,是有非常大的一个挑战。那么我们在特定的环境或者是特定的范式下面能不能做一些事情?

例如我们希望什么样的人,在什么样的地方做什么样的动作,这样一个特定的模式能不能做呢?是可以的。比如说,我们做一个在盖有城堡的沙滩上跳舞,然后右边就是我希望秋天的树叶,在这个下跳舞。

这就是我们可以把这种特定范式下的视频生成做得相对可控和高清。

达摩院视觉AI开发服务

能力开放的不同形态

上面介绍到的这些能力达摩院和业界或者学业界做了非常多的探索,这些能力想要放开的话,无外乎是要要通过一个方式使得开发者/研发者/供给社研发出的模型或能力,能够满足用户的需要。这些需要是多个层面的,例如对于学生或学术圈来说,可能发一篇论文就够,把方法思想开放出去。对一些中高级的开发者,需要使用模型,使用数据,还有一些需要直接调用 API ,甚至有些人只需要一个组件或者一个 SDK 就可以满足。当然对于行业,政企,大行业或者解决方案的时候,需要提供一系列完整的产品和解决方案去满足用户的需求。

能力开放的深度和自学习服务

所以随着预训的大模型的发展,还有非常重要的是,怎么能够基于这些预训练模型进行二次开发,基于统一的范式去满足一次开发或基础模型不能满足用户定制化需求的时候的一种方式。

达摩院视觉AI开放服务

所以达摩院开放了开放了两种模式,一种是模型即服务的方式ModelScope,一种就是通过 API 平台去满足业界所有的需要,也就是前面所说的所有的模型或者 API 都可以从这两个地方去找得到。

相关文章
|
9天前
|
人工智能 自然语言处理 机器人
文档智能与RAG技术如何提升AI大模型的业务理解能力
随着人工智能的发展,AI大模型在自然语言处理中的应用日益广泛。文档智能和检索增强生成(RAG)技术的兴起,为模型更好地理解和适应特定业务场景提供了新方案。文档智能通过自动化提取和分析非结构化文档中的信息,提高工作效率和准确性。RAG结合检索机制和生成模型,利用外部知识库提高生成内容的相关性和准确性。两者的结合进一步增强了AI大模型的业务理解能力,助力企业数字化转型。
44 3
|
7天前
|
人工智能 文字识别 运维
AI多模态的5大核心关键技术,让高端制造实现智能化管理
结合大模型应用场景,通过AI技术解析高端制造业的复杂设备与文档数据,自动化地将大型零件、机械图纸、操作手册等文档结构化。核心技术包括版面识别、表格抽取、要素抽取和文档抽取,实现信息的系统化管理和高效查询,大幅提升设备维护和生产管理的效率。
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
思通数科AI平台在尽职调查中的技术解析与应用
思通数科AI多模态能力平台结合OCR、NLP和深度学习技术,为IPO尽职调查、融资等重要交易环节提供智能化解决方案。平台自动识别、提取并分类海量文档,实现高效数据核验与合规性检查,显著提升审查速度和精准度,同时保障敏感信息管理和数据安全。
73 11
|
13天前
|
人工智能 自然语言处理 算法
企业内训|AI/大模型/智能体的测评/评估技术-某电信运营商互联网研发中心
本课程是TsingtaoAI专为某电信运营商的互联网研发中心的AI算法工程师设计,已于近日在广州对客户团队完成交付。课程聚焦AI算法工程师在AI、大模型和智能体的测评/评估技术中的关键能力建设,深入探讨如何基于当前先进的AI、大模型与智能体技术,构建符合实际场景需求的科学测评体系。课程内容涵盖大模型及智能体的基础理论、测评集构建、评分标准、自动化与人工测评方法,以及特定垂直场景下的测评实战等方面。
64 4
|
12天前
|
机器学习/深度学习 人工智能 算法
基于AI的性能优化技术研究
基于AI的性能优化技术研究
|
17天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗健康领域的应用与挑战####
本文旨在探讨人工智能(AI)技术在医疗健康领域的创新应用及其面临的主要挑战。通过深入分析AI如何助力疾病诊断、治疗方案优化、患者管理及药物研发,本文揭示了AI技术在提升医疗服务质量、效率和可及性方面的巨大潜力。同时,文章也指出了数据隐私、伦理道德、技术局限性等关键问题,并提出了相应的解决策略和未来发展方向。本文为医疗从业者、研究者及政策制定者提供了对AI医疗技术的全面理解,促进了跨学科合作与创新。 ####
|
15天前
|
人工智能 算法
AI技术在医疗领域的应用及其挑战
【10月更文挑战第31天】本文将探讨AI技术在医疗领域的应用及其面临的挑战。我们将从AI技术的基本概念开始,然后详细介绍其在医疗领域的应用,包括疾病诊断、药物研发、患者护理等方面。最后,我们将讨论AI技术在医疗领域面临的挑战,如数据隐私、算法偏见等问题。
|
15天前
|
存储 人工智能 文字识别
AI与OCR:数字档案馆图像扫描与文字识别技术实现与项目案例
本文介绍了纸质档案数字化的技术流程,包括高精度扫描、图像预处理、自动边界检测与切割、文字与图片分离抽取、档案识别与文本提取,以及识别结果的自动保存。通过去噪、增强对比度、校正倾斜等预处理技术,提高图像质量,确保OCR识别的准确性。平台还支持多字体识别、批量处理和结构化存储,实现了高效、准确的档案数字化。具体应用案例显示,该技术在江西省某地质资料档案馆中显著提升了档案管理的效率和质量。
|
17天前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
14天前
|
机器学习/深度学习 人工智能 算法
AI技术在医疗领域的应用及其挑战
【10月更文挑战第33天】随着人工智能技术的不断发展,其在医疗领域的应用也越来越广泛。从辅助诊断到治疗方案的制定,AI技术都发挥着重要作用。然而,随之而来的挑战也不容忽视,如数据隐私保护、算法的透明度和可解释性等问题。本文将探讨AI技术在医疗领域的应用及其面临的挑战。
26 0

热门文章

最新文章

下一篇
无影云桌面