AI拖动改图项目火热上线,亲测效果分享!

简介: AI拖动改图项目火热上线,亲测效果分享!

这两天有一个AI拖动改图的项目特别火,看官方分享的演示视频,效果特别震撼!

1689160751472.png

为了获取第一手的真实体验,我也第一时间部署了这个项目,并实际体验了一下。

坦白的说,它的实际效果和演示视频还是有些差距的,操作上并没有那么顺滑,一是自动生成的UI,交互体验不太友好,二是它对计算资源的要求比较高,如果机器不行会比较卡。对项目比较熟悉的大佬在回应网友时也说到这只是一个研究项目,和商用产品还有比较大的差距。

不过这个工具确实能解决一些问题,比如想给照片中的人或者动物换个优美的姿势,以及重新设计产品的外观等。也许再经过一段时间的迭代,它就能像AI绘图一样让大家爱不释手了。所以,我还是详细分享下我的体验过程,也给想尝试的同学提供一个参考。

安装说明

这个项目是在Github上开源的,本质是基于生成对抗网络的深度学习模型,访问地址:github.com/XingangPan/…

一开始我本来打算自己搭建环境部署,但是总遇到各种问题,折腾了几下就放弃了,后来在项目的Issues讨论区中看到有Google Colab版本,所以就直接拿过来跑了。

这是我的notebook,大家可以直接拷贝运行:colab.research.google.com/drive/1Cah5…

代码很简单,我这里简单介绍下:

!git clone  https://huggingface.co/spaces/radames/DragGan/
!pip install -r /content/DragGan/requirements.txt
%cd  /content/DragGan
!python  visualizer_drag_gradio.py --share

首先是从huggingface拷贝核心程序,由此可见大佬是在huggingface完成初次程序部署的;然后安装Gradio及其依赖的程序包;最后进入程序目录,启动程序。

这里为什么要装Gradio?首先这是一个让模型可视化的工具,方便我们进行调测;其次程序是在notebook中运行的,默认只能本机访问,Gradio可以做一个内网穿透,这样我们就可以在本地的浏览器操作。

为了给没操作过Google Colab的同学一些指引,我这里说下如何启动Notebook。

进入Notebook后,首先点击右上角这里的“连接”,Notebook就会自动创建服务器并启动它。

1689160850473.png

服务器启动成功后,这里会显示内存和磁盘的监控缩略图:

1689160889706.png

点击右侧的这个小箭头,在打开的下拉菜单中点击“查看资源”,就可以看到内存、GPU和磁盘的情况:

1689160921144.png

注意上图中的“GPU RAM”,这个代表显卡的显存使用情况,如果你的资源中没有这个项目,说明没有启用GPU,需要点击页面下方的“更改运行时类型”,在这里选择“硬件加速器”为GPU,GPU类型选择T4,如果付费了可以选择更好的。

1689160962624.png

程序启动成功后,日志这里会输出外网可以访问的Gradio地址,直接点击就会在浏览器打开。

1689160991860.png

使用说明

在打开的浏览器页面中,你会看到类似下图的一个页面:左边是一些控制参数和操作按钮,右边是待处理的图片区域。

1689161027889.png


这里我们做一个使用演示:

在页面的左上角,Pretrained Model 这里,我们选择 “stylegan2_dogs_1024_pytorch”,这是一些狗狗的预训练模型。模型选中后,右边就会加载一张狗狗的图片,这个图片是随机的。调整左侧的“See点”可以更换图片。

我这里的这个狗狗目光看向右边,我想让他把头扭过来,看着观众,这样可以增加一些亲近感!

具体操作步骤是:

1、在图片上点击想要拖拽的地方,点击完毕后,程序会进行一次处理,等待处理完毕,会显示一个红色的点。

2、在图片上点击要拖动到的地方,点击完毕后,程序还是会进行一次处理,等待即可,最后会显示一个蓝色的点。

1689161069310.png

3、点击Mask区域的“Edit Flexible Area”,点击完毕后,程序会进行一次处理,等待处理完毕。

1689161105381.png

4、然后我们点击图片右上角这个笔刷的按钮,把笔刷调整的大些,这样比较好涂抹。

1689161132493.png

5、然后涂抹,把狗狗的头部遮盖住,这一步的目的就是让拖动效果只影响遮盖的部分。

1689161216157.png

6、然后点击“Start”,开始拖拽调整。

1689161245468.png

可以看到图像会一步步接近我们的拖放点。

1689161413295.png

7、这个调整程序有时候长时间停不下来,可以点击“Stop”按钮停止运行,也可以刷新页面重载程序。

1689161446678.png

8、如果调整的效果不满意,可以多次调整,直到调整到最佳位置。

我这里技巧掌握的还不是很好,调整出来有点怪。

1689161478496.png

以上就是本文的主要内容了,从我的实际体验来说,比较卡,没有官宣的那么丝滑,可能是因为显卡的能力不够,有更好显卡的同学可以再试试,还有一部分原因是UI交互设计上的问题,每点一下图片部分都要重绘,加上网络传输,每次操作都要消耗若干秒或十几秒,应该可以合并一些前端操作再发到后端处理。

因本人能力有限,不免出现错漏,欢迎指正,感谢你的阅读。后续我会继续分享AI应用方面的东西,大家有兴趣的及时加我关注(微信公众号:萤火遛AI),以免错过精彩内容。

相关实践学习
部署Stable Diffusion玩转AI绘画(GPU云服务器)
本实验通过在ECS上从零开始部署Stable Diffusion来进行AI绘画创作,开启AIGC盲盒。
相关文章
|
12天前
|
人工智能 移动开发 JavaScript
如何用uniapp打包桌面客户端exe包,vue或者uni项目如何打包桌面客户端之electron开发-优雅草央千澈以开源蜻蜓AI工具为例子演示完整教程-开源代码附上
如何用uniapp打包桌面客户端exe包,vue或者uni项目如何打包桌面客户端之electron开发-优雅草央千澈以开源蜻蜓AI工具为例子演示完整教程-开源代码附上
|
5天前
|
人工智能 前端开发 程序员
通义灵码 AI 程序员全面上线,能和人类协作完成复杂开发任务
1 月 8 日消息,阿里云通义灵码 AI 程序员已全面上线,成为全球首个同时支持 VS Code、JetBrains IDEs 开发工具的 AI 程序员产品。此次上线的 AI 程序员相比传统 AI 辅助编程工具,能力更全面,可以让开发者以更高效、更沉浸的方式完成编码任务,通过全程对话协作的方式,就能完成从 0 到 1 的业务需求开发、问题修复、单元测试批量生成等复杂编码任务。
207 65
|
4天前
|
人工智能 前端开发 程序员
官宣!通义灵码 AI 程序员全面上线
通义灵码2.0 你的AI程序员来了!速来领取你的全新魔法搭档吧!
185 44
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
MMAudio 是一个基于多模态联合训练的高质量 AI 音频合成项目,能够根据视频内容或文本描述生成同步的音频。该项目适用于影视制作、游戏开发、虚拟现实等多种场景,提升用户体验。
103 7
MMAudio:开源 AI 音频合成项目,根据视频或文本生成同步的音频
|
16天前
|
人工智能 自然语言处理 安全
已解决:Poe AI国内能用吗?国内用户如何使用Poe AI?亲测有效的方法来了!
人工智能正在重塑我们的世界,而Poe AI作为AI聊天机器人平台的佼者,更是引领着这场变革。它集成了众多顶尖AI模型,如OpenAI的GPT系列、Anthropic的Claude系列以及Google的PaLM等,为用户提供了一个探索AI无限可能的开放平台
77 12
|
1月前
|
存储 人工智能 数据库
Codel:AI代理工具,支持在终端、浏览器、编辑器执行复杂任务和项目
Codel是一款全自主AI代理工具,支持在终端、浏览器和编辑器中执行复杂任务和项目。它运行在沙盒化的Docker环境中,具备自主操作能力,内置浏览器和文本编辑器,所有操作记录存储于PostgreSQL数据库。Codel能够自动完成复杂任务,如创建项目结构、进行网络搜索等,适用于自动化编程、研究与开发、教育与培训以及数据科学与分析等多个领域。
77 11
Codel:AI代理工具,支持在终端、浏览器、编辑器执行复杂任务和项目
|
2月前
|
人工智能 物联网 Shell
今日 AI 开源|共 12 项|开源的DIY健康追踪项目,基于低成本的智能戒指构建私人的健康监测应用
本文介绍了多个开源项目,涵盖了从量子计算错误纠正到视频生成和编辑的广泛应用领域。这些项目展示了AI技术在不同领域的创新和应用潜力。
205 10
今日 AI 开源|共 12 项|开源的DIY健康追踪项目,基于低成本的智能戒指构建私人的健康监测应用
|
2月前
|
存储 人工智能 缓存
官宣开源 阿里云与清华大学共建AI大模型推理项目Mooncake
近日,清华大学和研究组织9#AISoft,联合以阿里云为代表的多家企业和研究机构,正式开源大模型资源池化项目 Mooncake。
|
2月前
|
存储 人工智能 缓存
官宣开源|阿里云与清华大学共建AI大模型推理项目Mooncake
2024年6月,国内优质大模型应用月之暗面Kimi与清华大学MADSys实验室(Machine Learning, AI, Big Data Systems Lab)联合发布了以 KVCache 为中心的大模型推理架构 Mooncake。
|
2月前
|
存储 人工智能 文字识别
AI与OCR:数字档案馆图像扫描与文字识别技术实现与项目案例
本文介绍了纸质档案数字化的技术流程,包括高精度扫描、图像预处理、自动边界检测与切割、文字与图片分离抽取、档案识别与文本提取,以及识别结果的自动保存。通过去噪、增强对比度、校正倾斜等预处理技术,提高图像质量,确保OCR识别的准确性。平台还支持多字体识别、批量处理和结构化存储,实现了高效、准确的档案数字化。具体应用案例显示,该技术在江西省某地质资料档案馆中显著提升了档案管理的效率和质量。

热门文章

最新文章