动手学Avalonia:基于硅基流动构建一个文生图应用(一)

简介: 动手学Avalonia:基于硅基流动构建一个文生图应用(一)

文生图

文生图,全称“文字生成图像”(Text-to-Image),是一种AI技术,能够根据给定的文本描述生成相应的图像。这种技术利用深度学习模型,如生成对抗网络(GANs)或变换器(Transformers),来理解和解析文本中的语义信息,并将其转化为视觉表现。文生图可以用于创意设计、图像编辑、虚拟现实、游戏开发等多个领域,为用户提供了从文字到图像的创造性转换工具。例如,用户可以输入“一只蓝色的猫坐在月球上”,AI将尝试生成符合描述的图像。

Stable Diffusion

Stable Diffusion 是一种潜在的文本到图像扩散模型。得益于 Stability AI 慷慨的计算资源捐赠以及 LAION 的支持,我们得以使用 LAION-5B 数据库的一个子集中的 512x512 图像来训练一个潜在扩散模型。与 Google 的 Imagen 类似,此模型使用一个冻结的 CLIP ViT-L/14 文本编码器来根据文本提示对模型进行条件设定。该模型拥有 8.6 亿参数的 UNet 和 1.23 亿参数的文本编码器,相对轻量,只需要至少 10GB VRAM 的 GPU 即可运行。详情请参阅以下部分和模型卡片。

简而言之,Stable Diffusion 是一个由 Stability AI 和 LAION 支持的项目,使用 LAION-5B 数据库中的图像训练而成。它借鉴了 Google Imagen 的设计理念,使用 CLIP ViT-L/14 文本编码器处理文本提示,具有相对较小的模型大小,使得它在普通 GPU 上即可运行。

Stable Diffusion 3 Medium 是目前 Stable Diffusion 3 系列中最新、最先进的文本到图像 AI 模型,包含 20 亿个参数。它擅长照片级真实感,处理复杂的提示并生成清晰的文本。

stable-diffusion-3-medium模型开源地址:https://huggingface.co/stabilityai/stable-diffusion-3-medium

硅基流动

由于我目前硬件资源不行无法本地运行stable-diffusion-3-medium,但又想试试文生图模型,因此现阶段可以采用调用api的方式来使用。硅基流动平台目前提供了stable-diffusion-3的调用接口,并且限时免费,因为选择调用硅基流动提供的api。

Avalonia

基于Avalonia可以使用C#+Xaml构建跨平台应用。

本项目或许不具备太大的实用价值,权且当做学习Avalonia的一个练手项目。

项目架构:

在使用Avalonia的模板创建项目之后,更改项目为.net8,并升级一下包,这样可能会避免一些报错。

由于发现不支持中文提示词,因此还是使用SemanticKerenl基于LLM将中文提示词翻译为英文提示词,然后根据英文提示词绘图。

观察一下桌面端的依赖项,桌面端引用了核心项目,使用的包是Avalonia.Desktop。

桌面端实现效果如下所示:

观察一下Android端的依赖项,Android端也引用了核心项目,使用的包是Avalonnia.Android与Xamarin.AndroidX.Core.SplashScreen。

Android端调试可以选择模拟器与物理机。

避坑

选择物理机调试时要打开开发者模式,打开USB调试,最重要的是要允许通过USB安装,我之前没有设置这个,就会遇到一个被用户取消的错误提示。

Android端不知道为什么SenmanticKernel对提示模板不起作用如下所示:

现在只能自己写英文提示词绘图。

Android端的实现效果如下:

以上就是动手学Avalonia:基于硅基流动构建一个文生图应用(一)的内容,希望对使用C#构建跨平台应用感兴趣的小伙伴有所帮助。

目录
相关文章
|
7月前
|
机器学习/深度学习 人工智能 监控
基于函数计算体验AIGC文生图应用
小陈在学习Serverless和函数计算后,计划通过阿里云函数计算服务实践AIGC应用。他发现阿里云提供了基于Stable Diffusion的文生图模型模板,可以快速创建AIGC应用。部署步骤包括开通函数计算服务,通过模板创建应用并部署,然后通过应用域名进行文字生图体验。用户还能查看和管理函数,进行版本和别名管理。实验完成后,应用可以被安全删除。
407 2
|
5月前
|
人工智能 弹性计算 API
深度评测-通义万相AI绘画创作方案的部署与应用体验
通义万相提供流畅的API调用与资源部署体验,支持一键部署,文档详尽,适合新手。其SDK和示例代码简化了集成,响应速度快。操作界面友好,功能多样,如文本生图、人像美化。在生成效果上,能根据提示词创造各种场景,如古城墙、未来城市、金字塔和北极景象。虽然在处理复杂内容时有待提升,但已展现出良好的泛化能力。通义万相在成本、易用性和应用场景上具有竞争力,适合推荐给团队使用。未来可能的发展方向包括模型精度提升、多模态融合和增强个性化选项。常见问题包括API调用错误、图像质量、资源部署和响应速度,官方文档和社区支持有助于解决问题。
2323 2
|
人工智能 文件存储
|
机器学习/深度学习 存储 人工智能
AI入门必修,9分钟搭建文生图应用
《动手吧,开发者》由阿里云存储专家“征越”带来AI绘画平台Stable Diffusion的部署方式,领取文件存储NAS+模型在线服务PAI-EAS试用资源即可动实操!
|
机器学习/深度学习 人工智能 物联网
玩转AIGC | 5分钟使用PAI一键部署Stable Diffusion AI绘画应用
本文将展示如何通过阿里云机器学习PAI 快速部署SD文生图模型并启动WebUI 进行推理服务。
|
存储 人工智能 对象存储
玩转AIGC | 基于PAI-EAS挂载OSS,5步构建专属“文生图”能力
AI生成内容的形式相当丰富,除了文字外,还可以进行绘画、作曲、演唱、编剧、设计等。最近热度非常高的Text to Image就是AI加持下非常时髦的一种图片创造方式。基于PAI-EAS挂载OSS部署AIGC服务这个实验场景,可帮助用户体验AIGC文生图的能力。
521 0
玩转AIGC | 基于PAI-EAS挂载OSS,5步构建专属“文生图”能力
|
人工智能 物联网 异构计算
30行代码拥有个性stable-diffusion文生图在线GPU【免费】部署的应用
30行代码拥有个性stable-diffusion文生图在线GPU【免费】部署的应用
359 0
|
机器学习/深度学习 异构计算
50行代码搭建【自己的】文生图Web应用
50行代码搭建【自己的】文生图Web应用
599 0
|
7月前
|
机器学习/深度学习 自然语言处理
文生图模型-Stable Diffusion | AIGC
所谓的生成式模型就是通过文本或者随机采样的方式来得到一张图或者一段话的模型,比如文生图,顾名思义通过文本描述来生成图像的过程。当前流行的文生图模型,如DALE-2, midjourney以及今天要介绍的Stable Diffusion,这3种都是基于Diffusion扩散模型【1月更文挑战第6天】
876 0
|
7月前
|
人工智能 开发工具 git
【AI绘画】Stable Diffusion 客户端搭建
【AI绘画】Stable Diffusion 客户端搭建
192 0
【AI绘画】Stable Diffusion 客户端搭建

热门文章

最新文章

下一篇
DataWorks