DataWhale夏令营第四期魔搭- AIGC方向task01笔记

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: DataWhale夏令营,AIGC方向task1笔记。从平台注册到程序调试,最终生成一组古风小故事图片,并对其进行总结分析。

DataWhale夏令营第四期魔搭- AIGC方向task01笔记
part1 前序工作准备
这里教程和助教的笔记写的挺详细的,就不过多赘述了,整体只需要跟着操作即可。唯一只有两个点需要注意:
一是阿里云的PAI-DSW每天只有500个新用户试用名额,超过名额或者不是新用户就试用不了了。如果新用户当天没有抢到这500名额,就不要按后续的教程急急忙忙在阿里云中创建实例。因为一旦使用了阿里云的PAI-DSW,就不是新用户了,哪怕等到第二天名额刷新也无法领取赠送的5000CU*H 3个月,如下图:
image.png

如果没领到试用资源,这里推荐先去使用ModelScope社区给新用户赠送的100h(如下图),后续再取尝试领取阿里赠送的资源。
image.png

part2 程序调试
jupyter的使用大家基本也都会,按照教程实例跟着走就好。用到的包和资源下的也都很快,等待过程中可以通过左上角的标识来分辨是否在运行,变成绿色的运行完成就可以开始下一个了。image.png

参数设置要考虑合理性,太大不仅会使训练时间大大增加,还有爆显存的可能性。这里lora_rank设置的是16,一般都是8的倍数,8,16,32,64等。image.png

图片的提示词prompt可以自定义,一般采用描述性的词语或短语,可以也使用一些短句。描述时要注意连续性,并保证不同图片之间词语的相同/相近,以此保证不同图片间的关联性。
在这里我希望绘制出一个古代女侠客在客栈住宿的故事,故以此扩展,写出8幅图片的提示词。
image.png
image.png

part3 结果生成
提示词完成之后便可以运行数据集进行训练了,并用训练结果生成目标图像:
1.jpg
3.jpg
6.jpg
2.jpg
4.jpg
5.jpg
8.jpg
7.jpg

part4 总结分析
总体来看完成了ai图片的生成,并且生成的图片按需具有一定的故事性和连贯性,也没有太大的不合理特征,这一点算是成功的。但如果细看就会发现还是有一些逻辑性问题:女侠佩剑长度和款式会发生变化(例如p7和p8),面部特征也会有所出入)(例如p1和其他图图片)。个人猜测是整体的连贯性和特征描述不够,后续应该对提示词多进行一些斟酌和修改,以减少类似的逻辑问题。
橙少东2024.8.8

目录
相关文章
|
2月前
|
数据采集 机器学习/深度学习 人工智能
Datawhale AI夏令营第四期魔搭-AIGC文生图方向Task1笔记
这段内容介绍了一个使用Stable Diffusion与LoRA技术创建定制化二次元图像生成模型的全流程。首先,通过安装必要的软件包如Data-Juicer和DiffSynth-Studio准备开发环境。接着,下载并处理二次元图像数据集,利用Data-Juicer进行数据清洗和筛选,确保图像质量和尺寸的一致性。随后,训练一个针对二次元风格优化的LoRA模型,并调整参数以控制模型复杂度。完成训练后,加载模型并通过精心设计的提示词(prompt)生成一系列高质量的二次元图像,展示模型对细节和艺术风格的理解与再现能力。整个过程展示了从数据准备到模型训练及结果生成的完整步骤,为定制化图像提供了方向。
|
2月前
|
数据采集 机器学习/深度学习 人工智能
Datawhale AI夏令营第四期魔搭-AIGC文生图方向Task1笔记
这段内容介绍了一个使用LoRA技术定制Stable Diffusion模型的工作流程。首先定义了提示词的结构,接着概述了LoRA作为轻量级微调方法的角色。ComfyUI作为一个图形化工具,简化了AI模型的配置与操作。示例脚本展示了如何通过Data-Juicer和DiffSynth-Studio进行数据准备、模型训练,并最终生成特定风格的二次元图像。通过不同的种子和提示词,生成了一系列具有一致风格但内容各异的高质量二次元角色图像。
|
5月前
|
人工智能 安全 物联网
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总
180 1
|
5月前
|
机器学习/深度学习 人工智能 安全
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总
365 0
|
3月前
|
存储 自然语言处理 API
通义万相AIGC技术Web服务体验评测
随着人工智能技术的不断进步,图像生成技术已成为创意产业的一大助力。通义万相AIGC技术,作为阿里云推出的一项先进技术,旨在通过文本到图像、涂鸦转换、人像风格重塑及人物写真创建等功能,加速艺术家和设计师的创作流程。本文将详细评测这一技术的实际应用体验。
163 4
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
探索AIGC的底层技术:人工智能通用计算架构
探索AIGC的底层技术:人工智能通用计算架构
56 3
|
3天前
|
人工智能 自然语言处理 搜索推荐
超越边界:探索2023年AIGC技术盛宴,预测前沿科技的奇迹 🚀
本文探讨了互联网内容生产从PGC、UGC到AIGC的演变,特别关注了AIGC(人工智能生成内容)的发展及其对未来内容生产的深远影响。文章详细介绍了AIGC的定义、技术进展(如生成算法、多模态技术、AI芯片等),并展示了AIGC在多个领域的广泛应用,如代码生成、智能编程、个性化服务等。未来,AIGC将在各行各业创造巨大价值,推动社会进入更加智能化的时代。同时,文章也探讨了AIGC对开发者的影响,以及其可能无法完全取代人类的原因,强调开发者可以利用AIGC提升工作效率。
12 0
|
2月前
|
机器学习/深度学习 数据采集 人工智能
作为AIGC技术的一种应用-bard
8月更文挑战第22天
50 15
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
|
2月前
|
人工智能
AIGC图生视频技术下的巴黎奥运高光时刻
图生视频,Powered By「 阿里云视频云 」
117 4