这个社区可以互相交流学习AI相关的开发技术吗?自学开发AI图像算法插件一段时间,和大家分享一下经历吧,也不知道自己目前在折腾的东西有没有用。

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
简介: 接触AI相关快一年的时间,期间自学了一些AI图像相关的算法,然后用掌握的一些知识整了一些土枪土炮的花样,给大家献个丑,希望能在这里找到一个可以交流学习的环境。

去年开始接触AI绘画,3月开始自学开发stable diffusion的图像算法功能插件,主要是受到controlnet的启发,所以我也开始着手学习算法插件开发,对于我一个十几年前学药剂出身的工科生来说,这几乎是不太可能的事情。唯一的编程基础是大学时候学习的国家2级C语言。

好在那时候有GPT这样各种大模型,于是起手先把吴恩达等好几个知名老师关于深度学习和算法的课程先啃了一遍,看不懂的就问AI,然后就是看各种论文和文献,看不懂同样喂给AI,让AI嚼烂了辅助我理解,整体感觉最难的部分其实就是理解算法的部分,这个部分依靠AI的解释和举例来辅助学习会有比较大的帮助。期间辅助学习了Python。

补充一句,这几个月以来我全天候每天超过12小时,除了吃饭睡觉带娃,剩下的时间几乎都在学习和研究AI算法和基础,不懂的地方也会去海外开发者社区请教开发者问题。
就这样反复到了6月,基本上确定了一些想做的插件的方向,于是开始动手设计算法的功能框架。

因为当时SD用于服装电商领域比较热门,AI圈内也有一些SD的效果问题一直没有解决,所以我就主攻真实图像效果方面的算法功能开发。

我这里就简单的放一些效果说明和展示吧。
算法功能类型以“零样本训练采样的形式实现样本固定和样本嵌入”为主:

-7Q8w37-6o1rZ12T3cSvf-hq.png
-7Q8w37-iet9Z10T3cSxx-gn.png
-7Q8w37-9i84Z1dT3cSzv-c3.png
-7Q8w37-i7fyZ1dT3cSwf-hk.png

以上是这段时间研究和开发出来的插件和效果。
演示视频地址:https://www.bilibili.com/video/BV1Yh4y157AY/?share_source=copy_web&vd_source=186bcd344fd3e1d45d77dc00f5cf07ce

这次的云栖大会也去观摩学习了业内的AI技术展示,也和AI图像产品领域各个大佬交流了一番,受益良多。

说说看我这段时间研究开发算法插件的感受和经历吧,感觉国内没有专门AI技术交流的社区,导致我这种野生的小开发者没有一个可以交流问题和技术的圈子,被迫在闭门造车,有时候遇到问题找不到排除办法,我只能跑外网用翻译器翻蹩脚外语请教老外开发者问题,真的太难受了。

现在我也不知道我做的这些东西有没有实际意义,现在这些东西还不算完善,所以还没打算开源,怕开源了丢人。

不知道有没有这个领域的大佬能一起交流下,目前我在固定样本多角度推理的功能实现上,也遇到了一些问题,还没想到怎么解决的办法。希望能有AI图像算法插件开发的同道能一起探讨,没准就能找到解决的灵感。

相关文章
|
2天前
|
存储 人工智能 Serverless
阿里云《AI 剧本生成与动画创作》技术解决方案测评
本问是对《AI 剧本生成与动画创作》的用心体验。结论不是特别理想,在实际使用中仍存在一些问题。
53 22
|
2天前
|
算法 数据安全/隐私保护 计算机视觉
基于FPGA的图像双线性插值算法verilog实现,包括tb测试文件和MATLAB辅助验证
本项目展示了256×256图像通过双线性插值放大至512×512的效果,无水印展示。使用Matlab 2022a和Vivado 2019.2开发,提供完整代码及详细中文注释、操作视频。核心程序实现图像缩放,并在Matlab中验证效果。双线性插值算法通过FPGA高效实现图像缩放,确保质量。
|
2天前
|
人工智能 自然语言处理 测试技术
Potpie.ai:比Copilot更狠!这个AI直接接管项目代码,自动Debug+测试+开发全搞定
Potpie.ai 是一个基于 AI 技术的开源平台,能够为代码库创建定制化的工程代理,自动化代码分析、测试和开发任务。
72 19
Potpie.ai:比Copilot更狠!这个AI直接接管项目代码,自动Debug+测试+开发全搞定
|
7天前
|
机器学习/深度学习 人工智能 编解码
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
Lumina-Image 2.0 是上海 AI Lab 开源的高效统一图像生成模型,参数量为26亿,基于扩散模型和Transformer架构,支持多种推理求解器,能生成高质量、多风格的图像。
114 17
Lumina-Image 2.0:上海 AI Lab 开源的统一图像生成模型,支持生成多分辨率、多风格的图像
|
7天前
|
人工智能 开发框架 机器人
AstrBot:轻松将大模型接入QQ、微信等消息平台,打造多功能AI聊天机器人的开发框架,附详细教程
AstrBot 是一个开源的多平台聊天机器人及开发框架,支持多种大语言模型和消息平台,具备多轮对话、语音转文字等功能。
2059 13
AstrBot:轻松将大模型接入QQ、微信等消息平台,打造多功能AI聊天机器人的开发框架,附详细教程
|
9天前
|
机器学习/深度学习 存储 人工智能
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
MNN-LLM App 是阿里巴巴基于 MNN-LLM 框架开发的 Android 应用,支持多模态交互、多种主流模型选择、离线运行及性能优化。
778 14
MNN-LLM App:在手机上离线运行大模型,阿里巴巴开源基于 MNN-LLM 框架开发的手机 AI 助手应用
|
3天前
|
人工智能 Rust 安全
DeepClaude:结合 DeepSeek R1 和 Claude AI 各自优势开发的 AI 应用平台,支持 API 调用和零延迟的即时响应
DeepClaude 是一个开源的 AI 应用开发平台,结合了 DeepSeek R1 和 Claude 模型的优势,提供即时响应、端到端加密和高度可配置的功能。
134 4
DeepClaude:结合 DeepSeek R1 和 Claude AI 各自优势开发的 AI 应用平台,支持 API 调用和零延迟的即时响应
|
12天前
|
人工智能 IDE 开发工具
手把手带你使用字节新出的Trae IDE开发一个AI ChatBot
Trae是字节跳动推出的一款免费的AI集成的开发环境,集成了Claude3.5与GPT-4o等主流AI模型,提供AI问答、智能代码生成、智能代码补全,多模态输入等功能。支持界面全中文化,为中文开发者提供了高效的开发体验
292 10
手把手带你使用字节新出的Trae IDE开发一个AI ChatBot
|
4天前
|
人工智能 前端开发 Serverless
阿里云《AI 剧本生成与动画创作》解决方案技术评测
随着人工智能技术的发展,越来越多的工具和服务被应用于内容创作领域。阿里云推出的《AI 剧本生成与动画创作》解决方案,利用函数计算 FC 构建 Web 服务,结合百炼模型服务和 ComfyUI 工具,实现了从故事剧本撰写、插图设计、声音合成和字幕添加到视频合成的一站式自动化流程。本文将对该方案进行全面的技术评测,包括实现原理及架构介绍、部署文档指引、具体耗时分析以及实际使用体验。
58 16
|
7天前
|
人工智能 负载均衡 搜索推荐
谷歌发布双思维AI Agent:像人类一样思考,重大技术突破!
谷歌近日推出基于“快慢思维”理论的双思维AI Agent系统,模仿人类大脑的两种思维模式:快速直观的Talker(系统1)和深思熟虑的Reasoner(系统2)。Talker负责日常对话与快速响应,Reasoner则处理复杂推理任务。该系统模块化设计,灵活高效,已在睡眠教练等场景中展现应用潜力,但仍面临工作负载平衡与推理准确性等挑战。论文详情见:https://arxiv.org/abs/2410.08328v1
32 1

热门文章

最新文章