计算机视觉
包含图像分类、图像生成、人体人脸识别、动作识别、目标分割、视频生成、卡通画、视觉评价、三维视觉等多个领域
关于flux.1 loras的8个问题
Flux LoRA是一系列用于微调FLUX.1 AI模型的低阶适应模型,专为生成多样风格图像设计,如现实主义、动漫或艺术风格。LoRA通过调整模型权重实现特定美学或主题输出,无需大量再训练。Flux LoRA能创作从真实场景到幻想风光的各种图像,具体取决于选用的LoRA及输入提示。模型许可各不相同,使用前需确认授权范围。用户可通过ComfyUI等界面轻松集成LoRA模型。流行模型包括Flux Realism LoRA、Anime LoRA等。亦可利用自定义数据集训练个人化的LoRA。FLUX Lora提供在线免费试用。
一种基于YOLOv8改进的高精度红外小目标检测算法 (原创自研)
【7月更文挑战第2天】 💡💡💡创新点: 1)SPD-Conv特别是在处理低分辨率图像和小物体等更困难的任务时优势明显; 2)引入Wasserstein Distance Loss提升小目标检测能力; 3)YOLOv8中的Conv用cvpr2024中的DynamicConv代替;
YOLOv10实战:SPPF原创自研 | SPPF_attention,重新设计加入注意力机制 | NEU-DET为案列进行展开
【7月更文挑战第1天】 优点:为了利用不同的池化核尺寸提取特征的方式可以获得更多的特征信息,提高网络的识别精度; 如何优化:在此基础上加入注意力机制,能够在不同尺度上更好的、更多的获取特征信息,从而获取全局视角信息并减轻不同尺度大小所带来的影响; SPPF_attention,重新设计加入注意力机制 ,在NEU-DEU任务中mAP50从0.683提升至0.703;
YOLOv10实战:红外小目标实战 | 多头检测器提升小目标检测精度
本文改进: 在进行目标检测时,小目标会出现漏检或检测效果不佳等问题。YOLOv10有3个检测头,能够多尺度对目标进行检测,但对微小目标检测可能存在检测能力不佳的现象,因此添加一个微小物体的检测头,能够大量涨点,map提升明显; 多头检测器提升小目标检测精度,1)mAP50从0.666提升至0.677
ModelScope模型使用与EAS部署调用
本文以魔搭数据的模型为例,演示在DSW实例中如何快速调用模型,然后通过Python SDK将模型部署到阿里云PAI EAS服务,并演示使用EAS SDK实现对服务的快速调用,重点针对官方关于EAS模型上线后示例代码无法正常调通部分进行了补充。
modelscope调用的模型如何指定在特定gpu上运行?排除使用CUDA_VISIBLE_DEVICES环境变量
由于个人需要,家里有多张卡,但是我只想通过输入device号的方式,在单卡上运行模型。如果设置环境变量的话我的其他服务将会受影响。
这个社区可以互相交流学习AI相关的开发技术吗?自学开发AI图像算法插件一段时间,和大家分享一下经历吧,也不知道自己目前在折腾的东西有没有用。
接触AI相关快一年的时间,期间自学了一些AI图像相关的算法,然后用掌握的一些知识整了一些土枪土炮的花样,给大家献个丑,希望能在这里找到一个可以交流学习的环境。
图像(目标)检测入门理论课程
提到目标检测,不得不提到图像分类。 图像分类也是非常基础的工作,它是以一张图片作为输入,输出图片包含的物体类别以及分数。分数指有多大的置信度认为它是某一个类别。 目标检测任务相对于图像任务更进了一步,它会针对一个或者多个目标的图片,检测出其中目标的位置,分辨其类别并给出分数。
关键点检测从入门到进阶
关键点检测,也被称作关键点定位或关键点对齐(keypoint alignment),在不同的任务中名字可能略有差异。比如,在人脸关键点定位中会被称作facemark alignment,在人体关键点检测中称作pose alignment。
AdaDet检测工具箱:一行代码玩转检测算法
当前,非专业算法人员使用众多检测算法时,仍然会面临诸多挑战: 第一,检测算法包含多种类型,比如通用检测、垂类检测、人脸检测等,如何快速体验? 第二,每个算法类型包含不同的模型结构,有模型可能更注重于精度,有模型更注重于效率,如何选型? 第三,当前下游任务的开发样例较少,如何着手开发? 为了降低检测算法的使用门槛,我们推出了AdaDet检测工具箱。
底层视觉与黑白图像上色
底层视觉(即视觉增强)是计算机视觉中的一个分支,它专注于提高图像整体的观看体验。如果 “中高层视觉” 关注的是如何让计算机理解图像中的内容,那么底层视觉则致力于解决图像的清晰度、色彩、时序等各类画质问题。这些问题的出现与拍摄环境、设备等因素有关,而视觉增强技术则旨在修复这些问题,提供更好的视觉观看体验。
达摩院OpenVI-视频目标跟踪ICASSP 2023 Oral 渐进式上下文Transformer跟踪器 ProContEXT
视频目标跟踪(Video Object Tracking, VOT)任务以一段视频和第一帧中待跟踪目标的位置信息(矩形框)作为输入,在后续视频帧中预测该跟踪目标的精确位置。该任务对跟踪目标的类别没有限制,目的在于跟踪感兴趣的目标实例。该算法在学术界和工业界都是非常重要的一个研究课题,在自动驾驶、人机交互、视频监控领域都有广泛应用。本文将做较为详细的介绍说明。
AI给你送年画啦!每一张都是独一无二
阿里云开发者社区携手阿里达摩院、魔搭社区共同推出AI年画娃娃活动,为大家提供了最新的、可体验的生成式AI技术,希望为兔年春节增添一份科技氛围,让年味更加多彩丰富。