视觉智能-官方博客-阿里云开发者社区

阿里云OpenVI

|

机器学习/深度学习人工智能算法

|

博文

置顶

【视觉智能产品速递——人物动漫化能力上新】

VIAPI—人物动漫化！新增风格版本发布。产品功能：人物动漫化——输入一张人物图像，生成其二次元卡通形象，返回卡通化后的结果图像。 🔥🔥🔥 本次更新风格：国风工笔画、港漫风

2028 4 4

来自：人脸人体版块

y22d5jdczpqg6

|

机器学习/深度学习人工智能自然语言处理

|

博文

置顶

让梦境绘入现实--AIGC人像绘画

在光怪陆离的梦境中，我们可以摆脱客观事实的约束，对自己的外在形象进行天马行空的畅想，有人化身威风凛凛的将军驰骋疆场，又有人化身亭亭玉立的公主正襟危坐，然而这些翩若惊鸿婉若游龙的美好瞬间却总是会随着一声闹钟的响声化为泡影。难道梦境中的自己总是不能被带回到现实之中吗？AIGC技术的快速发展使得这一点成为可能。

939 2 2

lllcho

|

博文

置顶

多种模态控制的背景生成技术

在保持输入主体不变的情况下生成背景的需求广泛存在，可用于海报生成、商品换背景多种场景。本文介绍一种使用扩散模型生成背景的技术，背景生成内容可接受图像、文字prompt和图像边缘edge等3中不同的引导方式，这些引导方式可以组合使用，灵活的控制生成背景的内容。该模型具有很好的通用性，对主体内容无限制，适用各种不同的图像主体，例如各类商品、动物甚至人像等。

667 1 1

阿里云OpenVI

|

编解码物联网开发者

|

博文

置顶

FaceChain应用生态爆发？无限可能的人物应用等你加入探索！

在过去的不到一个月，FaceChain开源项目从无到有，成功突破了相关技术瓶颈，GitHub获得了超过4.6K star，为未来的应用发展奠定了坚实的基础。本文将介绍我们已经实现的一些核心功能、，以及未来一些场景的设想。文章末尾，诚邀有意向有能力的开发者加入我们！

1631 2 6

来自：人脸人体版块

小小开发楠楠子

|

机器学习/深度学习人工智能达摩院

|

博文

置顶

港大阿里“视觉AI任意门”，一键向场景中无缝传送物体

本文主要展示了阿里和港大的AI版「任意门」，实现零样本的图像嵌入。

1898 3 3

y22d5jdczpqg6

|

人工智能自动驾驶算法

|

博文

置顶

本地生活技术雷达——生成式AI（Generative AI）在阿里本地生活的应用与思考

本地生活技术雷达是由本地生活技术中心战略管理&PMO团队开展的，定期扫描和评估新兴技术的战略研究工作。目的是对技术趋势进行前瞻性预判，提出新技术布局建议，在技术驱动业务创新和业务增长、践行社会责任等方面有一些实质性探索。本篇尝试探讨 1）理解AI范式——从分析型（Analytical AI）到生成式（Generative AI）的拐点在2022年，其对人类社会以及商业模式的长期影响； 2）生成式AI（文生文、文生图、图生图等）在本地业务目前场景的应用和未来的方向。欢迎技术、产品、运营、战略、管理层、国内国际等各种视角的指点和碰撞！

40438 8 9

小小开发楠楠子

|

机器学习/深度学习人工智能 TensorFlow

|

博文

置顶

新手该如何快速学习和应用LLM

852 0 0

我不想开发了

|

存储人工智能算法

|

博文

置顶

AI提效：基于手淘首页截图进行请求定位能力实现

648 1 1

阿里云OpenVI

|

机器学习/深度学习人工智能自然语言处理

|

博文

置顶

【OpenVI—AI热点日报】9月13日

AI热点日报隆重推出！我们汇集了最新的AI热点信息、最新论文和观点，为您提供最前沿的AI领域资讯。（往期链接请在子社区查看官方博文哦~）

467 0 0

KlondikeKing

|

机器学习/深度学习编解码算法

|

博文

置顶

【阿里云OpenVI-视觉生产系列之图片上色】照片真实感上色算法DDColor ICCV2023论文深入解读

图像上色是老照片修复的一个关键步骤，本文介绍发表在 ICCV 2023 上的最新上色论文 DDColor

4584 11 11

来自：视觉生产版块

游客gwiurm4mq5kag

|

机器学习/深度学习人工智能达摩院

|

博文

置顶

AIGC玩转卡通化技术实践

伴随着持续不断的AIGC浪潮，越来越多的AI生成玩法正在被广大爱好者定义和提出，图像卡通化（动漫化）基于其还原效果高，风格种类丰富等特点而备受青睐。早在几年前，伴随着GAN网络的兴起，卡通化就曾经风靡一时。而今，伴随着AIGC技术的兴起和不断发展，扩散生成模型为卡通化风格和提供了更多的创意和生成的可能性。本文就将详细介绍达摩院开放视觉团队的卡通化技术实践。

57889 5 5

来自：视觉生产版块

小小开发楠楠子

|

机器学习/深度学习人工智能自然语言处理

|

博文

置顶

ChatGPT最强专业学习资料集锦

本文旨在整理一份可供参考和学习的专业ChatGPT相关资料，包括ChatGPT相关论文、Github项目、以及当前市场上出现的ChatGPT相关产品等。

1583 5 8

morning_sun_lee

|

人工智能编解码算法

|

博文

置顶

【IJCAI 2023】流感知优化之 DAMO-StreamNet 论文解读

传统视频目标检测（Video Object Detection, VOD）是离线（offline）的检测任务，即仅考虑算法的检测精度，未考虑算法的延时。流感知（Streaming Perception）任务作为VOD的一个细分方向，采用流平均精度（Streaming Average Precision, sAP）指标，衡量算法的在线（online）检测能力，即同时衡量算法的精度和延时。本文针对现有的流感知工作在训练方式和模型感受野两方面的不足，提出了DAMO-StreamNet，在保证算法实时性的前提下，实现了SOTA的性能。

2067 6 7

游客vprys6yy2tgjw

|

机器学习/深度学习人工智能编解码

|

博文

置顶

AI人像特效之「一键生成N次元虚拟形象」

为了零成本低门槛地提供极致酷炫的人像玩法，我们提出了一套人像风格化通用框架「AI Maleonn」AI 版神笔马良，用于一键生成风格百变的人物虚拟形象，在风格上涵盖手绘、3D、日漫、艺术特效、铅笔画等多种风格，同时可以支持面向小样本的专属风格定制，利用少量目标风格图即可实现快速迁移拓展；在处理维度上，不仅适用于生成头部效果，更支持全图精细化纹理转换，兼容多人场景；在模型鲁棒性上，有效克服了多角度姿态、面部遮挡等各类复杂场景，整体稳定性大大提升。

2971 7 7

来自：人脸人体版块

1974209422418958

|

机器学习/深度学习编解码算法

|

博文

置顶

【视觉智能开放平台】出品智能修图技术—智能转档算法

RAW转档是专业级摄影后期修图的必备环节，旨在将拍摄的RAW图转化为细节丰富，色彩准确的JPG原片，方便修图师基于转档结果进行更为个性化和精细化的美化操作。由于对效果的精准要求和流程的把控需求，目前修图师主要利用专业软件进行人工转档操作。整个过程耗时又费力，极大降低了后期修图的交付效率。为了赋能修图师，提升他们的工作效率，本文提出了一种基于数据驱动，自动转档的技术方案，以实现人工RAW转档的替代。

1699 2 2

来自：图像生产版块

游客eqa6jyp4jiy4c

|

博文

置顶

WordArt Designer：基于用户驱动与大语言模型的艺术字生成

本文介绍了一个基于用户驱动，依赖于大型语言模型(LLMs)的艺术字生成框架WordArt Designer。该系统包含四个关键模块:LLM引擎、SemTypo、Stlytypo和TextTypo模块。由gpt-3.5 turbo驱动的LLM引擎可以解释用户输入，从而将抽象概念转化为具体的设计。SemTypo模块使用语义概念优化字体设计，在艺术转换和可读性之间取得平衡。在SemTypo的基础上，StyTypo模块辅助生成精细的图像。TextTypo模块通过纹理渲染进一步生成创造性纹理字体。

43839 20 23

来自：图像生产版块

蓝星空

|

3天前

|

博文

测试一下发文章

42 1 2

启明殿主李长庚

|

22天前

|

人工智能前端开发物联网

|

博文

历史科普视频的AI自动化生产工作流：从全手动到半自动的工程演进

本文量化历史科普视频制作瓶颈，对比全手动（Stable Diffusion/GPT-SoVITS/Manim等开源栈）与半自动（花生AI为核心）方案。实测混合工作流将单期耗时从29–49小时压缩至10–15小时，效率提升60%+，兼顾质量、可控性与落地性。

328 3 3

来自：视觉生产版块

一条云

|

25天前

|

存储人工智能编解码

|

博文

AI短剧/AI广告生成实战流程：阿里云百炼新上线的HappyHorse 1.1功能详解、参数调试、成本指南

HappyHorse是阿里云推出的端到端AI视频生成大模型，2026年6月22日正式上线迭代版本HappyHorse 1.1，部署在阿里云百炼平台对外开放API调用与在线调试能力，主打短剧、电商广告、品牌宣传片、内容营销短片四大商用内容场景。相比初代HappyHorse 1.0，新版本在动态时序、角色一致性、画面质感、音画协同、长指令理解五大核心维度完成系统性升级，解决旧版动作僵硬、人物面部失真、多角色画面互相污染、长分镜逻辑断裂等行业常见痛点。

341 2 2

陈恩华

|

1月前

|

机器学习/深度学习算法计算机视觉

|

博文

Ж-CEH：锚定结构存在论—— 从宇宙虚无到视觉张量的统一框架

陈恩华提出“锚定结构存在论”，定义核心算符Ж（观察者坍缩筛）与锚定存在方程，首创Ж-CEH算法，突破强光干扰下边缘检测难题：FP压制率达83%~89%，F1仅降2.3%，1帧恢复。实现工业视觉从“依赖光源”到“遵循物理规律”的范式跃迁。

165 1 1

uek43r3gnoqv4

|

1月前

|

人工智能数据可视化 5G

|

博文

一线互联 × Rokid AI眼镜：为什么它是工业4.0时代一线人员的标准装备？

Gartner预测：2027年30%工业企业将为一线员工标配AI眼镜（2023年仅5%）。Rokid灵伴眼镜+一线互联jLink，以轻量化硬件、5G低延时网络与任务驱动型协作系统，实现远程指导、过程留痕、数据归档闭环，助力企业降本增效、沉淀数字资产。（239字）

139 2 2

AI小怪兽

|

1月前

|

机器学习/深度学习数据可视化测试技术

|

博文

YOLO26如何涨点系列篇（NEU-DET缺陷检测） | CVPR2026 FAAFusion 解决Neck跨尺度方向冲突，实现涨点1.2%

在NEU-DET数据集下验证：原始mAP50原始为 0.722提升至 0.734 ，P 原始为 0.745 提升至 0.749， R 原始为 0.643 提升至0.665 ， mAP50-95原始为0.407提升至 0.41

307 3 3

4qbc32bydmbdi

|

1月前

|

边缘计算监控前端开发

|

博文

"多路全景视频实时拼接融合"边缘计算网关几种拼接方式

本文介绍全景视频实时拼接融合边缘计算网关支持的四种前端摄像头机位部署结构：横向（180°水平）、纵向（大垂直视角）、环形外拼（360°全景）及穹顶形（最复杂）。强调需满足定焦镜头与画面重合度两大前提，目前网关已兼容前三种结构。

264 1 1

步里软件

|

1月前

|

数据采集 Python Windows

|

博文

2472.一款图片批量提取工具：从文章到图库，一招搞定素材管理_创建自己的永久免费图床

公号图床图片提取工具：一键批量提取微众号文章中的所有配图，智能识别防盗链、自动去重、支持纯链接/HTML/论坛格式输出，并可实时预览、本地批量保存，直链引用，操作极简，效率跃升。

591 3 4

来自：图像搜索版块

1412813596264204

|

1月前

|

弹性计算文件存储异构计算

|

博文

ECS GPU 上跑 vLLM：模型目录、镜像和 runtime 排查记录

本文记录ECS GPU环境部署vLLM时“容器运行但服务不ready”的排查过程。聚焦NAS模型挂载、Docker GPU透传、镜像预检、runtime配置及vLLM冷启动分层验证，避免将存储延迟误判为GPU或模型问题，提炼出7项可复用的GPU推理服务上线前检查清单。（239字）

261 2 2

侠客工坊

|

2月前

|

人工智能 API 调度

|

博文

视觉大模型结合Agentic Workflow：侠客工坊重构移动端GUI自动化的技术实践

本文剖析大模型直接控制GUI在工业场景失效的根源，介绍侠客工坊首创的“Agentic Workflow”智能体工作流方案：通过视觉感知原子化、状态机驱动、分层意图对齐与反思式异常处理，实现高精度、可管控的AI手机数字员工，打通跨App数据孤岛。

419 1 1

陈恩华

|

2月前

|

机器学习/深度学习人工智能自动驾驶

|

博文

「独家」AI视觉防御被彻底颠覆？无需训练、实时检测对抗样本，还能量化防御副作用的开源引擎问世

AI视觉存在致命盲区——对抗攻击：微小扰动即可导致误判。现有防御方案或依赖GPU、或破坏图像细节、或不可解释。本系统零训练、纯CPU运行，首创ORB特征保真度量化，支持实时检测、可解释诊断与相位自校正净化。

242 1 1

陈恩华

|

3月前

|

机器学习/深度学习传感器算法

|

博文

用 200 元改了一个普通摄像头，测直径稳定到 ±5 微米

本项目实现了一种低成本、高鲁棒的圆形工件视觉检测方案：仅用200元USB摄像头，无需远心镜头与深度学习，15ms内完成检测，直径重复精度达±2μm，圆心定位误差＜0.01mm；自动抑制灰尘、划痕、油污干扰，换型一键标定，结果可解释。

328 3 3

步里软件

|

3月前

|

Web App开发存储搜索推荐

|

博文

【编号2401】告别窗口混乱：一款轻量化窗口管理工具的高效办公实践

这是一款基于Python开发的轻量化窗口管理工具，专为多窗口、多显示器办公场景设计。支持智能吸附（拖拽/快捷键一键对齐）、跨屏协同、自定义热键、布局保存恢复及窗口快速切换，显著提升窗口操作效率，让繁琐调整变为“一键高效”。

372 1 1

来自：分割抠图版块

步里软件

|

3月前

|

编解码安全 Java

|

博文

【编号2400】从代码逻辑到实际应用：一款轻量化桌面工具的开发与实用价值解析

一款轻量化桌面工具的开发实践，聚焦用户真实痛点：通过自定义TKinter按钮实现交互反馈、右键日志管理提升排查效率、线程池异步处理避免卡顿、安全创建隐藏目录及窗口自适应居中等设计，以模块化、稳健的Python代码，让桌面工具更顺手、稳定、实用。

357 5 5

来自：内容审核版块

懷淰メ

|

3月前

|

人工智能监控数据可视化

|

博文

【AI加持】基于PyQt+YOLO+DeepSeek的车型检测系统（详细介绍）

本文介绍了一款基于PyQt5、YOLOv8和DeepSeek的车型检测系统。该系统通过YOLOv8实现实时目标检测，可识别公交车、小汽车等多种车型，并利用DeepSeek进行智能分析评估。系统采用Sqlite3进行数据存储，结合多线程技术提升性能。应用场景包括交通流量监测、智慧停车场管理、公路收费站和城市安防等，为智能交通建设提供高效解决方案。系统还具备登录注册功能，确保使用安全。该技术方案将计算机视觉与AI分析相结合，推动交通管理向智能化方向发展。

540 36 39

懷淰メ

|

3月前

|

机器学习/深度学习人工智能数据可视化

|

博文

【AI加持】基于PyQt+YOLO+DeepSeek的口罩佩戴检测系统（详细介绍）

本文介绍了一个基于PyQt+YOLO+DeepSeek的口罩佩戴检测系统。该系统利用YOLOv8实现高效目标检测，结合PyQt5构建可视化界面，并集成DeepSeek模型进行智能分析。支持图片、视频、摄像头等多种数据源输入，可实时检测口罩佩戴情况。系统采用多线程技术保证流畅运行，并使用SQLite3进行数据存储管理。该方案有效解决了公共场所口罩佩戴监测难题，相比人工巡查显著提升了管理效率和准确性，为智慧城市建设和公共卫生安全管理提供了智能化解决方案。

378 34 35

陈恩华

|

3月前

|

机器学习/深度学习监控算法

|

博文

量子坍缩视觉引擎：85%噪声下SSIM=0.39，中值直接跪！工业视觉的救命稻草

CEH-QCV量子坍缩算法，专为极端噪声（如85%彩色噪声、辐射/深海/电磁干扰场景）设计，不依赖训练与GPU，纯C++实现，320×240实时处理仅22ms。锁定率100%，SSIM达0.394，是传统方法失效时唯一稳定输出结构的方案。

263 2 2

陈恩华

|

3月前

|

机器学习/深度学习算法 Apache

|

博文

CEH特征引擎：重新定义实时视觉的“速度-精度”边界

CEH是首个在普通CPU上实现“高密度特征+高帧间匹配+亚像素精度”的全能特征引擎，速度超BRISK、效率领先SIFT一个数量级，零GPU依赖、零专利风险，纯C++开源，完美适配嵌入式与边缘设备。

436 49 49

陈恩华

|

3月前

|

机器学习/深度学习人工智能算法

|

博文

普通摄像头秒变“透视仪”：黎曼分形透镜如何让微弱瑕疵无处遁形（军工项目之外研究）

一种基于黎曼分形动力学的非线性图像增强技术——“分形透镜”。无需AI模型，仅用纯C++实现，通过递归映射与黄金分割比调控，实时放大微弱灰度差异（如水渍、指纹、低温差目标），在普通USB摄像头上实现“透视级”细节增强，计算耗时 0.5ms，已开源并验证于工业检测与国防场景。

321 10 10

来自：图像理解版块

侠客工坊

|

3月前

|

存储人工智能自然语言处理

|

博文

企业级数字员工落地：侠客工坊从端侧视觉推理到云原生数据治理的架构思考

本文介绍“侠客工坊”端云协同架构：以事件驱动解耦云端与海量移动端，通过轻量化视觉模型实现端侧自治；采用原生事件驱动保障合规安全；构建冷热分层数据治理体系，500TB多模态数据高效归档至OSS深冷存储，为B2B企业打造高可用、强合规的数字员工基础设施。

457 1 1

懷淰メ

|

3月前

|

人工智能监控数据可视化

|

博文

【AI加持】基于PyQt5+YOLOv8+DeepSeek的摔倒行为检测系统（详细介绍）

本文介绍了一个基于PyQt5+YOLOv8+DeepSeek的摔倒行为检测系统。该系统整合了计算机视觉与自然语言处理技术，支持对图片、视频、摄像头等多种数据源的实时检测，并具备智能评估功能。系统采用PyQt5开发GUI界面，YOLOv8进行目标检测，DeepSeek提供语义分析，同时使用CSV存储数据和多线程优化性能。功能包括登录注册、实时检测、历史记录查询等，适用于养老院、医院等场景，具有重要的社会应用价值和技术创新意义。

435 3 3

我的linux生涯

|

3月前

|

人工智能自然语言处理监控

|

博文

企业如何抓住AI红利？阿里云权益中心深度解读与实战指南

本文深度解析阿里云AI权益中心的核心价值与落地场景，涵盖Qwen大模型、JVS Claw智能体平台等全栈能力，助力企业降本增效——电商视频生成成本直降99%，内容创作提效18倍。附技术选型框架与实战指南。（239字）

398 9 9

安之眼Agent

|

3月前

|

人工智能运维安全

|

博文

基于端侧 AI 与云边协同的电力智能巡检解决方案实践

电力巡检面临人工依赖高、效率低、安全风险大、数据难闭环等痛点。本方案基于云-边-端协同架构，融合端侧轻量化AI、多模态感知与弱网适配技术，打造工业级AR智能安全帽，实现变电站、输电线路等场景的智能识别、实时预警、全程追溯与安全管控，助力电网数字化升级。

837 0 1

游客oy354pswzt3zm

|

4月前

|

机器学习/深度学习存储人工智能

|

博文

AI解说大师Agent Skill详解：如何让智能体具备自主任务规划能力？

本文深度解析AI Agent“技能（Skill）”的本质，破除“仅封装CLI/API”的误区，揭示真正核心是任务规划能力——让AI像项目经理一样理解意图、拆解任务、自主决策、传递数据、容错恢复。以“AI解说大师”为例，详解原创/二创双路径规划、数据流依赖管理与Markdown结构化Skill设计，推动Agent从执行者跃升为“懂思考的协作者”。

909 0 0

工程师高培

|

4月前

|

芯片内存技术

|

博文

电路设计调试：那些书本上没写，但实际中常踩的坑

本文揭秘硬件设计中高频踩坑点：从电阻电容选型失当、电源啸叫与冲击、时序偏差、信号反射串扰，到EMC防护失效及高低温失效机理。强调“基础不牢，地动山摇”，提醒工程师重视元器件参数、阻抗匹配、回流路径等细节，少走弯路。（239字）

239 0 0

工程师高培

|

4月前

|

芯片

|

博文

辐射超标、静电复位等等这些EMC问题背后藏着什么？

本文结合典型工程案例，系统解析EMC设计四大关键环节：结构屏蔽与接地（如悬空金属、散热器接地）、电缆与接口防护（如Pigtail问题、ESD保护）、滤波设计（如滤波器安装、TVS选型）及PCB布局（地平面完整性、滤波电容 placement）。强调EMC需前置设计，而非事后整改。（239字）

369 0 0

安之眼Agent

|

4月前

|

传感器算法安全

|

博文

AR 眼镜多模态融合：视觉、语音与 IMU 的端侧协同实践

本文介绍AR眼镜端侧多模态融合方案，通过视觉、语音与IMU协同，解决工业场景中强光、噪声、漂移等挑战；采用硬件触发同步、动态加权融合与INT8量化优化，实现≤15ms低延时、91%高识别率及22%功耗降低，已在五矿盐湖项目落地验证。

492 0 1

游客rnssw2rnriape

|

4月前

|

传感器人工智能监控

|

博文

协作机器人和工业机器人的区别

协作机器人（Cobot）是专为人机协同设计的工业机器人分支，以安全、灵活、易用为核心，通过力控感知、速度监控与ISO/TS 15066认证实现无围栏共作；支持拖拽示教、快速换型，部署快、成本低、ROI短（6–18个月），适用于打磨、柔性装配、医疗辅助等非标场景。（239字）

731 1 1

安之眼Agent

|

4月前

|

人工智能算法 vr&ar

|

博文

边缘AI算法在工业AR眼镜中的部署实践：从模型轻量化到端侧推理

本文分享AR眼镜端侧AI部署实践：针对工业无网/弱网、毫秒级响应需求，通过知识蒸馏+INT8量化+剪枝将模型压缩至<10MB；选用MNN引擎优化推理，实测仪表OCR（38ms/99.2%）、缺陷检测（42ms/98.7%）等任务均满足实时性与精度要求。

932 2 3

孑小白

|

4月前

|

编解码文字识别安全

|

博文

AutoGod:安卓5-16全兼容！一站式自动化框架，开发效率直接拉满

Auto-God是一站式安卓自动化框架，兼容Android 5–16，覆盖手势、视觉（OCR/YOLO）、网络、UI（Material3悬浮界面）、拓展及安全（防HOOK/抓包/破解）全能力，开箱即用，真机/模拟器/云手机全支持，让自动化开发更简单、高效、安全。

1029 1 2

阿法龙XR云平台

|

4月前

|

人工智能运维安全

|

博文

解放双手，透视数据：AR+AI技术正在如何解决新能源储能行业的老大难问题

在新能源储能工厂，AR+AI智能眼镜正革新传统巡检：设备信息“长”在眼前，AI自动识读仪表、预警异常，远程专家实时指导。它不替代人，而是赋能一线——让巡检更准、更快、更安全。

252 1 1

来自：图像搜索版块

zfhvx64ydb4r6

|

4月前

|

机器学习/深度学习人工智能编解码

|

博文

视频字幕擦除与动态修复技术深度解析：从开源算法基准到高并发SaaS架构的演进

本报告深度解析视频硬字幕擦除与修复技术演进，涵盖光流传播、时空Transformer（如ProPainter）及扩散模型等前沿算法；对比开源工具、桌面软件与SaaS云平台，指出云端原生架构在算力解耦、热更新、高并发与易用性上的断代优势，为工业落地提供权威指南。

879 1 1

AI小怪兽

|

4月前

|

机器学习/深度学习编解码算法

|

博文

SPMamba-YOLO：多尺度增强+全局建模，水下目标检测精度飙升4.9%！

本文提出SPMamba-YOLO水下目标检测模型：创新融合SPPELAN（增强多尺度特征与感受野）、PSA注意力（抑制背景、提升小目标判别）及Mamba状态空间模块（建模长程依赖），在URPC2022上mAP@0.5达82.5%，超越YOLOv8n 4.9%。

628 2 2

agal5yxttdffg

|

4月前

|

Cloud Native 算法测试技术

|

博文

基于云原生架构的 AIGC 视频后处理实践：应对扩散模型纹理挑战

随着 AIGC 视频生成规模化应用，视频后处理能力逐渐成为系统吞吐与质量保障的关键环节。本文结合实际工程实践，分析扩散模型生成视频在高频纹理与时间一致性方面的挑战，并探讨基于云原生架构的 GPU 化后处理方案。通过引入生成式重构与弹性算力调度，实现视频修复性能与吞吐能力的显著提升。

324 1 1

来自：分割抠图版块

最新

通义万相

官方博客

问答

视频

【视觉智能产品速递——人物动漫化能力上新】

让梦境绘入现实--AIGC人像绘画

多种模态控制的背景生成技术

FaceChain应用生态爆发？无限可能的人物应用等你加入探索！

港大阿里“视觉AI任意门”，一键向场景中无缝传送物体

本地生活技术雷达——生成式AI（Generative AI）在阿里本地生活的应用与思考

新手该如何快速学习和应用LLM

AI提效：基于手淘首页截图进行请求定位能力实现

【OpenVI—AI热点日报】9月13日

【阿里云OpenVI-视觉生产系列之图片上色】照片真实感上色算法DDColor ICCV2023论文深入解读

AIGC玩转卡通化技术实践

ChatGPT最强专业学习资料集锦

【IJCAI 2023】流感知优化之 DAMO-StreamNet 论文解读

AI人像特效之「一键生成N次元虚拟形象」

【视觉智能开放平台】出品智能修图技术—智能转档算法

WordArt Designer：基于用户驱动与大语言模型的艺术字生成

测试一下发文章

历史科普视频的AI自动化生产工作流：从全手动到半自动的工程演进

AI短剧/AI广告生成实战流程：阿里云百炼新上线的HappyHorse 1.1功能详解、参数调试、成本指南

Ж-CEH：锚定结构存在论—— 从宇宙虚无到视觉张量的统一框架

一线互联 × Rokid AI眼镜：为什么它是工业4.0时代一线人员的标准装备？

YOLO26如何涨点系列篇（NEU-DET缺陷检测） | CVPR2026 FAAFusion 解决Neck跨尺度方向冲突，实现涨点1.2%

"多路全景视频实时拼接融合"边缘计算网关几种拼接方式

2472.一款图片批量提取工具：从文章到图库，一招搞定素材管理_创建自己的永久免费图床

ECS GPU 上跑 vLLM：模型目录、镜像和 runtime 排查记录

视觉大模型结合Agentic Workflow：侠客工坊重构移动端GUI自动化的技术实践

「独家」AI视觉防御被彻底颠覆？无需训练、实时检测对抗样本，还能量化防御副作用的开源引擎问世

用 200 元改了一个普通摄像头，测直径稳定到 ±5 微米

【编号2401】告别窗口混乱：一款轻量化窗口管理工具的高效办公实践

【编号2400】从代码逻辑到实际应用：一款轻量化桌面工具的开发与实用价值解析

【AI加持】基于PyQt+YOLO+DeepSeek的车型检测系统（详细介绍）

【AI加持】基于PyQt+YOLO+DeepSeek的口罩佩戴检测系统（详细介绍）

量子坍缩视觉引擎：85%噪声下SSIM=0.39，中值直接跪！工业视觉的救命稻草

CEH特征引擎：重新定义实时视觉的“速度-精度”边界

普通摄像头秒变“透视仪”：黎曼分形透镜如何让微弱瑕疵无处遁形（军工项目之外研究）

企业级数字员工落地：侠客工坊从端侧视觉推理到云原生数据治理的架构思考

【AI加持】基于PyQt5+YOLOv8+DeepSeek的摔倒行为检测系统（详细介绍）

企业如何抓住AI红利？阿里云权益中心深度解读与实战指南

基于端侧 AI 与云边协同的电力智能巡检解决方案实践

AI解说大师Agent Skill详解：如何让智能体具备自主任务规划能力？

电路设计调试：那些书本上没写，但实际中常踩的坑

辐射超标、静电复位等等这些EMC问题背后藏着什么？

AR 眼镜多模态融合：视觉、语音与 IMU 的端侧协同实践

协作机器人和工业机器人的区别

边缘AI算法在工业AR眼镜中的部署实践：从模型轻量化到端侧推理

AutoGod:安卓5-16全兼容！一站式自动化框架，开发效率直接拉满

解放双手，透视数据：AR+AI技术正在如何解决 新能源储能行业的老大难问题

视频字幕擦除与动态修复技术深度解析：从开源算法基准到高并发SaaS架构的演进

SPMamba-YOLO：多尺度增强+全局建模，水下目标检测精度飙升4.9%！

基于云原生架构的 AIGC 视频后处理实践：应对扩散模型纹理挑战

视觉智能

活跃用户

相关产品

解放双手，透视数据：AR+AI技术正在如何解决新能源储能行业的老大难问题