【视觉智能产品速递——人物动漫化能力上新】
VIAPI—人物动漫化!新增风格版本发布。 产品功能:人物动漫化——输入一张人物图像,生成其二次元卡通形象,返回卡通化后的结果图像。 🔥🔥🔥 本次更新风格:国风工笔画、港漫风
让梦境绘入现实--AIGC人像绘画
在光怪陆离的梦境中,我们可以摆脱客观事实的约束,对自己的外在形象进行天马行空的畅想,有人化身威风凛凛的将军驰骋疆场,又有人化身亭亭玉立的公主正襟危坐,然而这些翩若惊鸿婉若游龙的美好瞬间却总是会随着一声闹钟的响声化为泡影。难道梦境中的自己总是不能被带回到现实之中吗?AIGC技术的快速发展使得这一点成为可能。
多种模态控制的背景生成技术
在保持输入主体不变的情况下生成背景的需求广泛存在,可用于海报生成、商品换背景多种场景。本文介绍一种使用扩散模型生成背景的技术,背景生成内容可接受图像、文字prompt和图像边缘edge等3中不同的引导方式,这些引导方式可以组合使用,灵活的控制生成背景的内容。该模型具有很好的通用性,对主体内容无限制,适用各种不同的图像主体,例如各类商品、动物甚至人像等。
FaceChain应用生态爆发?无限可能的人物应用等你加入探索!
在过去的不到一个月,FaceChain开源项目从无到有,成功突破了相关技术瓶颈,GitHub获得了超过4.6K star,为未来的应用发展奠定了坚实的基础。 本文将介绍我们已经实现的一些核心功能、,以及未来一些场景的设想。文章末尾,诚邀有意向有能力的开发者加入我们!
本地生活技术雷达——生成式AI(Generative AI)在阿里本地生活的应用与思考
本地生活技术雷达是由本地生活技术中心战略管理&PMO团队开展的,定期扫描和评估新兴技术的战略研究工作。目的是对技术趋势进行前瞻性预判,提出新技术布局建议,在技术驱动业务创新和业务增长、践行社会责任等方面有一些实质性探索。 本篇尝试探讨 1)理解AI范式——从分析型(Analytical AI)到生成式(Generative AI)的拐点在2022年,其对人类社会以及商业模式的长期影响; 2)生成式AI(文生文、文生图、图生图等)在本地业务目前场景的应用和未来的方向。 欢迎技术、产品、运营、战略、管理层、国内国际等各种视角的指点和碰撞!
【OpenVI—AI热点日报】9月13日
AI热点日报隆重推出! 我们汇集了最新的AI热点信息、最新论文和观点,为您提供最前沿的AI领域资讯。 (往期链接请在子社区查看官方博文哦~)
【阿里云OpenVI-视觉生产系列之图片上色】照片真实感上色算法DDColor ICCV2023论文深入解读
图像上色是老照片修复的一个关键步骤,本文介绍发表在 ICCV 2023 上的最新上色论文 DDColor
AIGC玩转卡通化技术实践
伴随着持续不断的AIGC浪潮,越来越多的AI生成玩法正在被广大爱好者定义和提出,图像卡通化(动漫化)基于其还原效果高,风格种类丰富等特点而备受青睐。早在几年前,伴随着GAN网络的兴起,卡通化就曾经风靡一时。而今,伴随着AIGC技术的兴起和不断发展,扩散生成模型为卡通化风格和提供了更多的创意和生成的可能性。本文就将详细介绍达摩院开放视觉团队的卡通化技术实践。
ChatGPT最强专业学习资料集锦
本文旨在整理一份可供参考和学习的专业ChatGPT相关资料,包括ChatGPT相关论文、Github项目、以及当前市场上出现的ChatGPT相关产品等。
【IJCAI 2023】流感知优化之 DAMO-StreamNet 论文解读
传统视频目标检测(Video Object Detection, VOD)是离线(offline)的检测任务,即仅考虑算法的检测精度,未考虑算法的延时。流感知(Streaming Perception)任务作为VOD的一个细分方向,采用流平均精度(Streaming Average Precision, sAP)指标,衡量算法的在线(online)检测能力,即同时衡量算法的精度和延时。本文针对现有的流感知工作在训练方式和模型感受野两方面的不足,提出了DAMO-StreamNet,在保证算法实时性的前提下,实现了SOTA的性能。
AI人像特效之「一键生成N次元虚拟形象」
为了零成本低门槛地提供极致酷炫的人像玩法,我们提出了一套人像风格化通用框架「AI Maleonn」AI 版神笔马良,用于一键生成风格百变的人物虚拟形象,在风格上涵盖手绘、3D、日漫、艺术特效、铅笔画等多种风格,同时可以支持面向小样本的专属风格定制,利用少量目标风格图即可实现快速迁移拓展;在处理维度上,不仅适用于生成头部效果,更支持全图精细化纹理转换,兼容多人场景;在模型鲁棒性上,有效克服了多角度姿态、面部遮挡等各类复杂场景,整体稳定性大大提升。
【视觉智能开放平台】出品智能修图技术—智能转档算法
RAW转档是专业级摄影后期修图的必备环节,旨在将拍摄的RAW图转化为细节丰富,色彩准确的JPG原片,方便修图师基于转档结果进行更为个性化和精细化的美化操作。由于对效果的精准要求和流程的把控需求,目前修图师主要利用专业软件进行人工转档操作。整个过程耗时又费力,极大降低了后期修图的交付效率。为了赋能修图师,提升他们的工作效率,本文提出了一种基于数据驱动,自动转档的技术方案,以实现人工RAW转档的替代。
WordArt Designer:基于用户驱动与大语言模型的艺术字生成
本文介绍了一个基于用户驱动,依赖于大型语言模型(LLMs)的艺术字生成框架WordArt Designer。该系统包含四个关键模块:LLM引擎、SemTypo、Stlytypo和TextTypo模块。由gpt-3.5 turbo驱动的LLM引擎可以解释用户输入,从而将抽象概念转化为具体的设计。SemTypo模块使用语义概念优化字体设计,在艺术转换和可读性之间取得平衡。在SemTypo的基础上,StyTypo模块辅助生成精细的图像。TextTypo模块通过纹理渲染进一步生成创造性纹理字体。
【AI加持】基于PyQt+YOLO+DeepSeek的车型检测系统(详细介绍)
本文介绍了一款基于PyQt5、YOLOv8和DeepSeek的车型检测系统。该系统通过YOLOv8实现实时目标检测,可识别公交车、小汽车等多种车型,并利用DeepSeek进行智能分析评估。系统采用Sqlite3进行数据存储,结合多线程技术提升性能。应用场景包括交通流量监测、智慧停车场管理、公路收费站和城市安防等,为智能交通建设提供高效解决方案。系统还具备登录注册功能,确保使用安全。该技术方案将计算机视觉与AI分析相结合,推动交通管理向智能化方向发展。
【AI加持】基于PyQt+YOLO+DeepSeek的口罩佩戴检测系统(详细介绍)
本文介绍了一个基于PyQt+YOLO+DeepSeek的口罩佩戴检测系统。该系统利用YOLOv8实现高效目标检测,结合PyQt5构建可视化界面,并集成DeepSeek模型进行智能分析。支持图片、视频、摄像头等多种数据源输入,可实时检测口罩佩戴情况。系统采用多线程技术保证流畅运行,并使用SQLite3进行数据存储管理。该方案有效解决了公共场所口罩佩戴监测难题,相比人工巡查显著提升了管理效率和准确性,为智慧城市建设和公共卫生安全管理提供了智能化解决方案。
量子坍缩视觉引擎:85%噪声下SSIM=0.39,中值直接跪!工业视觉的救命稻草
CEH-QCV量子坍缩算法,专为极端噪声(如85%彩色噪声、辐射/深海/电磁干扰场景)设计,不依赖训练与GPU,纯C++实现,320×240实时处理仅22ms。锁定率100%,SSIM达0.394,是传统方法失效时唯一稳定输出结构的方案。
CEH特征引擎:重新定义实时视觉的“速度-精度”边界
CEH是首个在普通CPU上实现“高密度特征+高帧间匹配+亚像素精度”的全能特征引擎,速度超BRISK、效率领先SIFT一个数量级,零GPU依赖、零专利风险,纯C++开源,完美适配嵌入式与边缘设备。
普通摄像头秒变“透视仪”:黎曼分形透镜如何让微弱瑕疵无处遁形(军工项目之外研究)
一种基于黎曼分形动力学的非线性图像增强技术——“分形透镜”。无需AI模型,仅用纯C++实现,通过递归映射与黄金分割比调控,实时放大微弱灰度差异(如水渍、指纹、低温差目标),在普通USB摄像头上实现“透视级”细节增强,计算耗时 0.5ms,已开源并验证于工业检测与国防场景。
企业级数字员工落地:侠客工坊从端侧视觉推理到云原生数据治理的架构思考
本文介绍“侠客工坊”端云协同架构:以事件驱动解耦云端与海量移动端,通过轻量化视觉模型实现端侧自治;采用原生事件驱动保障合规安全;构建冷热分层数据治理体系,500TB多模态数据高效归档至OSS深冷存储,为B2B企业打造高可用、强合规的数字员工基础设施。
【AI加持】基于PyQt5+YOLOv8+DeepSeek的摔倒行为检测系统(详细介绍)
本文介绍了一个基于PyQt5+YOLOv8+DeepSeek的摔倒行为检测系统。该系统整合了计算机视觉与自然语言处理技术,支持对图片、视频、摄像头等多种数据源的实时检测,并具备智能评估功能。系统采用PyQt5开发GUI界面,YOLOv8进行目标检测,DeepSeek提供语义分析,同时使用CSV存储数据和多线程优化性能。功能包括登录注册、实时检测、历史记录查询等,适用于养老院、医院等场景,具有重要的社会应用价值和技术创新意义。
企业如何抓住AI红利?阿里云权益中心深度解读与实战指南
本文深度解析阿里云AI权益中心的核心价值与落地场景,涵盖Qwen大模型、JVS Claw智能体平台等全栈能力,助力企业降本增效——电商视频生成成本直降99%,内容创作提效18倍。附技术选型框架与实战指南。(239字)
基于端侧 AI 与云边协同的电力智能巡检解决方案实践
电力巡检面临人工依赖高、效率低、安全风险大、数据难闭环等痛点。本方案基于云-边-端协同架构,融合端侧轻量化AI、多模态感知与弱网适配技术,打造工业级AR智能安全帽,实现变电站、输电线路等场景的智能识别、实时预警、全程追溯与安全管控,助力电网数字化升级。
AI解说大师Agent Skill详解:如何让智能体具备自主任务规划能力?
本文深度解析AI Agent“技能(Skill)”的本质,破除“仅封装CLI/API”的误区,揭示真正核心是任务规划能力——让AI像项目经理一样理解意图、拆解任务、自主决策、传递数据、容错恢复。以“AI解说大师”为例,详解原创/二创双路径规划、数据流依赖管理与Markdown结构化Skill设计,推动Agent从执行者跃升为“懂思考的协作者”。
电路设计调试:那些书本上没写,但实际中常踩的坑
本文揭秘硬件设计中高频踩坑点:从电阻电容选型失当、电源啸叫与冲击、时序偏差、信号反射串扰,到EMC防护失效及高低温失效机理。强调“基础不牢,地动山摇”,提醒工程师重视元器件参数、阻抗匹配、回流路径等细节,少走弯路。(239字)
辐射超标、静电复位等等这些EMC问题背后藏着什么?
本文结合典型工程案例,系统解析EMC设计四大关键环节:结构屏蔽与接地(如悬空金属、散热器接地)、电缆与接口防护(如Pigtail问题、ESD保护)、滤波设计(如滤波器安装、TVS选型)及PCB布局(地平面完整性、滤波电容 placement)。强调EMC需前置设计,而非事后整改。(239字)
AR 眼镜多模态融合:视觉、语音与 IMU 的端侧协同实践
本文介绍AR眼镜端侧多模态融合方案,通过视觉、语音与IMU协同,解决工业场景中强光、噪声、漂移等挑战;采用硬件触发同步、动态加权融合与INT8量化优化,实现≤15ms低延时、91%高识别率及22%功耗降低,已在五矿盐湖项目落地验证。
协作机器人和工业机器人的区别
协作机器人(Cobot)是专为人机协同设计的工业机器人分支,以安全、灵活、易用为核心,通过力控感知、速度监控与ISO/TS 15066认证实现无围栏共作;支持拖拽示教、快速换型,部署快、成本低、ROI短(6–18个月),适用于打磨、柔性装配、医疗辅助等非标场景。(239字)
边缘AI算法在工业AR眼镜中的部署实践:从模型轻量化到端侧推理
本文分享AR眼镜端侧AI部署实践:针对工业无网/弱网、毫秒级响应需求,通过知识蒸馏+INT8量化+剪枝将模型压缩至<10MB;选用MNN引擎优化推理,实测仪表OCR(38ms/99.2%)、缺陷检测(42ms/98.7%)等任务均满足实时性与精度要求。
AutoGod:安卓5-16全兼容!一站式自动化框架,开发效率直接拉满
Auto-God是一站式安卓自动化框架,兼容Android 5–16,覆盖手势、视觉(OCR/YOLO)、网络、UI(Material3悬浮界面)、拓展及安全(防HOOK/抓包/破解)全能力,开箱即用,真机/模拟器/云手机全支持,让自动化开发更简单、高效、安全。
解放双手,透视数据:AR+AI技术正在如何解决 新能源储能行业的老大难问题
在新能源储能工厂,AR+AI智能眼镜正革新传统巡检:设备信息“长”在眼前,AI自动识读仪表、预警异常,远程专家实时指导。它不替代人,而是赋能一线——让巡检更准、更快、更安全。
视频字幕擦除与动态修复技术深度解析:从开源算法基准到高并发SaaS架构的演进
本报告深度解析视频硬字幕擦除与修复技术演进,涵盖光流传播、时空Transformer(如ProPainter)及扩散模型等前沿算法;对比开源工具、桌面软件与SaaS云平台,指出云端原生架构在算力解耦、热更新、高并发与易用性上的断代优势,为工业落地提供权威指南。
SPMamba-YOLO:多尺度增强+全局建模,水下目标检测精度飙升4.9%!
本文提出SPMamba-YOLO水下目标检测模型:创新融合SPPELAN(增强多尺度特征与感受野)、PSA注意力(抑制背景、提升小目标判别)及Mamba状态空间模块(建模长程依赖),在URPC2022上mAP@0.5达82.5%,超越YOLOv8n 4.9%。
基于云原生架构的 AIGC 视频后处理实践:应对扩散模型纹理挑战
随着 AIGC 视频生成规模化应用,视频后处理能力逐渐成为系统吞吐与质量保障的关键环节。本文结合实际工程实践,分析扩散模型生成视频在高频纹理与时间一致性方面的挑战,并探讨基于云原生架构的 GPU 化后处理方案。通过引入生成式重构与弹性算力调度,实现视频修复性能与吞吐能力的显著提升。
视频后期黑科技:深度拆解开源 VSR 架构与视频 Inpainting 实践全指南
本文深度解析视频补全(Video Inpainting)前沿技术,聚焦硬字幕去除工具VSR的底层架构(OCR定位、时序传播、光流对齐)、本地部署要点(CUDA环境、显存优化)及云端方案(550W AI扩散模型),对比二者在隐私、效率与画质上的差异,助力开发者科学选型。(239字)
AI Glasses识别百变脸谱
本项目提出“AI脸谱眼镜”方案:通过端云协同架构,结合人脸检测、EasyDL脸谱识别、戏曲百科与AR投射技术,让观众佩戴眼镜即可实时获取京剧角色名、性格、行当等信息。卡片投射于视野下方,不遮挡表演,专为戏迷、游客及学生设计,助力传统文化沉浸式普及。(239字)
当AI Glasses走进小吃街,实现美食百科
这是一款面向吃货的AI眼镜系统,融合图像识别、美食百科与AR投射技术。用户扫视小吃,即刻获取名称、热量、辣度、成分及推荐指数等信息,端云协同实现500ms内响应。支持健康色标(绿/黄/红)、动态百科更新与场景化提示,让逛吃更聪明、更安心。(239字)
AI视频去字幕技术完全指南:原理、方法与工具对比(2026版)
本文深度解析AI视频去字幕技术,涵盖原理(OCR检测+GAN修复+时序一致性)、主流工具横评、分步实操教程及短视频、教育、影视等六大行业应用。适合创作者、自媒体人与技术爱好者,20分钟掌握高效去字幕方法。
【ComfyUI API 自动化利器:comfyui_xy Python 库使用详解】
`comfyui_xy` 是一个轻量级 Python 客户端库,封装 ComfyUI API,支持一键上传图片/遮罩、动态修改工作流、自动排队执行与结果下载(图/视/音频)。安装即用,无需处理底层 HTTP/WebSocket 细节,助力 AIGC 自动化开发。开源免费,PyPI 可装。
【编号2571】AI 文生图 & 图生图工具开发与应用经验:高效解决批量图文生成痛点
AI 文生图工具,AI 图生图工具,Python AI 图文生成,批量生成无水印图片,Selenium 浏览器自动化,TKinter 界面开发,AI 生成图片去水印,批量图生图参数配置,参考图批量生成,AI 图文生成错误恢复
构建AI智能体:九十五、YOLO视觉大模型入门指南:从零开始掌握目标检测
本文介绍了视觉大模型及YOLO目标检测技术,重点讲解YOLOv8在CPU上的部署与应用。涵盖模型选择、图像检测、实时摄像头识别及性能优化,适合初学者快速上手。
医疗引导机器人技术架构解析:决定品牌竞争力的核心要素
智慧医院建设推动医疗引导机器人迈向智能化,其核心技术涵盖多传感器融合导航、垂直领域大模型与RAG语义理解、主动视觉交互、跨楼层梯控及HIS系统深度集成。本文从技术架构出发,剖析环境感知、认知决策与系统协同的关键突破,揭示机器人如何成为连接物理空间与数字医疗的核心终端。
智慧政务大厅的数字化转型:关键技术架构与终端解决方案评测
智慧政务大厅正迈向智能化,通过边缘计算、AI与物联网技术融合,构建“感知—认知—行动”闭环。依托大模型、OCR、生物识别等技术,实现语义理解、智能导办与设备协同,推动服务从“能办”到“好办、主动办”升级。
# 用Prompt Engineering高效生成合规Amazon包类套图
利用Prompt Engineering,仅需1张实拍图+产品参数,即可高效生成符合Amazon美国站合规要求的包类套图。通过结构化提示词,明确主图、卖点、场景等6类图片职责,确保每张图精准传达信息,避免AI篡改产品细节,实现低成本、可复用、规模化出图,大幅提升上架效率。
用 Nano Banana Pro 批量生成城市天气视觉卡片
本文介绍如何用Nano Banana Pro批量生成统一风格的城市天气视觉卡片。通过结构化Prompt模版,固定视角、构图与尺寸(1080×1080),结合等距3D卡通风格,将北京、上海等城市的天气信息(晴/阴/雨/夜)转化为直观、稳定的视觉内容,适用于内容平台、城市账号或系统看板,实现高效复用与扩展。
A2UI 规范与 AG-UI 协议:打造高效协同的界面开发体系
A2UI规范与AG-UI协议构建“设计-开发”协同闭环:前者统一视觉与交互标准,后者定义组件通信与跨平台适配,二者融合提升协作效率、保障体验一致,推动界面开发向标准化、可复用、高效能演进。
2025 年度机器视觉公司有哪些:从技术实力到落地案例的全方位选型参考
在智能制造背景下,机器视觉成为提质增效关键。本文发布2025年度机器视觉公司评估,从技术、场景、服务三大维度解析领先企业方案,聚焦苏州德创测控等代表,涵盖核心技术、落地案例与产教融合,为制造企业选型提供权威参考,助力智能升级。