视觉智能-最新-阿里云开发者社区

阿里云OpenVI

|

人工智能图形学计算机视觉

|

视频

置顶

通义万相

通义妙谈 -图像模型玩转更多可能！通义万相新升级一个包罗万象的“应用广场”！

“买家秀”秒变“卖家秀”，AI一键更换商品模特，虚拟模特功能等你解锁🔒 “小草图”秒变“大制作”，AI涂鸦作画让你的草图“一秒”成画🖌️ “2-4图”生成“个人写真”，AI虚拟分身在线创作，在家也是巴厘岛🏖️ 阿里云的微博视频全网征集灵魂画手，几笔生成精美大作，精美礼物等你来拿

1680 3 4

来自：通义万相版块

阿里云OpenVI

|

人工智能图形学计算机视觉

|

视频

置顶

通义万相

通义万相—涂鸦作画功能上线~欢迎体验

通义万相应用广场中新增功能：涂鸦作画~用户可试试在画板上涂鸦并结合描述生成画作，快来体验吧~

14571 10 10

来自：通义万相版块

阿里云OpenVI

|

人工智能图形学计算机视觉

|

视频

置顶

通义万相

通义万相—写真馆功能上线，欢迎体验~

通义万相应用广场中新增功能：写真馆~用户上传2-4张真人照片，即可获得专属写真大片，快来体验吧~

2891 5 7

来自：通义万相版块

阿里云OpenVI

|

人工智能图形学计算机视觉

|

视频

置顶

通义万相

通义万相—虚拟模特功能上线，欢迎体验~

通义万相应用广场中新增功能：虚拟模特~用户可上传真人实拍商品展示图，获取模特大片。快来体验吧~

12102 8 8

来自：通义万相版块

阿里云OpenVI

|

视频

置顶

通义万相

通义妙谈-阿里云图像生成大模型通义万相，Composer算法实现绘图精准可控

13808 68 70

来自：通义万相版块

阿里云OpenVI

|

物联网开发者异构计算

|

博文

置顶

facechain人物写真应用自8月11日开源了第一版证件照生成后。目前在github（GitHub - modelscope/facechain: FaceChain is a deep-learning toolchain for generating your Digital-Twin.）上已有5.7K的star，论文链接：FaceChain: A Playground for Identity-Preserving Portrait Generation：https://arxiv.org/abs/2308.14256。

1336 5 5

morning_sun_lee

|

人工智能编解码算法

|

博文

置顶

【IJCAI 2023】流感知优化之 DAMO-StreamNet 论文解读

传统视频目标检测（Video Object Detection, VOD）是离线（offline）的检测任务，即仅考虑算法的检测精度，未考虑算法的延时。流感知（Streaming Perception）任务作为VOD的一个细分方向，采用流平均精度（Streaming Average Precision, sAP）指标，衡量算法的在线（online）检测能力，即同时衡量算法的精度和延时。本文针对现有的流感知工作在训练方式和模型感受野两方面的不足，提出了DAMO-StreamNet，在保证算法实时性的前提下，实现了SOTA的性能。

1789 6 7

小小开发楠楠子

|

机器学习/深度学习人工智能自然语言处理

|

博文

置顶

ChatGPT最强专业学习资料集锦

本文旨在整理一份可供参考和学习的专业ChatGPT相关资料，包括ChatGPT相关论文、Github项目、以及当前市场上出现的ChatGPT相关产品等。

1453 5 8

不阔以太晚睡

|

机器学习/深度学习搜索推荐计算机视觉

|

博文

置顶

【阿里云OpenVI-人脸感知理解系列之人脸识别】基于Transformer的人脸识别新框架TransFace ICCV-2023论文深入解读

本文介绍阿里云开放视觉智能团队被计算机视觉顶级国际会议ICCV 2023接收的论文 "TransFace: Calibrating Transformer Training for Face Recognition from a Data-Centric Perspective"。TransFace旨在探索ViT在人脸识别任务上表现不佳的原因，并从data-centric的角度去提升ViT在人脸识别任务上的性能。

3512 342 344

来自：人脸人体版块

KlondikeKing

|

机器学习/深度学习编解码算法

|

博文

置顶

【阿里云OpenVI-视觉生产系列之图片上色】照片真实感上色算法DDColor ICCV2023论文深入解读

图像上色是老照片修复的一个关键步骤，本文介绍发表在 ICCV 2023 上的最新上色论文 DDColor

4305 11 11

来自：视觉生产版块

vicky_oy0522

|

AI芯片

|

博文

置顶

AIGC视频生成/编辑技术调研报告

随着图像生成领域的研究飞速发展，基于diffusion的生成式模型取得效果上的大突破。在图像生成/编辑产品大爆发的今天，视频生成/编辑技术也引起了学术界和产业界的高度关注。该分享主要介绍视频生成/编辑的研究现状，包括不同技术路线的优劣势，以及该领域当下面临的核心问题与挑战。

2162 3 3

来自：视觉生产版块

游客gwiurm4mq5kag

|

机器学习/深度学习人工智能达摩院

|

博文

置顶

AIGC玩转卡通化技术实践

伴随着持续不断的AIGC浪潮，越来越多的AI生成玩法正在被广大爱好者定义和提出，图像卡通化（动漫化）基于其还原效果高，风格种类丰富等特点而备受青睐。早在几年前，伴随着GAN网络的兴起，卡通化就曾经风靡一时。而今，伴随着AIGC技术的兴起和不断发展，扩散生成模型为卡通化风格和提供了更多的创意和生成的可能性。本文就将详细介绍达摩院开放视觉团队的卡通化技术实践。

57687 5 5

来自：视觉生产版块

lyraestar-23206

|

编解码人工智能移动开发

|

博文

置顶

AIGC图像分辨率太低？快来试试像素感知扩散超分模型，你想要的细节都在这里

阿里巴巴最新自研的像素感知扩散超分模型已经开源，它把扩散模型强大的生成能力和像素级控制能力相结合，能够适应从老照片修复到AIGC图像超分的各种图像增强任务和各种图像风格，并且能够控制生成强度和增强风格。这项技术的直接应用之一是AIGC图像的后处理增强和二次生成，能够带来可观的效果提升。

1572 4 4

marquezx

|

自然语言处理测试技术计算机视觉

|

博文

置顶

OpenVI-感知理解系列之GAP骨骼点动作识别 ICCV23顶会论文深入解读

本文介绍了ICCV23中稿论文 GAP: Generative Action Description Prompts for Skeleton-based Action Recognition

2083 2 2

来自：图像理解版块

小小开发楠楠子

|

机器学习/深度学习人工智能达摩院

|

博文

置顶

港大阿里“视觉AI任意门”，一键向场景中无缝传送物体

本文主要展示了阿里和港大的AI版「任意门」，实现零样本的图像嵌入。

1682 3 3

y22d5jdczpqg6

|

人工智能自动驾驶算法

|

博文

置顶

本地生活技术雷达——生成式AI（Generative AI）在阿里本地生活的应用与思考

本地生活技术雷达是由本地生活技术中心战略管理&PMO团队开展的，定期扫描和评估新兴技术的战略研究工作。目的是对技术趋势进行前瞻性预判，提出新技术布局建议，在技术驱动业务创新和业务增长、践行社会责任等方面有一些实质性探索。本篇尝试探讨 1）理解AI范式——从分析型（Analytical AI）到生成式（Generative AI）的拐点在2022年，其对人类社会以及商业模式的长期影响； 2）生成式AI（文生文、文生图、图生图等）在本地业务目前场景的应用和未来的方向。欢迎技术、产品、运营、战略、管理层、国内国际等各种视角的指点和碰撞！

40275 8 9

安之眼Agent

|

6天前

|

人工智能运维安全

|

博文

基于端侧 AI 与云边协同的电力智能巡检解决方案实践

电力巡检面临人工依赖高、效率低、安全风险大、数据难闭环等痛点。本方案基于云-边-端协同架构，融合端侧轻量化AI、多模态感知与弱网适配技术，打造工业级AR智能安全帽，实现变电站、输电线路等场景的智能识别、实时预警、全程追溯与安全管控，助力电网数字化升级。

88 0 1

游客oy354pswzt3zm

|

6天前

|

机器学习/深度学习存储人工智能

|

博文

AI解说大师Agent Skill详解：如何让智能体具备自主任务规划能力？

本文深度解析AI Agent“技能（Skill）”的本质，破除“仅封装CLI/API”的误区，揭示真正核心是任务规划能力——让AI像项目经理一样理解意图、拆解任务、自主决策、传递数据、容错恢复。以“AI解说大师”为例，详解原创/二创双路径规划、数据流依赖管理与Markdown结构化Skill设计，推动Agent从执行者跃升为“懂思考的协作者”。

178 0 0

工程师高培

|

11天前

|

芯片内存技术

|

博文

电路设计调试：那些书本上没写，但实际中常踩的坑

本文揭秘硬件设计中高频踩坑点：从电阻电容选型失当、电源啸叫与冲击、时序偏差、信号反射串扰，到EMC防护失效及高低温失效机理。强调“基础不牢，地动山摇”，提醒工程师重视元器件参数、阻抗匹配、回流路径等细节，少走弯路。（239字）

80 0 0

工程师高培

|

12天前

|

芯片

|

博文

辐射超标、静电复位等等这些EMC问题背后藏着什么？

本文结合典型工程案例，系统解析EMC设计四大关键环节：结构屏蔽与接地（如悬空金属、散热器接地）、电缆与接口防护（如Pigtail问题、ESD保护）、滤波设计（如滤波器安装、TVS选型）及PCB布局（地平面完整性、滤波电容 placement）。强调EMC需前置设计，而非事后整改。（239字）

80 0 0

安之眼Agent

|

12天前

|

传感器算法安全

|

博文

AR 眼镜多模态融合：视觉、语音与 IMU 的端侧协同实践

本文介绍AR眼镜端侧多模态融合方案，通过视觉、语音与IMU协同，解决工业场景中强光、噪声、漂移等挑战；采用硬件触发同步、动态加权融合与INT8量化优化，实现≤15ms低延时、91%高识别率及22%功耗降低，已在五矿盐湖项目落地验证。

124 0 1

游客rnssw2rnriape

|

13天前

|

传感器人工智能监控

|

博文

协作机器人和工业机器人的区别

协作机器人（Cobot）是专为人机协同设计的工业机器人分支，以安全、灵活、易用为核心，通过力控感知、速度监控与ISO/TS 15066认证实现无围栏共作；支持拖拽示教、快速换型，部署快、成本低、ROI短（6–18个月），适用于打磨、柔性装配、医疗辅助等非标场景。（239字）

170 1 1

安之眼Agent

|

20天前

|

人工智能算法 vr&ar

|

博文

边缘AI算法在工业AR眼镜中的部署实践：从模型轻量化到端侧推理

本文分享AR眼镜端侧AI部署实践：针对工业无网/弱网、毫秒级响应需求，通过知识蒸馏+INT8量化+剪枝将模型压缩至<10MB；选用MNN引擎优化推理，实测仪表OCR（38ms/99.2%）、缺陷检测（42ms/98.7%）等任务均满足实时性与精度要求。

295 1 2

孑小白

|

20天前

|

编解码文字识别安全

|

博文

AutoGod:安卓5-16全兼容！一站式自动化框架，开发效率直接拉满

Auto-God是一站式安卓自动化框架，兼容Android 5–16，覆盖手势、视觉（OCR/YOLO）、网络、UI（Material3悬浮界面）、拓展及安全（防HOOK/抓包/破解）全能力，开箱即用，真机/模拟器/云手机全支持，让自动化开发更简单、高效、安全。

269 1 1

阿法龙XR云平台

|

26天前

|

人工智能运维安全

|

博文

解放双手，透视数据：AR+AI技术正在如何解决新能源储能行业的老大难问题

在新能源储能工厂，AR+AI智能眼镜正革新传统巡检：设备信息“长”在眼前，AI自动识读仪表、预警异常，远程专家实时指导。它不替代人，而是赋能一线——让巡检更准、更快、更安全。

112 1 1

来自：图像搜索版块

zfhvx64ydb4r6

|

29天前

|

机器学习/深度学习人工智能编解码

|

博文

视频字幕擦除与动态修复技术深度解析：从开源算法基准到高并发SaaS架构的演进

本报告深度解析视频硬字幕擦除与修复技术演进，涵盖光流传播、时空Transformer（如ProPainter）及扩散模型等前沿算法；对比开源工具、桌面软件与SaaS云平台，指出云端原生架构在算力解耦、热更新、高并发与易用性上的断代优势，为工业落地提供权威指南。

299 1 1

AI小怪兽

|

30天前

|

机器学习/深度学习编解码算法

|

博文

SPMamba-YOLO：多尺度增强+全局建模，水下目标检测精度飙升4.9%！

本文提出SPMamba-YOLO水下目标检测模型：创新融合SPPELAN（增强多尺度特征与感受野）、PSA注意力（抑制背景、提升小目标判别）及Mamba状态空间模块（建模长程依赖），在URPC2022上mAP@0.5达82.5%，超越YOLOv8n 4.9%。

262 2 2

agal5yxttdffg

|

1月前

|

Cloud Native 算法测试技术

|

博文

基于云原生架构的 AIGC 视频后处理实践：应对扩散模型纹理挑战

随着 AIGC 视频生成规模化应用，视频后处理能力逐渐成为系统吞吐与质量保障的关键环节。本文结合实际工程实践，分析扩散模型生成视频在高频纹理与时间一致性方面的挑战，并探讨基于云原生架构的 GPU 化后处理方案。通过引入生成式重构与弹性算力调度，实现视频修复性能与吞吐能力的显著提升。

116 1 1

来自：分割抠图版块

zfhvx64ydb4r6

|

1月前

|

机器学习/深度学习人工智能文字识别

|

博文

视频后期黑科技：深度拆解开源 VSR 架构与视频 Inpainting 实践全指南

本文深度解析视频补全（Video Inpainting）前沿技术，聚焦硬字幕去除工具VSR的底层架构（OCR定位、时序传播、光流对齐）、本地部署要点（CUDA环境、显存优化）及云端方案（550W AI扩散模型），对比二者在隐私、效率与画质上的差异，助力开发者科学选型。（239字）

146 4 4

游客3fppupzah4b56

|

2月前

|

人工智能 JSON 算法

|

博文

AI Glasses识别百变脸谱

本项目提出“AI脸谱眼镜”方案：通过端云协同架构，结合人脸检测、EasyDL脸谱识别、戏曲百科与AR投射技术，让观众佩戴眼镜即可实时获取京剧角色名、性格、行当等信息。卡片投射于视野下方，不遮挡表演，专为戏迷、游客及学生设计，助力传统文化沉浸式普及。（239字）

197 6 6

翌水枭寒ym

|

2月前

|

传感器人工智能 Java

|

博文

当AI Glasses走进小吃街，实现美食百科

这是一款面向吃货的AI眼镜系统，融合图像识别、美食百科与AR投射技术。用户扫视小吃，即刻获取名称、热量、辣度、成分及推荐指数等信息，端云协同实现500ms内响应。支持健康色标（绿/黄/红）、动态百科更新与场景化提示，让逛吃更聪明、更安心。（239字）

112 2 3

zfhvx64ydb4r6

|

2月前

|

机器学习/深度学习人工智能编解码

|

博文

AI视频去字幕技术完全指南：原理、方法与工具对比（2026版）

本文深度解析AI视频去字幕技术，涵盖原理（OCR检测+GAN修复+时序一致性）、主流工具横评、分步实操教程及短视频、教育、影视等六大行业应用。适合创作者、自媒体人与技术爱好者，20分钟掌握高效去字幕方法。

952 0 0

UE5技术哥

|

2月前

|

算法 IDE vr&ar

|

博文

【征文计划】使用Rokid与Unity开发背单词软件

你是否也有这样的时刻：打开手机准备背单词，却被弹出的通知带走了注意力，五分钟后又开始在刷短视频。我们总想利用通勤和排队的碎片时间，但始终无法逃离手机这个时间黑洞，直到我开始佩戴Rokid AR眼镜，看着眼前空旷的视野，我突然有了一个想法。为何不开发一款极简背单词软件？

204 2 2

极客小云

|

2月前

|

JSON 人工智能 API

|

博文

【ComfyUI API 自动化利器：comfyui_xy Python 库使用详解】

`comfyui_xy` 是一个轻量级 Python 客户端库，封装 ComfyUI API，支持一键上传图片/遮罩、动态修改工作流、自动排队执行与结果下载（图/视/音频）。安装即用，无需处理底层 HTTP/WebSocket 细节，助力 AIGC 自动化开发。开源免费，PyPI 可装。

1191 128 131

步里软件

|

3月前

|

人工智能前端开发数据安全/隐私保护

|

博文

【编号2571】AI 文生图 & 图生图工具开发与应用经验：高效解决批量图文生成痛点

AI 文生图工具，AI 图生图工具，Python AI 图文生成，批量生成无水印图片，Selenium 浏览器自动化，TKinter 界面开发，AI 生成图片去水印，批量图生图参数配置，参考图批量生成，AI 图文生成错误恢复

315 12 12

来自：图像生产版块

AI未闻花名

|

3月前

|

机器学习/深度学习传感器人工智能

|

博文

构建AI智能体：九十五、YOLO视觉大模型入门指南：从零开始掌握目标检测

本文介绍了视觉大模型及YOLO目标检测技术，重点讲解YOLOv8在CPU上的部署与应用。涵盖模型选择、图像检测、实时摄像头识别及性能优化，适合初学者快速上手。

498 2 2

游客txdkjyespxovm

|

4月前

|

前端开发安全 Java

|

博文

自定义认证前端页面

本示例演示Spring Security基础配置：前端引入登录页，后端新增接口与安全配置。通过SecurityConfig实现请求认证、表单登录、自定义跳转等，启动后访问/demo/index自动跳转登录页，认证成功返回提示信息，完成权限控制验证。

122 1 1

机器人行业眼

|

4月前

|

传感器算法机器人

|

博文

医疗引导机器人技术架构解析：决定品牌竞争力的核心要素

智慧医院建设推动医疗引导机器人迈向智能化，其核心技术涵盖多传感器融合导航、垂直领域大模型与RAG语义理解、主动视觉交互、跨楼层梯控及HIS系统深度集成。本文从技术架构出发，剖析环境感知、认知决策与系统协同的关键突破，揭示机器人如何成为连接物理空间与数字医疗的核心终端。

250 2 2

机器人行业眼

|

4月前

|

文字识别自然语言处理算法

|

博文

智慧政务大厅的数字化转型：关键技术架构与终端解决方案评测

智慧政务大厅正迈向智能化，通过边缘计算、AI与物联网技术融合，构建“感知—认知—行动”闭环。依托大模型、OCR、生物识别等技术，实现语义理解、智能导办与设备协同，推动服务从“能办”到“好办、主动办”升级。

329 20 20

未来智能研习社

|

4月前

|

人工智能

|

博文

# 用Prompt Engineering高效生成合规Amazon包类套图

利用Prompt Engineering，仅需1张实拍图+产品参数，即可高效生成符合Amazon美国站合规要求的包类套图。通过结构化提示词，明确主图、卖点、场景等6类图片职责，确保每张图精准传达信息，避免AI篡改产品细节，实现低成本、可复用、规模化出图，大幅提升上架效率。

361 1 1

来自：图像生产版块

未来智能研习社

|

4月前

|

博文

用 Nano Banana Pro 批量生成城市天气视觉卡片

本文介绍如何用Nano Banana Pro批量生成统一风格的城市天气视觉卡片。通过结构化Prompt模版，固定视角、构图与尺寸（1080×1080），结合等距3D卡通风格，将北京、上海等城市的天气信息（晴/阴/雨/夜）转化为直观、稳定的视觉内容，适用于内容平台、城市账号或系统看板，实现高效复用与扩展。

388 0 0

来自：图像生产版块

dotNative

|

4月前

|

前端开发小程序 JavaScript

|

博文

A2UI 规范与 AG-UI 协议：打造高效协同的界面开发体系

A2UI规范与AG-UI协议构建“设计-开发”协同闭环：前者统一视觉与交互标准，后者定义组件通信与跨平台适配，二者融合提升协作效率、保障体验一致，推动界面开发向标准化、可复用、高效能演进。

2263 0 0

游客5q7sd2dhbjbdo

|

5月前

|

Android开发开发工具

|

问答

android 混淆异常，印象中貌似是引入金融级活体检测sdk，开启混淆后编译就报错

305 0 0

游客yqdu5djlmwbso

|

5月前

|

文字识别算法数据可视化

|

博文

2025 年度机器视觉公司有哪些：从技术实力到落地案例的全方位选型参考

在智能制造背景下，机器视觉成为提质增效关键。本文发布2025年度机器视觉公司评估，从技术、场景、服务三大维度解析领先企业方案，聚焦苏州德创测控等代表，涵盖核心技术、落地案例与产教融合，为制造企业选型提供权威参考，助力智能升级。

289 0 0

游客yqdu5djlmwbso

|

5月前

|

机器学习/深度学习传感器人工智能

|

博文

实力强劲的机器视觉公司有哪些：2025年TOP5精选榜单

科技迭代驱动工业升级，机器视觉成自动化核心。本文基于资质、技术与口碑，精选TOP5机器视觉公司：德创测控、海康威视、康耐视、基恩士、大华华睿，覆盖全链条方案，助力企业降本增效、智能转型。

748 0 0

游客6mpq4uc7irdxi

|

5月前

|

人工智能自然语言处理安全

|

博文

程序员都在偷偷用的AI编程神器！2025高效自动写代码工具全解析

AI编程革命正悄然兴起。李响团队调研显示，AI助手大幅提升开发效率，GitHub Copilot、CodeWhisperer、Tabnine各具优势，而新兴的Lynx AI更以自然语言生成全栈应用，零门槛、多端适配，助力开发者从重复劳动中解放，专注创新。

4406 3 3

来自：内容审核版块

云栈开源日记

|

5月前

|

人工智能缓存编解码

|

博文

FFmpeg 官方汇编课程：写出快 5 倍的视频处理代码

FFmpeg官方开源汇编教程asm-lessons，手把手教你用SIMD指令优化音视频处理性能。从工具链到实战案例，掌握工业级高性能代码编写，提升程序效率数倍，适合C语言开发者进阶学习。

341 10 10

来自：视频分割版块

游客gmnthj624deqw

|

5月前

|

PHP 文字识别

|

问答

php 调用阿里云文字识别传入needRotate和needSortPage时报错

173 0 0

Holly007

|

5月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

AI内容创作Agent架构解析：基于移动端原生框架的内容特工队AI (ReelsAgent)与传统短视频工具的技术差异

传统的AI视频工具链往往基于单点功能堆栈或PC/Web端的SaaS架构，难以承载短视频营销所需的高频、高并发、全流程自动化需求。本文将从AI Agent系统架构角度，对比内容特工队AI (ReelsAgent)的移动端原生设计与现有主流工具的实现路径，以评估其在工程实践中的优劣。

637 7 7

游客yqdu5djlmwbso

|

5月前

|

传感器人工智能边缘计算

|

博文

机器视觉公司有哪些：国产平台德创引领产教融合

本文整合苏州德创、基恩士、康耐视、奥普特、研华科技五家机器视觉公司，涵盖资质、产品、产教融合优势，提供选型参考，助力院校实现教学与产业需求精准对接。

335 0 0

最新

通义万相

官方博客

问答

视频

通义妙谈 -图像模型玩转更多可能！通义万相新升级 一个包罗万象的“应用广场”！

通义万相—涂鸦作画功能上线~欢迎体验

通义万相—写真馆功能上线，欢迎体验~

通义万相—虚拟模特功能上线，欢迎体验~

通义妙谈-阿里云图像生成大模型通义万相，Composer算法实现绘图精准可控

facechain人物写真生成工业级开源

【IJCAI 2023】流感知优化之 DAMO-StreamNet 论文解读

ChatGPT最强专业学习资料集锦

【阿里云OpenVI-人脸感知理解系列之人脸识别】基于Transformer的人脸识别新框架TransFace ICCV-2023论文深入解读

【阿里云OpenVI-视觉生产系列之图片上色】照片真实感上色算法DDColor ICCV2023论文深入解读

AIGC视频生成/编辑技术调研报告

AIGC玩转卡通化技术实践

AIGC图像分辨率太低？快来试试像素感知扩散超分模型，你想要的细节都在这里

OpenVI-感知理解系列之GAP骨骼点动作识别 ICCV23顶会论文深入解读

港大阿里“视觉AI任意门”，一键向场景中无缝传送物体

本地生活技术雷达——生成式AI（Generative AI）在阿里本地生活的应用与思考

基于端侧 AI 与云边协同的电力智能巡检解决方案实践

AI解说大师Agent Skill详解：如何让智能体具备自主任务规划能力？

电路设计调试：那些书本上没写，但实际中常踩的坑

辐射超标、静电复位等等这些EMC问题背后藏着什么？

AR 眼镜多模态融合：视觉、语音与 IMU 的端侧协同实践

协作机器人和工业机器人的区别

边缘AI算法在工业AR眼镜中的部署实践：从模型轻量化到端侧推理

AutoGod:安卓5-16全兼容！一站式自动化框架，开发效率直接拉满

解放双手，透视数据：AR+AI技术正在如何解决 新能源储能行业的老大难问题

视频字幕擦除与动态修复技术深度解析：从开源算法基准到高并发SaaS架构的演进

SPMamba-YOLO：多尺度增强+全局建模，水下目标检测精度飙升4.9%！

基于云原生架构的 AIGC 视频后处理实践：应对扩散模型纹理挑战

视频后期黑科技：深度拆解开源 VSR 架构与视频 Inpainting 实践全指南

AI Glasses识别百变脸谱

当AI Glasses走进小吃街，实现美食百科

AI视频去字幕技术完全指南：原理、方法与工具对比（2026版）

【征文计划】使用Rokid与Unity开发背单词软件

【ComfyUI API 自动化利器：comfyui_xy Python 库使用详解】

【编号2571】AI 文生图 & 图生图工具开发与应用经验：高效解决批量图文生成痛点

构建AI智能体：九十五、YOLO视觉大模型入门指南：从零开始掌握目标检测

自定义认证前端页面

医疗引导机器人技术架构解析：决定品牌竞争力的核心要素

智慧政务大厅的数字化转型：关键技术架构与终端解决方案评测

# 用Prompt Engineering高效生成合规Amazon包类套图

用 Nano Banana Pro 批量生成城市天气视觉卡片

A2UI 规范与 AG-UI 协议：打造高效协同的界面开发体系

android 混淆异常，印象中貌似是引入金融级活体检测sdk，开启混淆后编译就报错

2025 年度机器视觉公司有哪些：从技术实力到落地案例的全方位选型参考

实力强劲的机器视觉公司有哪些：2025年TOP5精选榜单

程序员都在偷偷用的AI编程神器！2025高效自动写代码工具全解析

FFmpeg 官方汇编课程：写出快 5 倍的视频处理代码

php 调用阿里云文字识别 传入needRotate和needSortPage时报错

AI内容创作Agent架构解析：基于移动端原生框架的内容特工队AI (ReelsAgent)与传统短视频工具的技术差异

机器视觉公司有哪些：国产平台德创引领产教融合

视觉智能

活跃用户

相关产品

通义妙谈 -图像模型玩转更多可能！通义万相新升级一个包罗万象的“应用广场”！

解放双手，透视数据：AR+AI技术正在如何解决新能源储能行业的老大难问题

php 调用阿里云文字识别传入needRotate和needSortPage时报错