视觉智能-最新-第2页-阿里云开发者社区

游客3fppupzah4b56

|

5月前

|

人工智能 JSON 算法

|

博文

AI Glasses识别百变脸谱

本项目提出“AI脸谱眼镜”方案：通过端云协同架构，结合人脸检测、EasyDL脸谱识别、戏曲百科与AR投射技术，让观众佩戴眼镜即可实时获取京剧角色名、性格、行当等信息。卡片投射于视野下方，不遮挡表演，专为戏迷、游客及学生设计，助力传统文化沉浸式普及。（239字）

420 6 6

翌水枭寒ym

|

5月前

|

传感器人工智能 Java

|

博文

当AI Glasses走进小吃街，实现美食百科

这是一款面向吃货的AI眼镜系统，融合图像识别、美食百科与AR投射技术。用户扫视小吃，即刻获取名称、热量、辣度、成分及推荐指数等信息，端云协同实现500ms内响应。支持健康色标（绿/黄/红）、动态百科更新与场景化提示，让逛吃更聪明、更安心。（239字）

242 2 3

zfhvx64ydb4r6

|

5月前

|

机器学习/深度学习人工智能编解码

|

博文

AI视频去字幕技术完全指南：原理、方法与工具对比（2026版）

本文深度解析AI视频去字幕技术，涵盖原理（OCR检测+GAN修复+时序一致性）、主流工具横评、分步实操教程及短视频、教育、影视等六大行业应用。适合创作者、自媒体人与技术爱好者，20分钟掌握高效去字幕方法。

2016 0 0

极客小云

|

5月前

|

JSON 人工智能 API

|

博文

【ComfyUI API 自动化利器：comfyui_xy Python 库使用详解】

`comfyui_xy` 是一个轻量级 Python 客户端库，封装 ComfyUI API，支持一键上传图片/遮罩、动态修改工作流、自动排队执行与结果下载（图/视/音频）。安装即用，无需处理底层 HTTP/WebSocket 细节，助力 AIGC 自动化开发。开源免费，PyPI 可装。

2283 128 131

步里软件

|

6月前

|

人工智能前端开发数据安全/隐私保护

|

博文

【编号2571】AI 文生图 & 图生图工具开发与应用经验：高效解决批量图文生成痛点

AI 文生图工具，AI 图生图工具，Python AI 图文生成，批量生成无水印图片，Selenium 浏览器自动化，TKinter 界面开发，AI 生成图片去水印，批量图生图参数配置，参考图批量生成，AI 图文生成错误恢复

514 12 12

来自：图像生产版块

AI未闻花名

|

6月前

|

机器学习/深度学习传感器人工智能

|

博文

构建AI智能体：九十五、YOLO视觉大模型入门指南：从零开始掌握目标检测

本文介绍了视觉大模型及YOLO目标检测技术，重点讲解YOLOv8在CPU上的部署与应用。涵盖模型选择、图像检测、实时摄像头识别及性能优化，适合初学者快速上手。

1095 2 2

游客txdkjyespxovm

|

7月前

|

前端开发安全 Java

|

博文

自定义认证前端页面

本示例演示Spring Security基础配置：前端引入登录页，后端新增接口与安全配置。通过SecurityConfig实现请求认证、表单登录、自定义跳转等，启动后访问/demo/index自动跳转登录页，认证成功返回提示信息，完成权限控制验证。

166 1 1

机器人行业眼

|

7月前

|

传感器算法机器人

|

博文

医疗引导机器人技术架构解析：决定品牌竞争力的核心要素

智慧医院建设推动医疗引导机器人迈向智能化，其核心技术涵盖多传感器融合导航、垂直领域大模型与RAG语义理解、主动视觉交互、跨楼层梯控及HIS系统深度集成。本文从技术架构出发，剖析环境感知、认知决策与系统协同的关键突破，揭示机器人如何成为连接物理空间与数字医疗的核心终端。

387 2 2

机器人行业眼

|

7月前

|

文字识别自然语言处理算法

|

博文

智慧政务大厅的数字化转型：关键技术架构与终端解决方案评测

智慧政务大厅正迈向智能化，通过边缘计算、AI与物联网技术融合，构建“感知—认知—行动”闭环。依托大模型、OCR、生物识别等技术，实现语义理解、智能导办与设备协同，推动服务从“能办”到“好办、主动办”升级。

488 20 20

未来智能研习社

|

7月前

|

人工智能

|

博文

# 用Prompt Engineering高效生成合规Amazon包类套图

利用Prompt Engineering，仅需1张实拍图+产品参数，即可高效生成符合Amazon美国站合规要求的包类套图。通过结构化提示词，明确主图、卖点、场景等6类图片职责，确保每张图精准传达信息，避免AI篡改产品细节，实现低成本、可复用、规模化出图，大幅提升上架效率。

807 1 1

来自：图像生产版块

未来智能研习社

|

7月前

|

博文

用 Nano Banana Pro 批量生成城市天气视觉卡片

本文介绍如何用Nano Banana Pro批量生成统一风格的城市天气视觉卡片。通过结构化Prompt模版，固定视角、构图与尺寸（1080×1080），结合等距3D卡通风格，将北京、上海等城市的天气信息（晴/阴/雨/夜）转化为直观、稳定的视觉内容，适用于内容平台、城市账号或系统看板，实现高效复用与扩展。

632 0 0

来自：图像生产版块

dotNative

|

7月前

|

前端开发小程序 JavaScript

|

博文

A2UI 规范与 AG-UI 协议：打造高效协同的界面开发体系

A2UI规范与AG-UI协议构建“设计-开发”协同闭环：前者统一视觉与交互标准，后者定义组件通信与跨平台适配，二者融合提升协作效率、保障体验一致，推动界面开发向标准化、可复用、高效能演进。

3249 0 0

游客5q7sd2dhbjbdo

|

8月前

|

Android开发开发工具

|

问答

android 混淆异常，印象中貌似是引入金融级活体检测sdk，开启混淆后编译就报错

421 0 0

游客yqdu5djlmwbso

|

8月前

|

文字识别算法数据可视化

|

博文

2025 年度机器视觉公司有哪些：从技术实力到落地案例的全方位选型参考

在智能制造背景下，机器视觉成为提质增效关键。本文发布2025年度机器视觉公司评估，从技术、场景、服务三大维度解析领先企业方案，聚焦苏州德创测控等代表，涵盖核心技术、落地案例与产教融合，为制造企业选型提供权威参考，助力智能升级。

399 0 0

游客yqdu5djlmwbso

|

8月前

|

机器学习/深度学习传感器人工智能

|

博文

实力强劲的机器视觉公司有哪些：2025年TOP5精选榜单

科技迭代驱动工业升级，机器视觉成自动化核心。本文基于资质、技术与口碑，精选TOP5机器视觉公司：德创测控、海康威视、康耐视、基恩士、大华华睿，覆盖全链条方案，助力企业降本增效、智能转型。

1117 0 0

游客6mpq4uc7irdxi

|

8月前

|

人工智能自然语言处理安全

|

博文

程序员都在偷偷用的AI编程神器！2025高效自动写代码工具全解析

AI编程革命正悄然兴起。李响团队调研显示，AI助手大幅提升开发效率，GitHub Copilot、CodeWhisperer、Tabnine各具优势，而新兴的Lynx AI更以自然语言生成全栈应用，零门槛、多端适配，助力开发者从重复劳动中解放，专注创新。

5095 3 3

来自：内容审核版块

云栈开源日记

|

8月前

|

人工智能缓存编解码

|

博文

FFmpeg 官方汇编课程：写出快 5 倍的视频处理代码

FFmpeg官方开源汇编教程asm-lessons，手把手教你用SIMD指令优化音视频处理性能。从工具链到实战案例，掌握工业级高性能代码编写，提升程序效率数倍，适合C语言开发者进阶学习。

461 10 10

来自：视频分割版块

游客gmnthj624deqw

|

8月前

|

PHP 文字识别

|

问答

针对铁路货运物流单存档需求，本项目基于WPF与飞桨OCR技术，实现批量图片多区域文字识别与自动重命名。用户可自定义识别区域，系统提取关键信息（如车号、批次号）并生成规范文件名，提升档案管理效率与检索准确性，支持PDF及图像文件处理。

1278 48 49

来自：文字识别版块

一个程序员

|

10月前

|

机器学习/深度学习 PyTorch 算法框架/工具

|

博文

pytorch基于AnimeFace128数据集训练DCGAN

基于AnimeFace128数据集，使用PyTorch构建DCGAN生成动漫人脸。包含生成器与判别器网络设计、数据加载及训练流程，通过对抗学习生成64×64清晰图像。

404 0 0

一个程序员

|

10月前

|

机器学习/深度学习编解码 Python

|

博文

Python图片上采样工具 - RealESRGANer

Real-ESRGAN基于深度学习实现图像超分辨率放大，有效改善传统PIL缩放的模糊问题。支持多种模型版本，推荐使用魔搭社区提供的预训练模型，适用于将小图高质量放大至大图，放大倍率越低效果越佳。

768 3 3

Lethehong-44459

|

10月前

|

人工智能数据可视化前端开发

|

竖排繁体文字识别系统适用于古籍数字化、港澳台文档、书法作品、历史档案及学术研究等场景，支持图像预处理、自动旋转、OCR识别、竖转横与繁转简。通过咕嘎OCR与OpenCC技术，实现高效精准的文字转换与编辑。

1572 3 3

来自：文字识别版块

yukiji0701

|

12月前

|

机器学习/深度学习人工智能编解码

|

博文

AI视觉新突破：多角度理解3D世界的算法原理全解析

多视角条件扩散算法通过多张图片输入生成高质量3D模型，克服了单图建模背面细节缺失的问题。该技术模拟人类多角度观察方式，结合跨视图注意力机制与一致性损失优化，大幅提升几何精度与纹理保真度，成为AI 3D生成的重要突破。

1485 0 0

1432761592276867

|

12月前

|

问答

【PDF提取内容改名】批量提取PDF指定区域内容重命名PDF文件，PDF自动提取内容命名的方案和详细步骤

本工具可批量提取PDF中的合同编号、日期、发票号等关键信息，支持PDF自定义区域提取并自动重命名文件，适用于合同管理、发票处理、文档归档和数据录入场景。基于iTextSharp库实现，提供完整代码示例与百度、腾讯网盘下载链接，助力高效处理PDF文档。

1488 40 40

来自：文字识别版块

wjh123

|

问答

调用【身份证OCR文字】接口返回403(Forbidden)

468 0 0

TsingtaoAI

|

机器学习/深度学习人工智能自然语言处理

|

博文

TsingtaoAI具身智能机器人开发套件及实训方案

该产品套件创新性地融合了先进大模型技术、深度相机与多轴协作机械臂技术，构建了一个功能强大、灵活易用的人机协作解决方案。其核心在于将智能决策、精准感知与高效执行完美结合，为高校实训领域的发展注入新动力。

1272 10 10

游客yvwxz4bmjt5ik

|

API Python

|

博文

本文介绍了如何使用 OpenVINO 格式模型文件对图片进行推理。通过将训练好的模型转换为 OpenVINO 格式，可实现跨设备部署。文中详细展示了利用 Python 和 OpenVINO API 完成模型加载、编译及推理的步骤。核心代码包括初始化 OpenVINO 模型、设置预测参数（如置信度和 IoU 阈值）以及对图片进行检测并显示结果。注意：OpenVINO 模型文件需完整存放于同一目录下，路径需正确配置，参数可根据模型性能调整。

836 64 65

来自：图像理解版块

青云交（Java大数据AI云原生Python）

|

机器学习/深度学习人工智能算法

|

博文

智创 AI 新视界 -- 提升 AI 推理速度的高级方法（16 - 2）

本文深度聚焦提升 AI 推理速度，全面阐述模型压缩（低秩分解、参数量化）、硬件加速（GPU、TPU）及推理算法优化（剪枝感知推理、动态批处理）。结合图像识别等多领域案例与丰富代码示例，以生动形象且专业严谨的方式，为 AI 从业者提供极具价值的技术指南，助力突破 AI 推理速度瓶颈，实现系统性能跃升。

909 73 75

青云交（Java大数据AI云原生Python）

|

数据采集存储人工智能

|

博文

智创 AI 新视界 -- 优化 AI 模型训练效率的策略与技巧（16 - 1）

本文深度聚焦 AI 模型训练效率优化，全面涵盖数据预处理（清洗、归一化、增强）、模型架构（轻量级应用、剪枝与量化）、训练算法与超参数调优（自适应学习率、优化算法）等核心维度。结合自动驾驶、动物图像识别、语音识别等多领域实际案例，佐以丰富且详细的代码示例，深度剖析技术原理与应用技巧，为 AI 从业者呈上极具专业性、可操作性与参考价值的技术宝典，助力高效优化模型训练效率与性能提升。

1320 73 73

游客exh3rzrojww4s

|

文字识别 Java Maven

|

问答

OCR识别报错检测不到我的包，是为什么？

501 1 0

1155428560232018

|

博文

TeaScript数值书写规则

本内容介绍了数值的多种表示形式，包括十进制整数（如`14123`）、十六进制整数（如`0xFF`）、八进制整数（如`012`）以及实数（如`1.23`）。十进制和实数可带正负号，实数含小数点，支持科学计数法（如`1.23e3`）。十六进制以`0x`开头，八进制以`0`开头，各有对应数字范围。

529 71 71

1155428560232018

|

IDE 开发工具

|

博文

TeaScript IDE集成开发环境

TeaScriptIDE 是一款功能丰富的集成开发环境，包含代码编辑器（语法着色提升可读性）、调试器（显示运行结果）、内置函数帮助文档、打包功能（生成单个可执行文件）以及保存/恢复最近文件的功能。其界面由菜单栏、工具栏、多标签页编辑窗口、控制台输出窗口和状态栏组成，支持快速命令调用、程序运行结果显示及错误信息提示。退出时会自动保存状态，下次启动可继续编辑上次打开的文件。

343 15 15

1155428560232018

|

博文

TVM虚拟机应用实例

316 5 5

来自：图像生产版块

kuaitongai

|

机器学习/深度学习人工智能算法

|

博文

C++20是C++语言的一次重大更新，引入了模块、协程、概念、范围等革命性特性。相比老版本，它显著提高了开发效率、增强了代码可读性和可维护性，并通过优化编译和运行性能提升了整体表现。这些改进推动了现代C++编程范式的发展，帮助开发者应对复杂软件工程挑战。文章回顾了C++发展历程，详细分析了C++20的新特性及其优势，展望了其未来潜力。

563 1 1

音视频牛哥

|

编解码监控安全

|

博文

JT1078和GB28181差别在哪里？

JT1078和GB28181分别是针对车载监控和公共安全监控设计的标准协议。JT1078专注于车载视频监控，适用于物流与交通场景，强调实时传输、编解码支持及无线环境下的数据安全性；而GB28181侧重于大规模公共安全监控，覆盖城市安防等领域，支持多协议交互与级联方案。两者在技术上有交集，需通过中间件实现互联互通，各有独特优势以满足不同需求。

879 8 8

音视频牛哥

|

存储编解码监控

|

博文

Android平台GB28181执法记录仪技术方案与实现

本文介绍了大牛直播SDK的SmartGBD在执法记录仪场景中的应用。GB28181协议作为视频监控联网的国家标准，为设备互联互通提供规范。SmartGBD专为Android平台设计，支持音视频采集、编码与传输，具备自适应算法和多功能扩展优势。文章分析了执法记录仪的需求，如实时音视频传输、设备管理及数据安全，并详细阐述了基于SmartGBD的技术实现方案，包括环境准备、SDK集成、设备注册、音视频处理及功能扩展等步骤。最后展望了SmartGBD在未来智慧物联领域的广阔应用前景。

1005 13 13

音视频牛哥

|

编解码监控开发工具

|

博文

H.264语法结构分析之frame_cropping_flag

本文深入探讨了H.264标准中的`frame_cropping_flag`，一个常被提及却易被误解的概念。该标志用于指示解码后图像是否需裁剪，通过四个裁剪偏移量参数调整分辨率。文章分析了其在视频转码、流处理及编辑中的应用，并讨论对视频质量的影响，如内容完整性、分辨率调整和传输效率。合理设置此参数可优化视频适配与播放体验，但需注意兼容性问题。最后强调，理解音视频协议框架对开发高质量播放器至关重要。

454 9 9

最新

通义万相

官方博客

问答

视频

AI Glasses识别百变脸谱

当AI Glasses走进小吃街，实现美食百科

AI视频去字幕技术完全指南：原理、方法与工具对比（2026版）

【ComfyUI API 自动化利器：comfyui_xy Python 库使用详解】

【编号2571】AI 文生图 & 图生图工具开发与应用经验：高效解决批量图文生成痛点

构建AI智能体：九十五、YOLO视觉大模型入门指南：从零开始掌握目标检测

自定义认证前端页面

医疗引导机器人技术架构解析：决定品牌竞争力的核心要素

智慧政务大厅的数字化转型：关键技术架构与终端解决方案评测

# 用Prompt Engineering高效生成合规Amazon包类套图

用 Nano Banana Pro 批量生成城市天气视觉卡片

A2UI 规范与 AG-UI 协议：打造高效协同的界面开发体系

android 混淆异常，印象中貌似是引入金融级活体检测sdk，开启混淆后编译就报错

2025 年度机器视觉公司有哪些：从技术实力到落地案例的全方位选型参考

实力强劲的机器视觉公司有哪些：2025年TOP5精选榜单

程序员都在偷偷用的AI编程神器！2025高效自动写代码工具全解析

FFmpeg 官方汇编课程：写出快 5 倍的视频处理代码

php 调用阿里云文字识别 传入needRotate和needSortPage时报错

AI内容创作Agent架构解析：基于移动端原生框架的内容特工队AI (ReelsAgent)与传统短视频工具的技术差异

机器视觉公司有哪些：国产平台德创引领产教融合

机器视觉公司有哪些：德创测控引领，产教融合优选指南​

机器视觉软件平台哪个好：2025领衔的选型指南

高效率办公PDF批量处理：批量OCR识别PDF区域文字内容，用PDF内容批量改名或导出表格的货物运单应用案例

pytorch基于AnimeFace128数据集训练DCGAN

Python图片上采样工具 - RealESRGANer

AI Ping：精准可靠的大模型服务性能评测平台

OBS美颜美肌插件安装使用教程

Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现裂缝的检测识别（C#代码UI界面版）

【繁体图片文字识别】竖排的繁体图片文字识别翻译，竖排的繁体图片文字如何识别，竖排繁体图片识别后转横排，竖排的繁体识别比较友好的方法

AI视觉新突破：多角度理解3D世界的算法原理全解析

集成vl模型到dify响应无法终止

dashscope

【PDF提取内容改名】批量提取PDF指定区域内容重命名PDF文件，PDF自动提取内容命名的方案和详细步骤

百炼平台千问大模型图片识别问题

调用【身份证OCR文字】接口返回403(Forbidden)

TsingtaoAI具身智能机器人开发套件及实训方案

利用openvino模型推理图片

智创 AI 新视界 -- 提升 AI 推理速度的高级方法（16 - 2）

智创 AI 新视界 -- 优化 AI 模型训练效率的策略与技巧（16 - 1）

OCR识别报错检测不到我的包，是为什么？

TeaScript数值书写规则

TeaScript IDE集成开发环境

TVM虚拟机应用实例

快瞳犬种识别效果图示，120种狗品种精准覆盖

求助：找一个用于图像扫描文件矫正的开源模型

我开发了一个网页设计制作软件，可把网页设计图中UI分割出来，但人手很慢，想用图片识别方法自动分割？

C++20之2025年上桌我坐哪里？

JT1078和GB28181差别在哪里？

Android平台GB28181执法记录仪技术方案与实现

H.264语法结构分析之frame_cropping_flag

视觉智能

活跃用户

相关产品

php 调用阿里云文字识别传入needRotate和needSortPage时报错

机器视觉公司有哪些：德创测控引领，产教融合优选指南