视觉智能-最新-阿里云开发者社区

阿里云OpenVI

|

人工智能图形学计算机视觉

|

视频

置顶

通义万相

通义妙谈 -图像模型玩转更多可能！通义万相新升级一个包罗万象的“应用广场”！

“买家秀”秒变“卖家秀”，AI一键更换商品模特，虚拟模特功能等你解锁🔒 “小草图”秒变“大制作”，AI涂鸦作画让你的草图“一秒”成画🖌️ “2-4图”生成“个人写真”，AI虚拟分身在线创作，在家也是巴厘岛🏖️ 阿里云的微博视频全网征集灵魂画手，几笔生成精美大作，精美礼物等你来拿

1234 3 3

来自：通义万相版块

阿里云OpenVI

|

人工智能图形学计算机视觉

|

视频

置顶

通义万相

通义万相—涂鸦作画功能上线~欢迎体验

通义万相应用广场中新增功能：涂鸦作画~用户可试试在画板上涂鸦并结合描述生成画作，快来体验吧~

14215 10 10

来自：通义万相版块

阿里云OpenVI

|

人工智能图形学计算机视觉

|

视频

置顶

通义万相

通义万相—写真馆功能上线，欢迎体验~

通义万相应用广场中新增功能：写真馆~用户上传2-4张真人照片，即可获得专属写真大片，快来体验吧~

2395 5 7

来自：通义万相版块

阿里云OpenVI

|

人工智能图形学计算机视觉

|

视频

置顶

通义万相

通义万相—虚拟模特功能上线，欢迎体验~

通义万相应用广场中新增功能：虚拟模特~用户可上传真人实拍商品展示图，获取模特大片。快来体验吧~

11647 8 8

来自：通义万相版块

阿里云OpenVI

|

视频

置顶

通义万相

通义妙谈-阿里云图像生成大模型通义万相，Composer算法实现绘图精准可控

13654 68 70

来自：通义万相版块

阿里云OpenVI

|

物联网开发者异构计算

|

博文

置顶

facechain人物写真应用自8月11日开源了第一版证件照生成后。目前在github（GitHub - modelscope/facechain: FaceChain is a deep-learning toolchain for generating your Digital-Twin.）上已有5.7K的star，论文链接：FaceChain: A Playground for Identity-Preserving Portrait Generation：https://arxiv.org/abs/2308.14256。

1088 5 5

morning_sun_lee

|

人工智能编解码算法

|

博文

置顶

【IJCAI 2023】流感知优化之 DAMO-StreamNet 论文解读

传统视频目标检测（Video Object Detection, VOD）是离线（offline）的检测任务，即仅考虑算法的检测精度，未考虑算法的延时。流感知（Streaming Perception）任务作为VOD的一个细分方向，采用流平均精度（Streaming Average Precision, sAP）指标，衡量算法的在线（online）检测能力，即同时衡量算法的精度和延时。本文针对现有的流感知工作在训练方式和模型感受野两方面的不足，提出了DAMO-StreamNet，在保证算法实时性的前提下，实现了SOTA的性能。

1491 6 7

小小开发楠楠子

|

机器学习/深度学习人工智能自然语言处理

|

博文

置顶

ChatGPT最强专业学习资料集锦

本文旨在整理一份可供参考和学习的专业ChatGPT相关资料，包括ChatGPT相关论文、Github项目、以及当前市场上出现的ChatGPT相关产品等。

1277 4 7

不阔以太晚睡

|

机器学习/深度学习搜索推荐计算机视觉

|

博文

置顶

【阿里云OpenVI-人脸感知理解系列之人脸识别】基于Transformer的人脸识别新框架TransFace ICCV-2023论文深入解读

本文介绍阿里云开放视觉智能团队被计算机视觉顶级国际会议ICCV 2023接收的论文 "TransFace: Calibrating Transformer Training for Face Recognition from a Data-Centric Perspective"。TransFace旨在探索ViT在人脸识别任务上表现不佳的原因，并从data-centric的角度去提升ViT在人脸识别任务上的性能。

3096 341 343

来自：人脸人体版块

KlondikeKing

|

机器学习/深度学习编解码算法

|

博文

置顶

【阿里云OpenVI-视觉生产系列之图片上色】照片真实感上色算法DDColor ICCV2023论文深入解读

图像上色是老照片修复的一个关键步骤，本文介绍发表在 ICCV 2023 上的最新上色论文 DDColor

3820 10 10

来自：视觉生产版块

vicky_oy0522

|

AI芯片

|

博文

置顶

AIGC视频生成/编辑技术调研报告

随着图像生成领域的研究飞速发展，基于diffusion的生成式模型取得效果上的大突破。在图像生成/编辑产品大爆发的今天，视频生成/编辑技术也引起了学术界和产业界的高度关注。该分享主要介绍视频生成/编辑的研究现状，包括不同技术路线的优劣势，以及该领域当下面临的核心问题与挑战。

1875 2 2

来自：视觉生产版块

游客gwiurm4mq5kag

|

机器学习/深度学习人工智能达摩院

|

博文

置顶

AIGC玩转卡通化技术实践

伴随着持续不断的AIGC浪潮，越来越多的AI生成玩法正在被广大爱好者定义和提出，图像卡通化（动漫化）基于其还原效果高，风格种类丰富等特点而备受青睐。早在几年前，伴随着GAN网络的兴起，卡通化就曾经风靡一时。而今，伴随着AIGC技术的兴起和不断发展，扩散生成模型为卡通化风格和提供了更多的创意和生成的可能性。本文就将详细介绍达摩院开放视觉团队的卡通化技术实践。

57372 4 4

来自：视觉生产版块

lyraestar-23206

|

编解码人工智能移动开发

|

博文

置顶

AIGC图像分辨率太低？快来试试像素感知扩散超分模型，你想要的细节都在这里

阿里巴巴最新自研的像素感知扩散超分模型已经开源，它把扩散模型强大的生成能力和像素级控制能力相结合，能够适应从老照片修复到AIGC图像超分的各种图像增强任务和各种图像风格，并且能够控制生成强度和增强风格。这项技术的直接应用之一是AIGC图像的后处理增强和二次生成，能够带来可观的效果提升。

1212 4 4

marquezx

|

自然语言处理测试技术计算机视觉

|

博文

置顶

OpenVI-感知理解系列之GAP骨骼点动作识别 ICCV23顶会论文深入解读

本文介绍了ICCV23中稿论文 GAP: Generative Action Description Prompts for Skeleton-based Action Recognition

1583 2 2

来自：图像理解版块

小小开发楠楠子

|

机器学习/深度学习人工智能达摩院

|

博文

置顶

港大阿里“视觉AI任意门”，一键向场景中无缝传送物体

本文主要展示了阿里和港大的AI版「任意门」，实现零样本的图像嵌入。

1399 3 3

y22d5jdczpqg6

|

人工智能自动驾驶算法

|

博文

置顶

本地生活技术雷达——生成式AI（Generative AI）在阿里本地生活的应用与思考

本地生活技术雷达是由本地生活技术中心战略管理&PMO团队开展的，定期扫描和评估新兴技术的战略研究工作。目的是对技术趋势进行前瞻性预判，提出新技术布局建议，在技术驱动业务创新和业务增长、践行社会责任等方面有一些实质性探索。本篇尝试探讨 1）理解AI范式——从分析型（Analytical AI）到生成式（Generative AI）的拐点在2022年，其对人类社会以及商业模式的长期影响； 2）生成式AI（文生文、文生图、图生图等）在本地业务目前场景的应用和未来的方向。欢迎技术、产品、运营、战略、管理层、国内国际等各种视角的指点和碰撞！

40008 8 9

游客yqdu5djlmwbso

|

2天前

|

传感器人工智能边缘计算

|

博文

机器视觉公司有哪些：国产平台德创引领产教融合

本文整合苏州德创、基恩士、康耐视、奥普特、研华科技五家机器视觉公司，涵盖资质、产品、产教融合优势，提供选型参考，助力院校实现教学与产业需求精准对接。

36 0 0

游客yqdu5djlmwbso

|

3天前

|

人工智能运维算法

|

博文

机器视觉公司有哪些：德创测控引领，产教融合优选指南

本文依据权威报告，结合产教适配度、技术成熟度与服务保障力，推荐苏州德创、海康机器人、凌云光、大恒图像、华数机器人五家机器视觉公司，助力用户科学决策。

43 0 0

游客yqdu5djlmwbso

|

3天前

|

机器学习/深度学习算法机器人

|

博文

机器视觉软件平台哪个好：2025领衔的选型指南

本文基于权威报告，对比苏州德创、康耐视、凌云光、海康机器人、基恩士五大机器视觉软件平台，从算法能力、易用性、兼容性及教学工业适配性等维度分析，为选型提供可溯源依据。德创VisionPlus国产全栈适配，教学与工业双优。附选购指南，助力精准决策。

63 0 0

老乡别走

|

27天前

|

机器学习/深度学习文字识别 Shell

|

博文

高效率办公PDF批量处理：批量OCR识别PDF区域文字内容，用PDF内容批量改名或导出表格的货物运单应用案例

针对铁路货运物流单存档需求，本项目基于WPF与飞桨OCR技术，实现批量图片多区域文字识别与自动重命名。用户可自定义识别区域，系统提取关键信息（如车号、批次号）并生成规范文件名，提升档案管理效率与检索准确性，支持PDF及图像文件处理。

180 0 0

来自：文字识别版块

一个程序员

|

2月前

|

机器学习/深度学习 PyTorch 算法框架/工具

|

博文

pytorch基于AnimeFace128数据集训练DCGAN

基于AnimeFace128数据集，使用PyTorch构建DCGAN生成动漫人脸。包含生成器与判别器网络设计、数据加载及训练流程，通过对抗学习生成64×64清晰图像。

93 0 0

一个程序员

|

2月前

|

机器学习/深度学习编解码 Python

|

博文

Python图片上采样工具 - RealESRGANer

Real-ESRGAN基于深度学习实现图像超分辨率放大，有效改善传统PIL缩放的模糊问题。支持多种模型版本，推荐使用魔搭社区提供的预训练模型，适用于将小图高质量放大至大图，放大倍率越低效果越佳。

205 3 3

Lethehong

|

2月前

|

人工智能数据可视化前端开发

|

博文

AI Ping：精准可靠的大模型服务性能评测平台

AI Ping是清华系团队推出的“大模型服务评测平台”，被誉为“AI界的大众点评”。汇聚230+模型服务，7×24小时监测性能数据，以吞吐量、延迟等硬指标助力开发者科学选型。界面简洁，数据可视化强，支持多模型对比，横向对标国内外主流平台，为AI应用落地提供权威参考。

405 3 3

1652126143653740

|

3月前

|

博文

OBS美颜美肌插件安装使用教程

软件是不自带美颜插件的，可以安装OBS-Studio-29.1.3安装包，就自带美颜功能的插件。在OBS软件【插件中心】菜单下,打开【打开插件中心】，安装美颜摄像头注册即可。在OBS软件【停靠窗口】菜单下，打开【美颜参数控制面板】的美颜窗口。插件里面有自带教程，可以自行学习。

466 2 2

格林威

|

4月前

|

机器学习/深度学习算法定位技术

|

博文

Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现裂缝的检测识别（C#代码UI界面版）

本项目基于YOLOv8模型与C#界面，结合Baumer工业相机，实现裂缝的高效检测识别。支持图像、视频及摄像头输入，具备高精度与实时性，适用于桥梁、路面、隧道等多种工业场景。

445 27 28

老乡别走

|

4月前

|

机器学习/深度学习缓存文字识别

|

博文

【繁体图片文字识别】竖排的繁体图片文字识别翻译，竖排的繁体图片文字如何识别，竖排繁体图片识别后转横排，竖排的繁体识别比较友好的方法

竖排繁体文字识别系统适用于古籍数字化、港澳台文档、书法作品、历史档案及学术研究等场景，支持图像预处理、自动旋转、OCR识别、竖转横与繁转简。通过咕嘎OCR与OpenCC技术，实现高效精准的文字转换与编辑。

384 0 0

来自：文字识别版块

yukiji0701

|

4月前

|

机器学习/深度学习人工智能编解码

|

博文

AI视觉新突破：多角度理解3D世界的算法原理全解析

多视角条件扩散算法通过多张图片输入生成高质量3D模型，克服了单图建模背面细节缺失的问题。该技术模拟人类多角度观察方式，结合跨视图注意力机制与一致性损失优化，大幅提升几何精度与纹理保真度，成为AI 3D生成的重要突破。

314 0 0

1432761592276867

|

4月前

|

问答

集成vl模型到dify响应无法终止

103 0 0

游客naph2kb2ksedm

|

4月前

|

问答

dashscope

85 0 0

老乡别走

|

4月前

|

C#

|

博文

【PDF提取内容改名】批量提取PDF指定区域内容重命名PDF文件，PDF自动提取内容命名的方案和详细步骤

本工具可批量提取PDF中的合同编号、日期、发票号等关键信息，支持PDF自定义区域提取并自动重命名文件，适用于合同管理、发票处理、文档归档和数据录入场景。基于iTextSharp库实现，提供完整代码示例与百度、腾讯网盘下载链接，助力高效处理PDF文档。

570 40 40

来自：文字识别版块

wjh123

|

4月前

|

问答

百炼平台千问大模型图片识别问题

174 1 0

游客3ovjb4ylkci6m

|

6月前

|

文字识别

|

问答

调用【身份证OCR文字】接口返回403(Forbidden)

134 0 0

TsingtaoAI

|

6月前

|

机器学习/深度学习人工智能自然语言处理

|

博文

TsingtaoAI具身智能机器人开发套件及实训方案

该产品套件创新性地融合了先进大模型技术、深度相机与多轴协作机械臂技术，构建了一个功能强大、灵活易用的人机协作解决方案。其核心在于将智能决策、精准感知与高效执行完美结合，为高校实训领域的发展注入新动力。

541 10 10

游客yvwxz4bmjt5ik

|

6月前

|

API Python

|

博文

利用openvino模型推理图片

本文介绍了如何使用 OpenVINO 格式模型文件对图片进行推理。通过将训练好的模型转换为 OpenVINO 格式，可实现跨设备部署。文中详细展示了利用 Python 和 OpenVINO API 完成模型加载、编译及推理的步骤。核心代码包括初始化 OpenVINO 模型、设置预测参数（如置信度和 IoU 阈值）以及对图片进行检测并显示结果。注意：OpenVINO 模型文件需完整存放于同一目录下，路径需正确配置，参数可根据模型性能调整。

357 64 65

来自：图像理解版块

青云交（Java大数据AI云原生Python）

|

6月前

|

机器学习/深度学习人工智能算法

|

博文

智创 AI 新视界 -- 提升 AI 推理速度的高级方法（16 - 2）

本文深度聚焦提升 AI 推理速度，全面阐述模型压缩（低秩分解、参数量化）、硬件加速（GPU、TPU）及推理算法优化（剪枝感知推理、动态批处理）。结合图像识别等多领域案例与丰富代码示例，以生动形象且专业严谨的方式，为 AI 从业者提供极具价值的技术指南，助力突破 AI 推理速度瓶颈，实现系统性能跃升。

473 73 75

青云交（Java大数据AI云原生Python）

|

6月前

|

数据采集存储人工智能

|

博文

智创 AI 新视界 -- 优化 AI 模型训练效率的策略与技巧（16 - 1）

本文深度聚焦 AI 模型训练效率优化，全面涵盖数据预处理（清洗、归一化、增强）、模型架构（轻量级应用、剪枝与量化）、训练算法与超参数调优（自适应学习率、优化算法）等核心维度。结合自动驾驶、动物图像识别、语音识别等多领域实际案例，佐以丰富且详细的代码示例，深度剖析技术原理与应用技巧，为 AI 从业者呈上极具专业性、可操作性与参考价值的技术宝典，助力高效优化模型训练效率与性能提升。

621 73 73

游客exh3rzrojww4s

|

7月前

|

文字识别 Java Maven

|

问答

OCR识别报错检测不到我的包，是为什么？

139 1 0

1155428560232018

|

7月前

|

博文

TeaScript数值书写规则

本内容介绍了数值的多种表示形式，包括十进制整数（如`14123`）、十六进制整数（如`0xFF`）、八进制整数（如`012`）以及实数（如`1.23`）。十进制和实数可带正负号，实数含小数点，支持科学计数法（如`1.23e3`）。十六进制以`0x`开头，八进制以`0`开头，各有对应数字范围。

240 71 71

1155428560232018

|

7月前

|

IDE 开发工具

|

博文

TeaScript IDE集成开发环境

TeaScriptIDE 是一款功能丰富的集成开发环境，包含代码编辑器（语法着色提升可读性）、调试器（显示运行结果）、内置函数帮助文档、打包功能（生成单个可执行文件）以及保存/恢复最近文件的功能。其界面由菜单栏、工具栏、多标签页编辑窗口、控制台输出窗口和状态栏组成，支持快速命令调用、程序运行结果显示及错误信息提示。退出时会自动保存状态，下次启动可继续编辑上次打开的文件。

141 15 15

1155428560232018

|

7月前

|

博文

TVM虚拟机应用实例

125 5 5

来自：图像生产版块

深圳快瞳科技有限公司

|

7月前

|

机器学习/深度学习人工智能算法

|

博文

快瞳犬种识别效果图示，120种狗品种精准覆盖

犬种识别技术已从实验室走向大众，基于深度学习的卷积神经网络（CNN）和YOLO系列算法，可高效实现犬种分类与目标检测。本文介绍了快瞳犬种识别的技术原理、训练代码及应用场景，包括宠物管理、遗传疾病研究、公共安全、城市管理及遗失宠物寻找等。通过Python代码加载YOLOv8模型并进行训练，模型能在图像中标注犬种及其边界框，为智慧生活提供技术支持。

417 33 33

游客k7bbq7z7rjzcu

|

7月前

|

问答

求助：找一个用于图像扫描文件矫正的开源模型

64 0 0

游客zczk3pn46dida

|

8月前

|

前端开发

|

问答

我开发了一个网页设计制作软件，可把网页设计图中UI分割出来，但人手很慢，想用图片识别方法自动分割？

80 0 0

音视频牛哥

|

8月前

|

算法编译器 C++

|

博文

C++20之2025年上桌我坐哪里？

C++20是C++语言的一次重大更新，引入了模块、协程、概念、范围等革命性特性。相比老版本，它显著提高了开发效率、增强了代码可读性和可维护性，并通过优化编译和运行性能提升了整体表现。这些改进推动了现代C++编程范式的发展，帮助开发者应对复杂软件工程挑战。文章回顾了C++发展历程，详细分析了C++20的新特性及其优势，展望了其未来潜力。

274 1 1

音视频牛哥

|

8月前

|

编解码监控安全

|

博文

JT1078和GB28181差别在哪里？

JT1078和GB28181分别是针对车载监控和公共安全监控设计的标准协议。JT1078专注于车载视频监控，适用于物流与交通场景，强调实时传输、编解码支持及无线环境下的数据安全性；而GB28181侧重于大规模公共安全监控，覆盖城市安防等领域，支持多协议交互与级联方案。两者在技术上有交集，需通过中间件实现互联互通，各有独特优势以满足不同需求。

306 8 8

音视频牛哥

|

8月前

|

存储编解码监控

|

博文

Android平台GB28181执法记录仪技术方案与实现

本文介绍了大牛直播SDK的SmartGBD在执法记录仪场景中的应用。GB28181协议作为视频监控联网的国家标准，为设备互联互通提供规范。SmartGBD专为Android平台设计，支持音视频采集、编码与传输，具备自适应算法和多功能扩展优势。文章分析了执法记录仪的需求，如实时音视频传输、设备管理及数据安全，并详细阐述了基于SmartGBD的技术实现方案，包括环境准备、SDK集成、设备注册、音视频处理及功能扩展等步骤。最后展望了SmartGBD在未来智慧物联领域的广阔应用前景。

353 13 13

音视频牛哥

|

8月前

|

编解码监控开发工具

|

博文

H.264语法结构分析之frame_cropping_flag

本文深入探讨了H.264标准中的`frame_cropping_flag`，一个常被提及却易被误解的概念。该标志用于指示解码后图像是否需裁剪，通过四个裁剪偏移量参数调整分辨率。文章分析了其在视频转码、流处理及编辑中的应用，并讨论对视频质量的影响，如内容完整性、分辨率调整和传输效率。合理设置此参数可优化视频适配与播放体验，但需注意兼容性问题。最后强调，理解音视频协议框架对开发高质量播放器至关重要。

171 9 9

音视频牛哥

|

8月前

|

程序员测试技术

|

博文

[对话音视频牛哥]送给初入职场的程序员：不忘初心，砥砺前行

这段内容为初入职场的程序员提供了宝贵建议，涵盖技术提升、业务理解、团队协作、代码质量、错误处理、持续学习及情绪管理七个方面。通过掌握学习节奏、理解业务需求、加强沟通能力、注重代码优化、从错误中成长、保持技术好奇心和调节工作压力，帮助新人在复杂环境中成长为优秀的程序员，实现职业目标。这些经验来自一位资深从业者“牛叔”，他以实际见解指导年轻人更好地应对职场挑战。

134 6 6

音视频牛哥

|

8月前

|

人工智能编解码算法

|

博文

如何在Python下实现摄像头|屏幕|AI视觉算法数据的RTMP直播推送

本文详细讲解了在Python环境下使用大牛直播SDK实现RTMP推流的过程。从技术背景到代码实现，涵盖Python生态优势、AI视觉算法应用、RTMP稳定性及跨平台支持等内容。通过丰富功能如音频编码、视频编码、实时预览等，结合实际代码示例，为开发者提供完整指南。同时探讨C接口转换Python时的注意事项，包括数据类型映射、内存管理、回调函数等关键点。最终总结Python在RTMP推流与AI视觉算法结合中的重要性与前景，为行业应用带来便利与革新。

438 5 5

音视频牛哥

|

8月前

|

人工智能监控 Linux

|

博文

基于大牛直播SDK的无纸化同屏会议与智慧教室技术方案

本文探讨了利用大牛直播 SDK 打造无纸化同屏会议与智慧教室系统的技术方案。SDK 具备跨平台兼容性、超低延迟等优势，支持 RTMP 推流播放、RTSP 直播播放及多路流媒体转发等功能，满足实时互动需求。文章详细介绍了两种场景的系统架构与功能实现，并总结其技术优势，展望未来结合 AI 等技术的发展前景，推动现代办公与教育智能化升级。

150 7 7

最新

通义万相

官方博客

问答

视频

通义妙谈 -图像模型玩转更多可能！通义万相新升级 一个包罗万象的“应用广场”！

通义万相—涂鸦作画功能上线~欢迎体验

通义万相—写真馆功能上线，欢迎体验~

通义万相—虚拟模特功能上线，欢迎体验~

通义妙谈-阿里云图像生成大模型通义万相，Composer算法实现绘图精准可控

facechain人物写真生成工业级开源

【IJCAI 2023】流感知优化之 DAMO-StreamNet 论文解读

ChatGPT最强专业学习资料集锦

【阿里云OpenVI-人脸感知理解系列之人脸识别】基于Transformer的人脸识别新框架TransFace ICCV-2023论文深入解读

【阿里云OpenVI-视觉生产系列之图片上色】照片真实感上色算法DDColor ICCV2023论文深入解读

AIGC视频生成/编辑技术调研报告

AIGC玩转卡通化技术实践

AIGC图像分辨率太低？快来试试像素感知扩散超分模型，你想要的细节都在这里

OpenVI-感知理解系列之GAP骨骼点动作识别 ICCV23顶会论文深入解读

港大阿里“视觉AI任意门”，一键向场景中无缝传送物体

本地生活技术雷达——生成式AI（Generative AI）在阿里本地生活的应用与思考

机器视觉公司有哪些：国产平台德创引领产教融合

机器视觉公司有哪些：德创测控引领，产教融合优选指南​

机器视觉软件平台哪个好：2025领衔的选型指南

高效率办公PDF批量处理：批量OCR识别PDF区域文字内容，用PDF内容批量改名或导出表格的货物运单应用案例

pytorch基于AnimeFace128数据集训练DCGAN

Python图片上采样工具 - RealESRGANer

AI Ping：精准可靠的大模型服务性能评测平台

OBS美颜美肌插件安装使用教程

Baumer工业相机堡盟工业相机如何通过YoloV8深度学习模型实现裂缝的检测识别（C#代码UI界面版）

【繁体图片文字识别】竖排的繁体图片文字识别翻译，竖排的繁体图片文字如何识别，竖排繁体图片识别后转横排，竖排的繁体识别比较友好的方法

AI视觉新突破：多角度理解3D世界的算法原理全解析

集成vl模型到dify响应无法终止

dashscope

【PDF提取内容改名】批量提取PDF指定区域内容重命名PDF文件，PDF自动提取内容命名的方案和详细步骤

百炼平台千问大模型图片识别问题

调用【身份证OCR文字】接口返回403(Forbidden)

TsingtaoAI具身智能机器人开发套件及实训方案

利用openvino模型推理图片

智创 AI 新视界 -- 提升 AI 推理速度的高级方法（16 - 2）

智创 AI 新视界 -- 优化 AI 模型训练效率的策略与技巧（16 - 1）

OCR识别报错检测不到我的包，是为什么？

TeaScript数值书写规则

TeaScript IDE集成开发环境

TVM虚拟机应用实例

快瞳犬种识别效果图示，120种狗品种精准覆盖

求助：找一个用于图像扫描文件矫正的开源模型

我开发了一个网页设计制作软件，可把网页设计图中UI分割出来，但人手很慢，想用图片识别方法自动分割？

C++20之2025年上桌我坐哪里？

JT1078和GB28181差别在哪里？

Android平台GB28181执法记录仪技术方案与实现

H.264语法结构分析之frame_cropping_flag

[对话音视频牛哥]送给初入职场的程序员：不忘初心，砥砺前行

如何在Python下实现摄像头|屏幕|AI视觉算法数据的RTMP直播推送

基于大牛直播SDK的无纸化同屏会议与智慧教室技术方案

视觉智能

活跃用户

相关产品

通义妙谈 -图像模型玩转更多可能！通义万相新升级一个包罗万象的“应用广场”！

机器视觉公司有哪些：德创测控引领，产教融合优选指南