分割抠图

人脸人体

图像识别

免费试用

平台直达

视觉生产

产品文档

场景广场

内容审核

文字识别

视频

提个问题

API

问答

阿里云视觉智能开放平台的API服务Java SDK安装方法教程

168 1 0

已解决

提个问题

文字识别

问答

YOLOv8 | 卷积模块 | 提高网络的灵活性和表征能力的动态卷积【附代码+小白可上手】

本教程介绍了如何在YOLOv8中使用动态卷积提升网络性能和灵活性。动态卷积利用注意力机制动态选择和组合卷积核，适应输入数据特征，解决了轻量级CNN的局限。文中提供了详细步骤教读者如何添加和修改代码，包括在`conv.py`中添加`Dynamic_conv2d`模块，更新`init.py`、`task.py`和`yaml`配置文件。此外，还分享了完整代码和进阶技巧，帮助深度学习初学者实践目标检测。参考[YOLOv8改进](https://blog.csdn.net/m0_67647321/category_12548649.html)专栏获取更多详情。

1018 0 0

aqi00

博文

FFmpeg开发笔记（二十二）FFmpeg中SAR与DAR的显示宽高比

《FFmpeg开发实战》书中指出，视频宽高处理需考虑采样宽高比(SAR)，像素宽高比(PAR)和显示宽高比(DAR)。SAR对应AVCodecParameters的sample_aspect_ratio，PAR为width/height。当SAR的num与den不为1时，需计算DAR以正确显示视频。书中提供了转换公式和代码示例，通过SAR或DAR调整视频尺寸。在修正后的playsync2.c程序中，成功调整了meg.vob视频的比例，实现了正确的画面显示。

385 0 0

来自：视频分割版块

wenti

问答

应用研发平台EMAS中，APP是在线不是走阿里推送吗？怎么还走华为推送通道呢？

178 1 0

wenti

文字识别

问答

文字识别OCR中，想问下如果身份证上面有效期是“长期”，这种的识别出来的结束日期是什么？

186 2 0

wenti

文字识别

问答

文字识别OCR中，图片旋转识别，没有效果，怎么解决？

249 2 0

wenti

文字识别

问答

文字识别OCR中，新建身份证识别不了，驾驶证和身份证识别出来不是一个人，为什么？

134 1 0

wenti

文字识别

问答

文字识别OCR中，麻烦问一下OCR的AppCode如何获取呀？

131 2 0

wenti

文字识别

问答

文字识别OCR中，名片识别，没有网址，能加吗？名片识别现在返回的字段没有网址这个字段

97 2 0

wenti

文字识别

问答

文字识别OCR中，文字识别 OCR有一个体验计划授权我们想取消应该怎么设置?

160 2 0

wenti

文字识别

问答

文字识别OCR中，返回出来的文字块对象比文档多了几个值，分别代表了什么？

126 2 0

wenti

文字识别

问答

文字识别OCR中，是不是目前的模型还没有能力识别看懂题目，只能是靠题库？

112 2 0

wenti

文字识别

问答

文字识别OCR中，外卖小票识别用哪个接口好？

127 1 0

wenti

文字识别

问答

文字识别OCR中，文档里为什么没有这几个字段？

90 2 0

wenti

文字识别

问答

文字识别OCR中，有办法训练将两行的内容合并成一块区域内容吗?

204 1 0

wenti

UED 文字识别存储

问答

文字识别OCR中，退出用户体验改进计划就只能关对应的服务是么？

116 2 0

wenti

文字识别开发工具

问答

文字识别OCR中，OCR离线SDK接入的文档在哪能看到啊？

121 1 0

wenti

文字识别

问答

文字识别OCR中，这是什么问题？

89 0 0

wenti

文字识别

问答

文字识别OCR中，开通个人证照识别时授权的体验计划怎么可以退出呢?

145 2 0

wenti

文字识别

问答

文字识别OCR中，这种OCR 识别以这个电商图片为例，有办法将两行的内容合并成一块区域内容吗？

205 2 0

wenti

文字识别

问答

文字识别OCR中，数学里的函数和几何题目能识别吗？

192 2 0

wenti

文字识别

问答

文字识别OCR中，为什么识别不了？

179 1 0

wenti

文字识别

问答

文字识别OCR中，用OCR的PDF的KV模版，PDF中的列表和多页能够识别吗？

128 2 0

wenti

数据安全/隐私保护文字识别对象存储

问答

文字识别OCR中，这是是什么问题,我使用的阿里云OSS 添加了一些水印

121 2 0

长发和小虎牙

机器学习/深度学习算法计算机视觉

博文

YOLOv5 | 卷积模块 | 即插即用的可变核卷积AKConv【附代码+小白可上手】

本文介绍了YOLOv5模型的一个改进，即使用AKConv替代标准卷积以提高目标检测效果。AKConv允许卷积核有任意数量的参数和采样形状，增强了对不同目标形状和大小的适应性。教程详细讲解了AKConv的原理，提供了代码实现步骤，包括如何将AKConv添加到YOLOv5中，并给出了相关代码片段。此外，还分享了完整的YOLOv5 AKConv实现代码和GFLOPs计算，鼓励读者动手实践。通过这一改进，网络在保持性能的同时增加了灵活性。

973 3 3

aqi00

编解码 5G Linux

博文

FFmpeg开发笔记（二十一）Windows环境给FFmpeg集成AVS3解码器

AVS3是中国首个8K及5G视频编码标准，相比AVS2和HEVC性能提升约30%。解码器libuavs3d支持8K/60P视频实时解码，兼容多种平台。《FFmpeg开发实战》书中介绍了在Windows环境下如何集成libuavs3d到FFmpeg。集成步骤包括下载源码、使用Visual Studio 2022编译、调整配置、安装库文件和头文件，以及重新配置和编译FFmpeg以启用libuavs3d。

637 0 0

来自：视频分割版块

老乡别走

文字识别

博文

分享：如何ocr识别身份证复印件并导出至excel表格 ? 图片批量识别导出excel表格应用，图片批量识别转excel表格的方法

该软件是一款OCR身份证识别工具，能批量处理图片，自动提取身份证信息并导出为Excel。支持百度网盘和腾讯云盘下载。用户界面直观，操作简单，适合新手。识别过程包括：打开图片、一键识别、导出结果。特别注意，此程序仅适用于身份证识别，不适用于其他类型的图片识别。

1932 1 1

来自：文字识别版块

真的很搞笑

问答

"视觉智能平台在人脸搜索中匹配的列表中同一个人脸样本是只匹配一张人脸还是可能多张？

151 2 0

提个问题

API

问答

人脸信息脱敏API产品能力介绍

99 1 0

已解决

长发和小虎牙

机器学习/深度学习编解码算法

博文

YOLOv8改进 | 主干网络 | 增加网络结构增强小目标检测能力【独家创新——附结构图】

YOLOv8在小目标检测上存在挑战，因卷积导致信息丢失。本文教程将原网络结构替换为更适合小目标检测的backbone，并提供结构图。通过讲解原理和手把手教学，指导如何修改代码，提供完整代码实现，适合新手实践。文章探讨了大特征图对小目标检测的重要性，如细节保留、定位精度、特征丰富度和上下文信息，并介绍了FPN等方法。YOLOv8流程包括预处理、特征提取、融合和检测。修改后的网络结构增加了上采样和concatenate步骤，以利用更大特征图检测小目标。完整代码和修改后的结构图可在文中链接获取。

10125 2 2

长发和小虎牙

机器学习/深度学习算法计算机视觉

博文

YOLOv8改进 | 融合模块 | 用Resblock+CBAM卷积替换Conv【轻量化网络】

在这个教程中，介绍了如何将YOLOv8的目标检测模型改进，用Resblock+CBAM替换原有的卷积层。Resblock基于ResNet的残差学习思想，减少信息丢失，而CBAM是通道和空间注意力模块，增强网络对特征的感知。教程详细解释了ResNet和CBAM的原理，并提供了代码示例展示如何在YOLOv8中实现这一改进。此外，还给出了新增的yaml配置文件示例以及如何注册模块和执行程序。作者分享了完整的代码，并对比了改进前后的GFLOPs计算量，强调了这种改进在提升性能的同时可能增加计算需求。教程适合深度学习初学者实践和提升YOLO系列模型的性能。

4120 1 1

三分钟热度的鱼

文字识别

问答