视觉智能-官方博客-第12页-阿里云开发者社区

三分钟热度的鱼

|

文字识别

|

博文

印刷文字识别产品使用合集之识别营业执照时，如果企业名称中有中英文括号，请问是统一转换为英文括号返回还是按实际的括号类型返回

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

282 1 1

来自：文字识别版块

三分钟热度的鱼

|

文字识别开发工具数据安全/隐私保护

|

博文

印刷文字识别产品使用合集之可以识别一张电子发票有多页（多张图片，或者一个PDF文件）的这种发票吗

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

371 4 4

来自：文字识别版块

三分钟热度的鱼

|

文字识别自然语言处理开发工具

|

博文

印刷文字识别产品使用合集之OCR统一识别功能已开通，响应为200但没有content信息，是什么原因

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

217 5 5

来自：文字识别版块

三分钟热度的鱼

|

人工智能文字识别达摩院

|

博文

印刷文字识别产品使用合集之身份证是如何识别的

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

249 1 1

来自：文字识别版块

三分钟热度的鱼

|

机器学习/深度学习数据采集文字识别

|

博文

印刷文字识别产品使用合集之需要对子用户加什么权限，才能通过API访问

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

211 1 1

来自：文字识别版块

三分钟热度的鱼

|

文字识别

|

博文

印刷文字识别产品使用合集之识别不准确，该如何优化

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

277 1 1

来自：文字识别版块

三分钟热度的鱼

|

文字识别测试技术

|

博文

印刷文字识别产品使用合集之阿里云通用文字识别和文字识别有啥区别

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

266 1 1

来自：文字识别版块

三分钟热度的鱼

|

文字识别算法

|

博文

印刷文字识别产品使用合集之支持识别图片吗

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

179 2 2

来自：文字识别版块

三分钟热度的鱼

|

文字识别安全网络安全

|

博文

印刷文字识别产品使用合集之一般包含什么信息, 会被认为敏感信息

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

1269 1 1

来自：文字识别版块

三分钟热度的鱼

|

文字识别

|

博文

印刷文字识别产品使用合集之支持车牌识别吗

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

189 1 1

来自：文字识别版块

三分钟热度的鱼

|

文字识别 API

|

博文

印刷文字识别产品使用合集之使用时遇到了没有响应的情况，是什么原因

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

150 1 1

来自：文字识别版块

三分钟热度的鱼

|

文字识别 API

|

博文

印刷文字识别产品使用合集之怎么识别消毒产品生产企业卫生许可证

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

170 1 1

来自：文字识别版块

三分钟热度的鱼

|

文字识别安全 API

|

博文

印刷文字识别产品使用合集之不想通过读取图片二进制文件的方式来传入图片内容，如何进行图片内容识别

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

263 1 1

来自：文字识别版块

三分钟热度的鱼

|

文字识别 API 开发工具

|

博文

印刷文字识别产品使用合集之如何获取到识别结果

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

215 0 0

来自：文字识别版块

三分钟热度的鱼

|

编解码文字识别

|

博文

印刷文字识别产品使用合集之文字大小在多少个像素范围内比较适合ocr

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

354 1 1

来自：文字识别版块

三分钟热度的鱼

|

文字识别算法 API

|

博文

印刷文字识别产品使用合集之适合解析图表吗

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

188 3 3

来自：文字识别版块

三分钟热度的鱼

|

文字识别 API 开发工具

|

博文

印刷文字识别产品使用合集之遇到的空格位置不准确的问题，该如何优化

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

200 1 1

来自：文字识别版块

三分钟热度的鱼

|

文字识别

|

博文

印刷文字识别产品使用合集之能否实现只返回手写字不返回印刷字

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

176 1 1

来自：文字识别版块

三分钟热度的鱼

|

文字识别算法

|

博文

印刷文字识别产品使用合集之开通了阿里云发票识别验真功能，其他人可以调用我的这个接口吗

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

242 1 1

来自：文字识别版块

三分钟热度的鱼

|

文字识别

|

博文

印刷文字识别产品使用合集之遇到生僻字无法识别的情况，该怎么办

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

333 1 1

来自：文字识别版块

三分钟热度的鱼

|

文字识别 IDE 开发工具

|

博文

印刷文字识别产品使用合集之有印章影响时，日期一直识别不完整，有什么解决办法吗

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

242 1 1

来自：文字识别版块

三分钟热度的鱼

|

文字识别 API 开发工具

|

博文

印刷文字识别产品使用合集之如何进行私有化部署

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

377 1 1

来自：文字识别版块

三分钟热度的鱼

|

弹性计算文字识别

|

博文

印刷文字识别产品使用合集之如何查看AppCode

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

203 1 1

来自：文字识别版块

三分钟热度的鱼

|

文字识别 API 开发工具

|

博文

印刷文字识别产品使用合集之SDK支持ruby语言吗

印刷文字识别产品，通常称为OCR（Optical Character Recognition）技术，是一种将图像中的印刷或手写文字转换为机器编码文本的过程。这项技术广泛应用于多个行业和场景中，显著提升文档处理、信息提取和数据录入的效率。以下是印刷文字识别产品的一些典型使用合集。

530 1 1

来自：文字识别版块

opencv学堂

|

人工智能算法 Ubuntu

|

博文

【案例实战】基于OpenCV实现鹿茸面积计算

有人询问如何计算鹿茸蜡皮面积占比。利用OpenCV实验大师工具软件，经过图像处理步骤（包括边缘检测、轮廓识别），成功计算出两个区域的面积，展示了一步到位的OpenCV解决方案。OEMTS软件旨在促进数字图像处理教学，助力成为合格的OpenCV开发者。详情见课程链接和OEMTS安装指南。

256 0 0

蓝易云

|

Ubuntu

|

博文

蓝易云 - Ubuntu18.04安装编译ffmpeg库

现在，你应该已经在你的Ubuntu 18.04系统上成功安装和编译了FFmpeg库。你可以通过运行 `ffmpeg -version`来验证安装是否成功。

660 0 0

蓝易云

|

存储安全数据库

|

博文

蓝易云 - Nexus2迁移升级到Nexus3

请注意，这只是一个基本的迁移步骤，具体的步骤可能会根据你的具体情况有所不同。在进行迁移之前，你应该仔细阅读Sonatype的官方迁移指南，并确保你理解所有的步骤和可能的风险。

624 1 1

q5wwipzngp7oq

|

前端开发异构计算 API

|

博文

探索Stable Diffusion：从零开始的代码接入创意图像生成指南

探索Stable Diffusion，了解这一图像生成技术，适用于创意设计、内容生成和前端应用。本文从基本概念到实战，教你如何用Python和相关库搭建环境，通过GPU加速，生成基于文本提示的图像。学习多样性和风格融合技巧，解决实践中遇到的问题，如内存溢出和图像模糊。前端开发者可将模型部署为API，实现实时动态图像生成，提升用户体验。一起发掘Stable Diffusion在艺术和设计领域的无限潜力！

963 2 2

aqi00

|

Linux 编解码 Python

|

博文

FFmpeg开发笔记（二十四）Linux环境给FFmpeg集成AV1的编解码器

AV1是一种高效免费的视频编码标准，由AOM联盟制定，相比H.265压缩率提升约27%。各大流媒体平台倾向使用AV1。本文介绍了如何在Linux环境下为FFmpeg集成AV1编解码库libaom、libdav1d和libsvtav1。涉及下载源码、配置、编译和安装步骤，包括设置环境变量以启用这三个库。

1878 3 4

来自：视频分割版块

aqi00

|

编解码 Linux iOS开发

|

博文

FFmpeg开发笔记（二十三）使用OBS Studio开启RTMP直播推流

OBS（Open Broadcaster Software）是一款开源、跨平台的直播和和Linux。官网为<https://obsproject.com/>。要使用OBS进行直播，需执行四步：1) 下载并安装OBS Studio（<https://obsproject.com/download>），2) 启动流媒体服务器如MediaMTX，生成RTMP推流地址，3) 打开OBS Studio，设置直播服务为自定义RTMP服务器（127.0.0.1:1935/stream），调整视频分辨率，4) 添加视频来源并开始直播。同时，通过FFmpeg的拉流程序验证直播功能正常。

3185 4 4

来自：视频分割版块

长发和小虎牙

|

机器学习/深度学习算法计算机视觉

|

博文

YOLOv8改进 | 注意力机制 | 添加双重注意力机制 DoubleAttention【附完整代码+小白必备】

在这个教程中，作者介绍了如何在YOLOv8图像识别模型中集成DoubleAttention模块，以提升模型捕捉长距离关系的效率。DoubleAttention通过全局和局部注意力模块捕获图像的全局和局部信息。教程详细阐述了DoubleAttention的工作原理，并提供了相应的代码实现。读者将学习到如何在YOLOv8的网络结构中添加这一组件，并给出了完整的代码示例。此外，还分享了GFLOPs的计算，以及鼓励读者尝试在不同位置添加注意力机制作为进阶练习。完整代码和更多详情可在提供的链接中获取。

1973 0 0

长发和小虎牙

|

机器学习/深度学习算法计算机视觉

|

博文

YOLOv8 | 卷积模块 | 提高网络的灵活性和表征能力的动态卷积【附代码+小白可上手】

本教程介绍了如何在YOLOv8中使用动态卷积提升网络性能和灵活性。动态卷积利用注意力机制动态选择和组合卷积核，适应输入数据特征，解决了轻量级CNN的局限。文中提供了详细步骤教读者如何添加和修改代码，包括在`conv.py`中添加`Dynamic_conv2d`模块，更新`init.py`、`task.py`和`yaml`配置文件。此外，还分享了完整代码和进阶技巧，帮助深度学习初学者实践目标检测。参考[YOLOv8改进](https://blog.csdn.net/m0_67647321/category_12548649.html)专栏获取更多详情。

1174 0 0

aqi00

|

博文

FFmpeg开发笔记（二十二）FFmpeg中SAR与DAR的显示宽高比

《FFmpeg开发实战》书中指出，视频宽高处理需考虑采样宽高比(SAR)，像素宽高比(PAR)和显示宽高比(DAR)。SAR对应AVCodecParameters的sample_aspect_ratio，PAR为width/height。当SAR的num与den不为1时，需计算DAR以正确显示视频。书中提供了转换公式和代码示例，通过SAR或DAR调整视频尺寸。在修正后的playsync2.c程序中，成功调整了meg.vob视频的比例，实现了正确的画面显示。

576 0 0

来自：视频分割版块

长发和小虎牙

|

机器学习/深度学习算法计算机视觉

|

博文

YOLOv5 | 卷积模块 | 即插即用的可变核卷积AKConv【附代码+小白可上手】

本文介绍了YOLOv5模型的一个改进，即使用AKConv替代标准卷积以提高目标检测效果。AKConv允许卷积核有任意数量的参数和采样形状，增强了对不同目标形状和大小的适应性。教程详细讲解了AKConv的原理，提供了代码实现步骤，包括如何将AKConv添加到YOLOv5中，并给出了相关代码片段。此外，还分享了完整的YOLOv5 AKConv实现代码和GFLOPs计算，鼓励读者动手实践。通过这一改进，网络在保持性能的同时增加了灵活性。

1138 3 3

aqi00

|

编解码 5G Linux

|

博文

FFmpeg开发笔记（二十一）Windows环境给FFmpeg集成AVS3解码器

AVS3是中国首个8K及5G视频编码标准，相比AVS2和HEVC性能提升约30%。解码器libuavs3d支持8K/60P视频实时解码，兼容多种平台。《FFmpeg开发实战》书中介绍了在Windows环境下如何集成libuavs3d到FFmpeg。集成步骤包括下载源码、使用Visual Studio 2022编译、调整配置、安装库文件和头文件，以及重新配置和编译FFmpeg以启用libuavs3d。

1030 0 0

来自：视频分割版块

老乡别走

|

文字识别

|

博文

分享：如何ocr识别身份证复印件并导出至excel表格 ? 图片批量识别导出excel表格应用，图片批量识别转excel表格的方法

该软件是一款OCR身份证识别工具，能批量处理图片，自动提取身份证信息并导出为Excel。支持百度网盘和腾讯云盘下载。用户界面直观，操作简单，适合新手。识别过程包括：打开图片、一键识别、导出结果。特别注意，此程序仅适用于身份证识别，不适用于其他类型的图片识别。

2525 1 1

来自：文字识别版块

长发和小虎牙

|

机器学习/深度学习编解码算法

|

博文

YOLOv8改进 | 主干网络 | 增加网络结构增强小目标检测能力【独家创新——附结构图】

YOLOv8在小目标检测上存在挑战，因卷积导致信息丢失。本文教程将原网络结构替换为更适合小目标检测的backbone，并提供结构图。通过讲解原理和手把手教学，指导如何修改代码，提供完整代码实现，适合新手实践。文章探讨了大特征图对小目标检测的重要性，如细节保留、定位精度、特征丰富度和上下文信息，并介绍了FPN等方法。YOLOv8流程包括预处理、特征提取、融合和检测。修改后的网络结构增加了上采样和concatenate步骤，以利用更大特征图检测小目标。完整代码和修改后的结构图可在文中链接获取。

10905 2 2

长发和小虎牙

|

机器学习/深度学习算法计算机视觉

|

博文

YOLOv8改进 | 融合模块 | 用Resblock+CBAM卷积替换Conv【轻量化网络】

在这个教程中，介绍了如何将YOLOv8的目标检测模型改进，用Resblock+CBAM替换原有的卷积层。Resblock基于ResNet的残差学习思想，减少信息丢失，而CBAM是通道和空间注意力模块，增强网络对特征的感知。教程详细解释了ResNet和CBAM的原理，并提供了代码示例展示如何在YOLOv8中实现这一改进。此外，还给出了新增的yaml配置文件示例以及如何注册模块和执行程序。作者分享了完整的代码，并对比了改进前后的GFLOPs计算量，强调了这种改进在提升性能的同时可能增加计算需求。教程适合深度学习初学者实践和提升YOLO系列模型的性能。

4572 1 1

长发和小虎牙

|

机器学习/深度学习编解码算法

|

博文

YOLOv5改进 | 主干网络 | 用EfficientNet卷积替换backbone【教程+代码】

在YOLOv5的GFLOPs计算量中，卷积占了其中大多数的比列，为了减少计算量，研究人员提出了用EfficientNet代替backbone。本文给大家带来的教程是**将原来的主干网络替换为EfficientNet。文章在介绍主要的原理后，将手把手教学如何进行模块的代码添加和修改，并将修改后的完整代码放在文章的最后，方便大家一键运行，小白也可轻松上手实践。以帮助您更好地学习深度学习目标检测YOLO系列的挑战。

1248 3 4

长发和小虎牙

|

机器学习/深度学习算法固态存储

|

博文

深度学习算法工程师面试问题总结| 深度学习目标检测岗位面试总结

本文给大家带来的百面算法工程师是深度学习目标检测岗位面试总结，文章内总结了常见的提问问题，旨在为广大学子模拟出更贴合实际的面试问答场景。在这篇文章中，我们还将介绍一些常见的深度学习目标检测面试问题，并提供参考的回答及其理论基础，以帮助求职者更好地准备面试。通过对这些问题的理解和回答，求职者可以展现出自己的深度学习目标检测领域的专业知识、解决问题的能力以及对实际应用场景的理解。同时，这也是为了帮助求职者更好地应对深度学习目标检测岗位的面试挑战，提升面试的成功率和竞争力。

914 3 3

长发和小虎牙

|

机器学习/深度学习编解码算法

|

博文

算法工程师面试问题总结 | YOLOv5面试考点原理全解析

本文给大家带来的百面算法工程师是深度学习目标检测YOLOv5面试总结，文章内总结了常见的提问问题，旨在为广大学子模拟出更贴合实际的面试问答场景。在这篇文章中，我们还将介绍一些常见的深度学习目标检测面试问题，并提供参考的回答及其理论基础，以帮助求职者更好地准备面试。通过对这些问题的理解和回答，求职者可以展现出自己的深度学习目标检测领域的专业知识、解决问题的能力以及对实际应用场景的理解。同时，这也是为了帮助求职者更好地应对深度学习目标检测岗位的面试挑战，提升面试的成功率和竞争力。

3163 4 5

长发和小虎牙

|

机器学习/深度学习编解码边缘计算

|

博文

YOLOv5改进 | 卷积模块 | 用ShuffleNetV2卷积替换Conv【轻量化网络】

本文介绍了如何在YOLOv5中用ShuffleNetV2替换卷积以减少计算量。ShuffleNetV2是一个轻量级网络，采用深度可分离卷积、通道重组和多尺度特征融合技术。文中提供了一个逐步教程，包括ShuffleNetV2模块的代码实现和在YOLOv5配置文件中的添加方法。此外，还分享了完整的代码链接和GFLOPs的比较，显示了GFLOPs的显著减少。该教程适合初学者实践，以提升深度学习目标检测技能。

1325 7 7

长发和小虎牙

|

机器学习/深度学习编解码算法

|

博文

YOLOv5改进 | 主干网络 | 将backbone替换为MobileNetV3【小白必备教程+附完整代码】

本文介绍了将YOLOv5的backbone替换为MobileNetV3以提升目标检测性能的教程。MobileNetV3采用倒残差结构、Squeeze-and-Excitation模块和Hard-Swish激活函数，实现更高性能和更低计算成本。文中提供了详细的代码实现，包括MobileNetV3的关键组件和YOLOv5的配置修改，便于读者实践。此外，还分享了完整代码链接和进一步的进阶策略，适合深度学习初学者和进阶者学习YOLO系列。

1698 7 8

aqi00

|

编解码 Linux 5G

|

博文

FFmpeg开发笔记（二十）Linux环境给FFmpeg集成AVS3解码器

AVS3，中国制定的第三代音视频标准，是首个针对8K和5G的视频编码标准，相比AVS2和HEVC性能提升约30%。uavs3d是AVS3的解码器，支持8K/60P实时解码，且在各平台有优秀表现。要为FFmpeg集成AVS3解码器libuavs3d，需从GitHub下载最新源码，解压后配置、编译和安装。之后，重新配置FFmpeg，启用libuavs3d并编译安装，通过`ffmpeg -version`确认成功集成。

969 0 0

来自：视频分割版块

aqi00

|

存储缓存调度

|

博文

FFmpeg开发笔记（十九）FFmpeg开启两个线程分别解码音视频

《FFmpeg开发实战》第10章示例playsync.c在处理音频流和视频流交错的文件时能实现同步播放，但对于分开存储的格式，会出现先播放全部声音再快速播放视频的问题。为解决此问题，需改造程序，增加音频处理线程和队列，以及相关锁，先将音视频帧读入缓存，再按时间戳播放。改造包括声明新变量、初始化线程和锁、修改数据包处理方式等。代码修改后在playsync2.c中，编译运行成功，控制台显示日志，SDL窗口播放视频并同步音频，证明改造有效。

570 0 0

来自：视频分割版块

蓝易云

|

Linux Docker 容器

|

博文

查看主机上是否有docker - 蓝易云

如果Docker已经安装，这个命令将返回Docker的版本信息。如果没有安装Docker，系统将返回一个错误消息。

476 4 4

真的很搞笑

|

文字识别 API 开发工具

|

博文

印刷文字操作报错合集之报错403如何解决

在使用印刷文字识别（OCR）技术过程中，可能会遇到各种错误或问题。以下是一些常见的报错情况及其可能的原因和解决建议。包括但不限于：1.识别率低，错误多、2.无法识别特定字符或字体、3.文件格式不支持、4.内存或资源不足、5.网络连接问题、6.API调用限制或授权问题、7.语言识别错误、8.安全与隐私问题。

339 0 0

来自：文字识别版块

真的很搞笑

|

文字识别算法 Java

|

博文

印刷文字识别产品使用合集之证件规格不统一，可以用全文识别吗

印刷文字识别（Optical Character Recognition, OCR）技术能够将图片、扫描文档或 PDF 中的印刷文字转化为可编辑和可搜索的数据。这项技术广泛应用于多个领域，以提高工作效率、促进信息数字化。以下是一些印刷文字识别产品使用的典型场景合集。

194 0 0

来自：文字识别版块

真的很搞笑

|

编解码文字识别安全

|

博文

印刷文字操作报错合集之出现“图片和服务类型不匹配”，该怎么解决

在使用印刷文字识别（OCR）技术过程中，可能会遇到各种错误或问题。以下是一些常见的报错情况及其可能的原因和解决建议。包括但不限于：1.识别率低，错误多、2.无法识别特定字符或字体、3.文件格式不支持、4.内存或资源不足、5.网络连接问题、6.API调用限制或授权问题、7.语言识别错误、8.安全与隐私问题。

1127 0 0

来自：文字识别版块

真的很搞笑

|

文字识别

|

博文

印刷文字识别产品使用合集之证件扫描的置信度字段，这个有什么用

印刷文字识别（Optical Character Recognition, OCR）技术能够将图片、扫描文档或 PDF 中的印刷文字转化为可编辑和可搜索的数据。这项技术广泛应用于多个领域，以提高工作效率、促进信息数字化。以下是一些印刷文字识别产品使用的典型场景合集。

207 0 0

来自：文字识别版块

最新

通义万相

官方博客

问答

视频

印刷文字识别产品使用合集之 识别营业执照时，如果企业名称中有中英文括号，请问是统一转换为英文括号返回还是按实际的括号类型返回

印刷文字识别产品使用合集之可以识别一张电子发票有多页（多张图片，或者一个PDF文件）的这种发票吗

印刷文字识别产品使用合集之OCR统一识别功能已开通，响应为200但没有content信息，是什么原因

印刷文字识别产品使用合集之身份证是如何识别的

印刷文字识别产品使用合集之需要对子用户加什么权限，才能通过API访问

印刷文字识别产品使用合集之识别不准确，该如何优化

印刷文字识别产品使用合集之阿里云通用文字识别和文字识别有啥区别

印刷文字识别产品使用合集之支持识别图片吗

印刷文字识别产品使用合集之一般包含什么信息, 会被认为敏感信息

印刷文字识别产品使用合集之支持车牌识别吗

印刷文字识别产品使用合集之使用时遇到了没有响应的情况，是什么原因

印刷文字识别产品使用合集之怎么识别消毒产品生产企业卫生许可证

印刷文字识别产品使用合集之不想通过读取图片二进制文件的方式来传入图片内容，如何进行图片内容识别

印刷文字识别产品使用合集之如何获取到识别结果

印刷文字识别产品使用合集之文字大小在多少个像素范围内比较适合ocr

印刷文字识别产品使用合集之适合解析图表吗

印刷文字识别产品使用合集之遇到的空格位置不准确的问题，该如何优化

印刷文字识别产品使用合集之能否实现只返回手写字不返回印刷字

印刷文字识别产品使用合集之开通了阿里云发票识别验真功能，其他人可以调用我的这个接口吗

印刷文字识别产品使用合集之遇到生僻字无法识别的情况，该怎么办

印刷文字识别产品使用合集之有印章影响时，日期一直识别不完整，有什么解决办法吗

印刷文字识别产品使用合集之如何进行私有化部署

印刷文字识别产品使用合集之如何查看AppCode

印刷文字识别产品使用合集之SDK支持ruby语言吗

【案例实战】 基于OpenCV实现鹿茸面积计算

蓝易云 - Ubuntu18.04安装编译ffmpeg库

蓝易云 - Nexus2迁移升级到Nexus3

探索Stable Diffusion：从零开始的代码接入创意图像生成指南

FFmpeg开发笔记（二十四）Linux环境给FFmpeg集成AV1的编解码器

FFmpeg开发笔记（二十三）使用OBS Studio开启RTMP直播推流

YOLOv8改进 | 注意力机制 | 添加双重注意力机制 DoubleAttention【附完整代码+小白必备】

YOLOv8 | 卷积模块 | 提高网络的灵活性和表征能力的动态卷积【附代码+小白可上手】

FFmpeg开发笔记（二十二）FFmpeg中SAR与DAR的显示宽高比

YOLOv5 | 卷积模块 | 即插即用的可变核卷积AKConv【附代码+小白可上手】

FFmpeg开发笔记（二十一）Windows环境给FFmpeg集成AVS3解码器

分享：如何ocr识别身份证复印件并导出至excel表格 ? 图片批量识别导出excel表格应用，图片批量识别转excel表格的方法

YOLOv8改进 | 主干网络 | 增加网络结构增强小目标检测能力【独家创新——附结构图】

YOLOv8改进 | 融合模块 | 用Resblock+CBAM卷积替换Conv【轻量化网络】

YOLOv5改进 | 主干网络 | 用EfficientNet卷积替换backbone【教程+代码 】

深度学习算法工程师面试问题总结| 深度学习目标检测岗位面试总结

算法工程师面试问题总结 | YOLOv5面试考点原理全解析

YOLOv5改进 | 卷积模块 | 用ShuffleNetV2卷积替换Conv【轻量化网络】

YOLOv5改进 | 主干网络 | 将backbone替换为MobileNetV3【小白必备教程+附完整代码】

FFmpeg开发笔记（二十）Linux环境给FFmpeg集成AVS3解码器

FFmpeg开发笔记（十九）FFmpeg开启两个线程分别解码音视频

查看主机上是否有docker - 蓝易云

印刷文字操作报错合集之报错403如何解决

印刷文字识别产品使用合集之证件规格不统一，可以用全文识别吗

印刷文字操作报错合集之出现“图片和服务类型不匹配”，该怎么解决

印刷文字识别产品使用合集之证件扫描的置信度字段，这个有什么用

视觉智能

活跃用户

相关产品

印刷文字识别产品使用合集之识别营业执照时，如果企业名称中有中英文括号，请问是统一转换为英文括号返回还是按实际的括号类型返回

【案例实战】基于OpenCV实现鹿茸面积计算

YOLOv5改进 | 主干网络 | 用EfficientNet卷积替换backbone【教程+代码】