视觉智能开放平台

首页 标签 视觉智能开放平台
【图片条形码识别重命名】如何批量识别条形码重命名图片,条形码条码识别批量识别快递单据条码并以条码重命名的方法
该文介绍了一个高效的方法来对快递单照片进行数字重命名,通过识别图片中的条形码。方案包括使用Zbar识别引擎读取Code128类型的条形码,然后使用一款条形码识别工具批量处理图片。工具支持导入单个文件或文件夹,一键识别条形码并自动重命名。识别结果在日志中显示,未识别的图片会被保存到单独文件夹,提高工作效率。文章末尾提供了免费软件下载链接。
|
4天前
| |
来自: 视觉智能
YOLOv5改进 | 主干网络 | 用EfficientNet卷积替换backbone【教程+代码 】
在YOLOv5的GFLOPs计算量中,卷积占了其中大多数的比列,为了减少计算量,研究人员提出了用EfficientNet代替backbone。本文给大家带来的教程是**将原来的主干网络替换为EfficientNet。文章在介绍主要的原理后,将手把手教学如何进行模块的代码添加和修改,并将修改后的完整代码放在文章的最后,方便大家一键运行,小白也可轻松上手实践。以帮助您更好地学习深度学习目标检测YOLO系列的挑战。
|
5天前
| |
来自: 视觉智能
深度学习算法工程师面试问题总结| 深度学习目标检测岗位面试总结
本文给大家带来的百面算法工程师是深度学习目标检测岗位面试总结,文章内总结了常见的提问问题,旨在为广大学子模拟出更贴合实际的面试问答场景。在这篇文章中,我们还将介绍一些常见的深度学习目标检测面试问题,并提供参考的回答及其理论基础,以帮助求职者更好地准备面试。通过对这些问题的理解和回答,求职者可以展现出自己的深度学习目标检测领域的专业知识、解决问题的能力以及对实际应用场景的理解。同时,这也是为了帮助求职者更好地应对深度学习目标检测岗位的面试挑战,提升面试的成功率和竞争力。
|
7天前
| |
来自: 视觉智能
YOLOv5改进 | 主干网络 | 将backbone替换为MobileNetV3【小白必备教程+附完整代码】
本文介绍了将YOLOv5的backbone替换为MobileNetV3以提升目标检测性能的教程。MobileNetV3采用倒残差结构、Squeeze-and-Excitation模块和Hard-Swish激活函数,实现更高性能和更低计算成本。文中提供了详细的代码实现,包括MobileNetV3的关键组件和YOLOv5的配置修改,便于读者实践。此外,还分享了完整代码链接和进一步的进阶策略,适合深度学习初学者和进阶者学习YOLO系列。
|
7天前
| |
来自: 视觉智能
FFmpeg开发笔记(二十)Linux环境给FFmpeg集成AVS3解码器
AVS3,中国制定的第三代音视频标准,是首个针对8K和5G的视频编码标准,相比AVS2和HEVC性能提升约30%。uavs3d是AVS3的解码器,支持8K/60P实时解码,且在各平台有优秀表现。要为FFmpeg集成AVS3解码器libuavs3d,需从GitHub下载最新源码,解压后配置、编译和安装。之后,重新配置FFmpeg,启用libuavs3d并编译安装,通过`ffmpeg -version`确认成功集成。
|
8天前
| |
来自: 视觉智能
FFmpeg开发笔记(十九)FFmpeg开启两个线程分别解码音视频
《FFmpeg开发实战》第10章示例playsync.c在处理音频流和视频流交错的文件时能实现同步播放,但对于分开存储的格式,会出现先播放全部声音再快速播放视频的问题。为解决此问题,需改造程序,增加音频处理线程和队列,以及相关锁,先将音视频帧读入缓存,再按时间戳播放。改造包括声明新变量、初始化线程和锁、修改数据包处理方式等。代码修改后在playsync2.c中,编译运行成功,控制台显示日志,SDL窗口播放视频并同步音频,证明改造有效。
|
10天前
| |
来自: 视觉智能
印刷文字操作报错合集之报错403如何解决
在使用印刷文字识别(OCR)技术过程中,可能会遇到各种错误或问题。以下是一些常见的报错情况及其可能的原因和解决建议。包括但不限于:1.识别率低,错误多、2.无法识别特定字符或字体、3.文件格式不支持、4.内存或资源不足、5.网络连接问题、6.API调用限制或授权问题、7.语言识别错误、8.安全与隐私问题。
|
10天前
| |
来自: 视觉智能
印刷文字识别产品使用合集之证件规格不统一,可以用全文识别吗
印刷文字识别(Optical Character Recognition, OCR)技术能够将图片、扫描文档或 PDF 中的印刷文字转化为可编辑和可搜索的数据。这项技术广泛应用于多个领域,以提高工作效率、促进信息数字化。以下是一些印刷文字识别产品使用的典型场景合集。
|
10天前
| |
来自: 视觉智能
印刷文字操作报错合集之出现“图片和服务类型不匹配”,该怎么解决
在使用印刷文字识别(OCR)技术过程中,可能会遇到各种错误或问题。以下是一些常见的报错情况及其可能的原因和解决建议。包括但不限于:1.识别率低,错误多、2.无法识别特定字符或字体、3.文件格式不支持、4.内存或资源不足、5.网络连接问题、6.API调用限制或授权问题、7.语言识别错误、8.安全与隐私问题。
|
10天前
| |
来自: 视觉智能
印刷文字识别产品使用合集之证件扫描的置信度字段,这个有什么用
印刷文字识别(Optical Character Recognition, OCR)技术能够将图片、扫描文档或 PDF 中的印刷文字转化为可编辑和可搜索的数据。这项技术广泛应用于多个领域,以提高工作效率、促进信息数字化。以下是一些印刷文字识别产品使用的典型场景合集。
免费试用