视觉智能开放平台

首页 标签 视觉智能开放平台
OCR文字识别技术总结(二)
总结: 以上第一部分介绍我国OCR发展历程,从过程中可以发现,我国的光学字符识别研究相对国外起步较晚,但是发展十分迅速。从早期简单的单体识别发展到多种字体混合排列的多体识别,从中文印刷材料的识别发展到中英文混排印刷材料的双语言识别, 目前各个系统都可以支持简、繁体汉字的识别,同时支持中, 英,韩等多国文字的识别系统,对于简单版面可以进行效的定量分析,同时汉字识别率已经可以达到98%以上,以下第二部分将从不同字体展开对OCR技术描述。
YOLOv5改进 | 主干网络 | 用EfficientNet卷积替换backbone【教程+代码 】
在YOLOv5的GFLOPs计算量中,卷积占了其中大多数的比列,为了减少计算量,研究人员提出了用EfficientNet代替backbone。本文给大家带来的教程是**将原来的主干网络替换为EfficientNet。文章在介绍主要的原理后,将手把手教学如何进行模块的代码添加和修改,并将修改后的完整代码放在文章的最后,方便大家一键运行,小白也可轻松上手实践。以帮助您更好地学习深度学习目标检测YOLO系列的挑战。
【图片条形码识别重命名】如何批量识别条形码重命名图片,条形码条码识别批量识别快递单据条码并以条码重命名的方法
该文介绍了一个高效的方法来对快递单照片进行数字重命名,通过识别图片中的条形码。方案包括使用Zbar识别引擎读取Code128类型的条形码,然后使用一款条形码识别工具批量处理图片。工具支持导入单个文件或文件夹,一键识别条形码并自动重命名。识别结果在日志中显示,未识别的图片会被保存到单独文件夹,提高工作效率。文章末尾提供了免费软件下载链接。
FFmpeg开发笔记(三十八)APP如何访问SRS推流的RTMP直播地址
《FFmpeg开发实战》书中介绍了轻量级流媒体服务器MediaMTX,适合测试RTSP/RTMP协议,但不适用于复杂直播场景。SRS是一款强大的开源流媒体服务器,支持多种协议,起初为RTMP,现扩展至HLS、SRT等。在FFmpeg 6.1之前,推送给SRS的HEVC流不受支持。要播放RTMP流,Android应用可使用ExoPlayer,需在`build.gradle`导入ExoPlayer及RTMP扩展,并根据URL类型创建MediaSource。若SRS播放黑屏,需在配置文件中开启`gop_cache`以缓存关键帧。
Pippo:Meta放出AI大招!单张照片秒转3D人像多视角视频,AI自动补全身体细节
Pippo 是 Meta 推出的图像到视频生成模型,能够从单张照片生成 1K 分辨率的多视角高清人像视频,支持全身、面部或头部的生成。
TaoAvatar:手机拍出电影级虚拟人!阿里3D高斯黑科技让动捕设备下岗
阿里巴巴最新推出的TaoAvatar技术,通过3D高斯溅射实现照片级虚拟人实时渲染,支持多信号驱动与90FPS流畅运行,将彻底改变电商直播与远程会议体验。
免费试用