视觉智能开放平台

首页 标签 视觉智能开放平台
OCR文字识别方法综述
摘 要:文字识别可以把海量非结构化数据转换为结构化数据,从而支撑各种创新的人工智能应用,是计算机视觉研究领域的分支之一,其任务是识别出图像中的文字内容,一般输入来自于文本检测得到的文本框截取出的图像文字区域。近几年来,基于深度学习的文字识别算法模型已取得不错成果,其过程无需进行特征处理且可以实现复杂场景文字识别,效果要优于传统文字识别方法,逐渐成为文字识别研究应用的主流方式。本文将主要介绍基于深度学习的文字识别技术综述,分类总结主流文字识别经典算法,讨论未来文字识别领域发展与研究趋势。
FFmpeg开发笔记(二十)Linux环境给FFmpeg集成AVS3解码器
AVS3,中国制定的第三代音视频标准,是首个针对8K和5G的视频编码标准,相比AVS2和HEVC性能提升约30%。uavs3d是AVS3的解码器,支持8K/60P实时解码,且在各平台有优秀表现。要为FFmpeg集成AVS3解码器libuavs3d,需从GitHub下载最新源码,解压后配置、编译和安装。之后,重新配置FFmpeg,启用libuavs3d并编译安装,通过`ffmpeg -version`确认成功集成。
FFmpeg开发笔记(三十)解析H.264码流中的SPS帧和PPS帧
《FFmpeg开发实战》书中介绍了音视频编码历史,重点讲述H.264的成功在于其分为视频编码层和网络抽象层。H.264帧类型包括SPS(序列参数集,含视频规格参数),PPS(图像参数集,含编码参数)和IDR帧(立即解码刷新,关键帧)。SPS用于计算视频宽高和帧率,PPS存储编码设置,IDR帧则标志新的解码序列。书中还配以图片展示各帧结构详情,完整内容可参考相关书籍。
免费试用