OCR 图形识别技术, 主要应用领域 一些 识别一些网页内容, 监控系统, 鉴别人脸,估计得上深度学习了。 我项目中用到 了 这个OCR , 结合那个OpenCV 的分析, 搞了个开源的 PaddleOCR 百度飞桨的, 识别度能达到85%左右, 对一些带干扰线的验证码, 基本识别不出来。 我们这边的应用场景是让 这个 分析页面的内容, 定位对应的元素,进行操作。就是所谓的模拟用户操作 网页。进行测试, 所谓的自动化测试。做这个, 还是要依靠大量的图片处理, 像什么 图片腐蚀,图像膨胀 , 这些都是依赖于OpenCV 来进行对图片的一些处理, 使其能更好的识别页面内容。 OpenCV这块对于Python语言编写的比较多。用Java 做图片分析的还是比较少, 不过还是有的, 毕竟提供的jar包引入, 使用起来还是比较方便的。 弄好的图片再调用PaddleOCR 将元素在元素的坐标位置 返回回来, 是否存在该页面之类的都可以做到。 这些底层的可以上paddlerOCR 官网上去看看 ,它有个开源的仓库。
https://github.com/PaddlePaddle/PaddleOCR/blob/dygraph/doc/doc_ch/detection.md
其实很多数据都要通过训练才能提高准确性。