快速入门开发实现订单类图片识别结果抽象解析

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
简介: 本文主要介绍一种针对订单类图片识别结果进行行列解析的抽象流程和方案,帮助提高开发效率。

一、背景

面对订单数据纸质文件或图片,仅靠人眼识别的话效率很低,需引入机器学习来识别和解析图片以提高效率。当前市面上已有收费的图片识别服务,包括阿里、百度等,识别效果较好,但针对订单类图片,不仅要关注图片上的文字,还要关注文字所在的行列,来分出每条数据和数据详细字段。

本文主要介绍一种针对订单类图片识别结果进行行列解析的抽象流程和方案,帮助提高开发效率。

注:本文只提供思路,不提供源码。另外,本文不介绍人工智能图片识别,感兴趣的同学可以上网查询相关资料。

二、解析流程

对于图像处理,opencv算是比较优秀的工具,因此将其选做本文图像处理首选软件。

  • 为了使图片识别率更高,需要先做图片矫正,这里采用较为简单的霍夫变换加去噪声点算法矫正图片。
  • 图片矫正后,调用图片识别服务获取结果,一般结果格式包括响应码、错误描述、文字块列表(文字和四点坐标)等。
  • 然后使用抽象的俄罗斯方块法根据识别结果获取行列信息。
  • 最后根据行列信息组装每一行数据并显示。

三、细节处理

3.1 opencv安装概要

opencv安装,本文只做简单提示,不展开介绍,以后有时间单独发文。

1)windows

2)linux

  • 推荐使用ubuntu,并且最好是全新的系统,因为opencv会依赖很多包,对版本要求也高,解决冲突会很麻烦。
  • 下载源码
  • 安装依赖包
  • 编译安装

我们使用java调用opencv,这里需要安装获取到开发包,windows为opencv_javaxxx.dll,linux为libopencv_javaxxx.so,程序初始化时需要加载到jvm。详细代码如下:

System.load(PropertieUtil.getPropertie("这里是dll或so的完整路径");

3.2 图片矫正

3.2.1 矫正探索

图片矫正探索之路较为艰辛,起初我们想了一个比较简单的方案:

  • 先调用图片识别服务,获取到结果。
  • 然后根据每一个字块的四角坐标判断出每个字块的倾斜角。
  • 再根据去燥算法算出平均的倾斜角。

理论上这个方案是可行的,但实践证明我们错了,因为图片识别服务返回的坐标图片不准确,多数图片算出的结果都是错误的。

经查发现霍夫变换有可能解决这个问题,于是开始尝试学习霍夫变换和去燥算法,最终发现可行,并抽象出公共方法,仅需简单配置一些参数就能完成矫正。

图片矫正分为两步:

  • 第一步:正反矫正,判断图片倾斜角度是90°、180°、270°、0°,这个通过数学方法是无法判断的,需要引用机器学习。
  • 第二步:角度微调,一般为确定图片是正的,且倾斜角度在+-30°左右。

需要注意的是,上面说的办法不可能通过一套参数来对所有图片进行微调,但线上数据证明,针对一类图片,一套参数基本能让大多数图片都矫正正确。

3.2.2 霍夫变换概要

霍夫变换是数学界经典空间变换算法,用于检测直线,通过大量检测到的直线的斜率就能计算出图片倾斜角度。先进行二值化和边缘检测再进行霍夫变换效果更佳,详细算法内容请自行搜索,本文不展开。

3.2.3 去噪声点算法

基本公式:

上限=均值+n*标准差

下限=均值-n*标准差

其中n取值一般为1-4,数值越大表示筛选率越高。

最后再将符合的数据求均值。

核心代码如下:

/**
     * 利用标准差筛选
     * @param values
     * @return
     */
    private static double[] calcBestCornList(double[] values) {
        // 计算标准差
        StandardDeviation variance = new StandardDeviation();
        double evaluate = variance.evaluate(values);
        Mean mean = new Mean();
        double meanValue = mean.evaluate(values);
        double biggerValue = meanValue + CHOOSE_POWER * evaluate;
        double smallerValue = meanValue - CHOOSE_POWER * evaluate;
        List<Double> selected = Lists.newArrayList();
        for (double value : values) {
            if (value >= smallerValue && value <= biggerValue) {
                selected.add(value);
            }
        }
        double[] selectedValue = new double[selected.size()];
        for (int i = 0; i < selected.size(); i++) {
            selectedValue[i] = selected.get(i);
        }
        logger.info("占比:{}%,筛选后角度数组:{}", (selectedValue.length / (float)values.length) * 100F, selected);
        return selectedValue;
    }

3.2.4 霍夫变化抽象封装

基本流程:

  • 定义相关参数
  • 读取图片
  • 灰度二值化处理
  • 使用opencv画出轮廓
  • 根据参数要求多次画霍夫变换线,直到线数量满足参数为止
  • 遍历画出的线,分出横线和竖线,根据配置计算出每条线的角度
  • 使用去噪声算法(需要根据非0数自动重复计算)算出平均倾斜角度
  • 使用opencv旋转图片

核心代码如下:

/**
     * 矫正图片,通过霍夫变换矫正
     * @param oldImg 原始图片
     * @param rotateParam 旋转参数
     * @return
     */
    public static String rotateHoughLines(File oldFile, String oldImg, RotateParam rotateParam, String cid, String bankCode) throws Exception {

        Mat src= Imgcodecs.imread(oldFile.getAbsolutePath());
        //读取图像到矩阵中
        if(src.empty()){
            throw new Exception("no file " + oldFile.getAbsolutePath());
        }
        // 用于计算的图片矩阵
        Mat mathImg = src.clone();
        // 灰度化
        Imgproc.cvtColor(src, mathImg, Imgproc.COLOR_BGR2GRAY);
        logger.info("二值化完成");
        // 获取轮廓
        Imgproc.Canny(src, mathImg, rotateParam.getCvtThreshould1(), rotateParam.getCvtThreshould2());
        logger.info("轮廓完成");
        // 霍夫变换获取角度,详细代码略
        double corn = houghLines(mathImg, rotateParam, cid);
        logger.info("霍夫变换完成,角度:{}", corn);
        if(corn == 0) {
            return oldImg;
        }
        return rotateOpenv(oldFile, corn, cid, bankCode);
    }

3.3 常用图片识别方案

阿里、百度都有提供图片识别服务,如果有实力也可以自己实现,不过不建议自研,因为样本需求量巨大,时间成本过高。

3.4 识别结果解析

3.4.1 探索之路

本章节为本文重点内容,因为前文所提到的都是较为基础的服务和算法,大量开发内容都在本章。前期要开发的订单图片类型巨量(大于100种),每一类图片区别很大,我们有几个人分类型开发,但每个人所用的方法都不同,且张三开发出来的李四看不懂,不过毕竟面对的是图片,比较抽象,这是可以理解的。

开发一段时间后我们发现了问题:每种类型最快也要一周才能开发完成,而且解析成功率极低。开发出一套抽象的方法来把行列数据提取出来迫在眉睫。

通过调研发现,大家常用两种方法来提取行列数据,分别为坐标法和标题法,但这两种方法解析率都不高。经过几周思考,终于想出了一套较好的方法,命名为俄罗斯方块法,最终解决了问题。

3.4.2 俄罗斯方块法

思路概要:

  • 拿到识别结果数据。
  • 先把所有数据的y坐标进行排序。
  • 遍历排序结果,先把第一条放入第一列结果集中。
  • 从第二条开始和第一列结果集对比。
  • 对比方法:如果在第一列结果集其中一条数据的右侧,则认为是新列;如果在y轴方法和第一列结果集中某些数据重叠了,则认为是新列。
  • 如果以上两条都不是,则认为本条数据还在当前列中,放入第一列结果集。
  • 以此类推,继续对比,直到对比到最后一列最后一条数据。
  • 按照上述方法,反过来,以x轴为标准,能够得到行结果集。

思路图如下:

概要代码如下:

// 按照最左上角的x坐标排序
        OcrWordInfo[] sortL = NoTableParseResult.ParseUtil.bubbleSortX(ocrResponse.getPrism_wordsInfo(), false);
        NoTableParseResult ntpr = new NoTableParseResult(param);
        ntpr.setHeight(converImg.height());
        ntpr.setWight(converImg.width());
        for (int i = 0; i < sortL.length; i++) {
            // 当前要比较的数据
            OcrWordInfo ocrWordInfo = sortL[i];
            // 处理当前列数据
            ntpr.getUtil().testCurColData(ocrWordInfo);
        }
        // 处理最后一列
        ntpr.lastCol();

        /**
         * 判断是否为下一列,并处理
         * @param ocrWordInfo
         * @return
         */
        public void testCurColData(OcrWordInfo ocrWordInfo) {

            // 遍历当前列已存在的所有数据
            int size = this.test.getCol().size();
            if(size == 0) {
                this.test.addCol(ocrWordInfo);
                return;
            }
            for (int i = 0; i < size; i++) {
                OcrWordInfo temp = this.test.getCol().get(i);
                // 最右边的数据
                int x1 = temp.getPos().get(1).getX();
                int x2 = temp.getPos().get(2).getX();
                // 当前数据最左边
                int xx0 = ocrWordInfo.getPos().get(0).getX();
                int xx3 = ocrWordInfo.getPos().get(3).getX();

                int threholdx = this.test.param == null ? 0 : this.test.param.getCoverColXThrehold();
                if(xx0 >= (x1 - threholdx) && xx0 >= (x2 - threholdx) && xx3 >= (x1 - threholdx) && xx3 >= (x2 - threholdx)) {
                    // 当前数据在右边,说明换列了!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
                    this.test.colAdd();
                    this.test.addCol(ocrWordInfo);
                    return;
                } else {
                    // 判断是否覆盖坐标
                    int y0 = temp.getPos().get(0).getY();
                    int y3 = temp.getPos().get(3).getY();
                    int yy0 = ocrWordInfo.getPos().get(0).getY();
                    int yy3 = ocrWordInfo.getPos().get(3).getY();
                    int threhold = (int)Math.round((y3 - y0) * (this.test.param == null ? 0.25 : this.test.param.getCoverThrehold()));
                    if(!(yy3 <= (y0 + threhold) || yy0 >= (y3 - threhold))) {
                        // 当前列表数据重叠,说明换列了!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!
                        this.test.colAdd();
                        this.test.addCol(ocrWordInfo);
                        return;
                    }
                }
            }
            // 执行到这说明没覆盖
            this.test.addCol(ocrWordInfo);
        }

3.4.3 解析行数据技巧

技巧总结:

1)俄罗斯方块法提供去除干扰项的参数,可以根据图片特点去除上下左右干扰数据来减少串行列现象。

2)解析数据大致有两种方法

  • 根据标题列号来判断数据,这种方法不通用,简单、规范的图片识别率高,但无法适配乱的图。
  • 把每一行数据以间隔符号分割拼到一起,使用正则表达式来‘扣’数据。因为一般同类型订单图片,关键字段的位置是有特点的,例如金额格式、借贷方向、日期等,这种方法通用,但识别率不高。

具体使用哪种方法,还需要根据图片特点进行取舍。

3)俄罗斯方块法提供一些微调参数,用于适配一些特殊场景,例如换行列阀值之类的。

4)中间需要保存一些过程图片,例如矫正过程的若干张图、俄罗斯方块法识别结果的连线图等。毕竟这种项目在查问题时靠日志是没用的,还得靠这些中间图才能更快查到问题。

四、总结

本文提到的方案不能完全解决所有订单类图片解析问题,可以做到新手快速入门快速开发,如果您有更好思路欢迎交流。

作者:刘鹏飞

来源:宜信技术学院

相关文章
|
7天前
|
数据可视化 数据挖掘 BI
团队管理者必读:高效看板类协同软件的功能解析
在现代职场中,团队协作的效率直接影响项目成败。看板类协同软件通过可视化界面,帮助团队清晰规划任务、追踪进度,提高协作效率。本文介绍看板类软件的优势,并推荐五款优质工具:板栗看板、Trello、Monday.com、ClickUp 和 Asana,助力团队实现高效管理。
29 2
|
1月前
|
消息中间件 存储 缓存
十万订单每秒热点数据架构优化实践深度解析
【11月更文挑战第20天】随着互联网技术的飞速发展,电子商务平台在高峰时段需要处理海量订单,这对系统的性能、稳定性和扩展性提出了极高的要求。尤其是在“双十一”、“618”等大型促销活动中,每秒需要处理数万甚至数十万笔订单,这对系统的热点数据处理能力构成了严峻挑战。本文将深入探讨如何优化架构以应对每秒十万订单级别的热点数据处理,从历史背景、功能点、业务场景、底层原理以及使用Java模拟示例等多个维度进行剖析。
55 8
|
17天前
|
安全 前端开发 Android开发
探索移动应用与系统:从开发到操作系统的深度解析
在数字化时代的浪潮中,移动应用和操作系统成为了我们日常生活的重要组成部分。本文将深入探讨移动应用的开发流程、关键技术和最佳实践,同时分析移动操作系统的核心功能、架构和安全性。通过实际案例和代码示例,我们将揭示如何构建高效、安全且用户友好的移动应用,并理解不同操作系统之间的差异及其对应用开发的影响。无论你是开发者还是对移动技术感兴趣的读者,这篇文章都将为你提供宝贵的见解和知识。
|
23天前
|
存储 缓存 监控
后端开发中的缓存机制:深度解析与最佳实践####
本文深入探讨了后端开发中不可或缺的一环——缓存机制,旨在为读者提供一份详尽的指南,涵盖缓存的基本原理、常见类型(如内存缓存、磁盘缓存、分布式缓存等)、主流技术选型(Redis、Memcached、Ehcache等),以及在实际项目中如何根据业务需求设计并实施高效的缓存策略。不同于常规摘要的概述性质,本摘要直接点明文章将围绕“深度解析”与“最佳实践”两大核心展开,既适合初学者构建基础认知框架,也为有经验的开发者提供优化建议与实战技巧。 ####
|
21天前
|
Java 调度 Android开发
安卓与iOS开发中的线程管理差异解析
在移动应用开发的广阔天地中,安卓和iOS两大平台各自拥有独特的魅力。如同东西方文化的差异,它们在处理多线程任务时也展现出不同的哲学。本文将带你穿梭于这两个平台之间,比较它们在线程管理上的核心理念、实现方式及性能考量,助你成为跨平台的编程高手。
|
28天前
|
监控 前端开发 安全
如何开发一个网站:全面解析与实战指南
在数字化时代,网站是企业和个人展示形象、传播信息的关键平台。本文提供从规划、设计、开发、上线到后期维护的全方位网站开发指南,涵盖明确目标、分析用户、设定功能需求、设计风格、技术选型、测试部署及优化升级等内容,帮助你打造既美观又实用的网站。
45 4
|
24天前
|
前端开发 Android开发 UED
移动应用与系统:从开发到优化的全面解析####
本文深入探讨了移动应用开发的全过程,从最初的构思到最终的发布,并详细阐述了移动操作系统对应用性能和用户体验的影响。通过分析当前主流移动操作系统的特性及差异,本文旨在为开发者提供一套全面的开发与优化指南,确保应用在不同平台上均能实现最佳表现。 ####
24 0
|
1月前
|
开发工具 Android开发 数据安全/隐私保护
探索移动应用的世界:从开发到操作系统的全面解析
【10月更文挑战第33天】在数字化时代,移动应用已成为我们日常生活中不可或缺的一部分。本文将深入探讨移动应用的开发过程,包括编程语言、开发工具和框架的选择,以及如何构建用户友好的界面。同时,我们还将分析移动操作系统的核心功能和安全性,以帮助读者更好地理解这些应用程序是如何在各种设备上运行的。无论你是开发者还是普通用户,这篇文章都将为你揭示移动应用背后的奥秘。
|
1月前
|
监控 Java 应用服务中间件
高级java面试---spring.factories文件的解析源码API机制
【11月更文挑战第20天】Spring Boot是一个用于快速构建基于Spring框架的应用程序的开源框架。它通过自动配置、起步依赖和内嵌服务器等特性,极大地简化了Spring应用的开发和部署过程。本文将深入探讨Spring Boot的背景历史、业务场景、功能点以及底层原理,并通过Java代码手写模拟Spring Boot的启动过程,特别是spring.factories文件的解析源码API机制。
72 2
|
2月前
|
缓存 Java 程序员
Map - LinkedHashSet&Map源码解析
Map - LinkedHashSet&Map源码解析
77 0

推荐镜像

更多