十八、照片OCR和机器学习流水线

简介: 十八、照片OCR和机器学习流水线

1、照片OCR


照片OCR(Optical Character Recognition)也称照片光学字符识别,照片OCR的流程包含以下三步:第一步是文本检测;第二步是字符分割;最后一步是字符分类;如下图所示:

248656dcc5624db7917aeb439dcd5c49.png


像上述这种系统,称之为机器学习流水线,指一个系统中包含许多阶段和组成部分,其中某些组成部分之中需要用到机器学习的内容。



1.1 滑动窗口分类器(Sliding Windows Classifier)


对于一幅图片,首先选择一个矩形框作为image patch,之后选定一个步长e.g., 4 pixels,然后让矩形框按照步长向前移动,直到搜索完整幅图片的所有像素。

d8fa2bdfef5749f7b22fdbf31a1e00a9.png



1.2 获取大量训练数据-人工合成数据


人工合成数据有两种方式,一种是从无到有合成数据,另外一种是通过对已有的训练数据进行一定的变换进行数据集扩大。

image.png



注意事项: 首先确保模型有比较小的bias值,这样扩大训练集数据才有意义;增加特征数量和神经网络中隐藏层的数量都可以增大bias值。



1.3 上限分析-ceiling analysis


上限分析是用来判断在机器学习的整个框架之中,哪一个部分最值得花时间取提升效能。上限分析的基本思想是,手动将机器学习流水线中的每一部分设置为完全准确的分类效果,之后沿着流水线向下依次调整,调整一次之后记录调整之后的分类准确率的变化,最终将分类准确率变化最大的那个模块挑出来,即为最值得改进的模块。

ad4a7f3f29c74e25be9bda9f26b3419e.png











相关文章
|
12月前
|
机器学习/深度学习 数据采集 人工智能
容器化机器学习流水线:构建可复用的AI工作流
本文介绍了如何构建容器化的机器学习流水线,以提高AI模型开发和部署的效率与可重复性。首先,我们探讨了机器学习流水线的概念及其优势,包括自动化任务、确保一致性、简化协作和实现CI/CD。接着,详细说明了使用Kubeflow Pipelines在Kubernetes上构建流水线的步骤,涵盖安装、定义流水线、构建组件镜像及上传运行。容器化流水线不仅提升了环境一致性和可移植性,还通过资源隔离和扩展性支持更大规模的数据处理。
|
机器学习/深度学习 人工智能 文字识别
文本,文字扫描01,OCR文本识别技术展示,一个安卓App,一个简单的设计,文字识别可以应用于人工智能,机器学习,车牌识别,身份证识别,银行卡识别,PaddleOCR+SpringBoot+Andr
文本,文字扫描01,OCR文本识别技术展示,一个安卓App,一个简单的设计,文字识别可以应用于人工智能,机器学习,车牌识别,身份证识别,银行卡识别,PaddleOCR+SpringBoot+Andr
|
机器学习/深度学习 数据采集 分布式计算
机器学习流水线的六个步骤
【5月更文挑战第30天】机器学习应用通过构建流水线实现,简化大数据需求和学习任务的处理,使用户能专注核心任务而非基础设施。
|
机器学习/深度学习 数据采集 算法
如何测试你的机器学习流水线?
谈到数据产品,很多时候有一种误解,认为这些产品无法通过自动化来进行测试。 尽管流水线的某些部分由于其实验性和随机性而无法通过传统的测试方法进行测试,但大部分流水线可以。 除此之外,更加不可预测的算法可以通过专门的验证过程。
|
机器学习/深度学习 存储 监控
谷歌大佬谈 MLOps :机器学习中的持续交付和自动化流水线(下)
背景 数据科学和机器学习正逐渐成为解决复杂现实问题以及在所有领域创造价值的核心功能。现在,有效运用机器学习技术的各种要素都已具备:
|
机器学习/深度学习 监控 算法
谷歌大佬谈 MLOps :机器学习中的持续交付和自动化流水线(上)
背景 数据科学和机器学习正逐渐成为解决复杂现实问题以及在所有领域创造价值的核心功能。现在,有效运用机器学习技术的各种要素都已具备:
|
弹性计算 运维 Serverless
项目管理和持续集成系统搭建问题之云效流水线支持阿里云产品的企业用户如何解决
项目管理和持续集成系统搭建问题之云效流水线支持阿里云产品的企业用户如何解决
248 1
项目管理和持续集成系统搭建问题之云效流水线支持阿里云产品的企业用户如何解决
|
敏捷开发 Java 测试技术
阿里云云效产品使用合集之如何下载流水线构建过程中生成的jar
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
敏捷开发 测试技术 持续交付
阿里云云效产品使用合集之如何限制在本地的构建主机创建的流水线的并发数
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。
|
敏捷开发 Java 测试技术
阿里云云效产品使用合集之怎么设置流水线中的全局参数
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。