Python编程:通过百度文字识别提取表格数据

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,图像通用资源包5000点
简介: Python编程:通过百度文字识别提取表格数据

百度文字识别文档:

https://ai.baidu.com/docs#/OCR-Python-SDK/top

安装sdk

pip install baidu-aip
• 1

先创建应用,得到appid

要识别的表格图片:

image.png

代码示例

from aip import AipOcr
""" 你的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
with open("names.png", "rb") as f:
    image = f.read()
result = client.basicGeneral(image)
print(result)

识别结果:

{
    "log_id":3213553909522465362,
    "words_result_num":20,
    "words_result":[
        {
            "words":"表格1:"
        },
        {
            "words":"姓名"
        },
        {
            "words":"年龄"
        },
        {
            "words":"性别"
        },
        {
            "words":"李雷"
        },
        {
            "words":"20男"
        },
        {
            "words":"韩梅梅"
        },
        {
            "words":"23女"
        },
        {
            "words":"赵小三"
        },
        {
            "words":"25女"
        },
        {
            "words":"Table2."
        },
        {
            "words":"Name"
        },
        {
            "words":"ge"
        },
        {
            "words":"Gender"
        },
        {
            "words":"Tom"
        },
        {
            "words":"30 Male"
        },
        {
            "words":"Jack"
        },
        {
            "words":"33 Male"
        },
        {
            "words":"one"
        },
        {
            "words":"31Female"
        }
    ]
}

结果不太满意,年龄和性别被合在一起了

相关文章
|
11月前
|
存储 前端开发 JavaScript
通过dem2terrain生成MapboxGL地形服务
通过dem2terrain生成MapboxGL地形服务
236 8
|
12月前
|
编解码 人工智能 文字识别
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
GOT来促进OCR-2.0的到来。该模型具有580百万参数,是一个统一、优雅和端到端的模型,由高压缩编码器和长上下文解码器组成。
阶跃星辰开源GOT-OCR2.0:统一端到端模型,魔搭一站式推理微调最佳实践来啦!
|
11月前
|
前端开发 数据管理 编译器
引领前端未来:React 19的重大更新与实战指南🚀
React 19 即将发布,带来一系列革命性的新功能,旨在简化开发过程并显著提升性能。本文介绍了 React 19 的核心功能,如自动优化重新渲染的 React 编译器、加速初始加载的服务器组件、简化表单处理的 Actions、无缝集成的 Web 组件,以及文档元数据的直接管理。这些新功能通过自动化、优化和增强用户体验,帮助开发者构建更高效的 Web 应用程序。
498 1
引领前端未来:React 19的重大更新与实战指南🚀
|
存储 安全 网络安全
网络信息安全管理之资产、脆弱性、威胁、风险
安全风险管理的三要素分别是资产、威胁和脆弱性,脆弱性的存在将会导致风险,而威胁主体利用脆弱性产生风险。网络攻击主要利用了系统的脆弱性。由于网络管理对象自身的脆弱性,使得威胁的发生成为可能,从而造成了不同的影响,形成了风险。
2021 0
|
Dubbo Java 应用服务中间件
Dubbo 常见错误及解决方法
导读 『StabilityGuide』是阿里多位阿里技术工程师共同发起的稳定性领域的知识库开源项目,涵盖性能压测、故障演练、JVM、应用容器、服务框架、流量调度、监控、诊断等多个技术领域,以更结构化的方式来打造稳定性领域的知识库,欢迎您的加入。
5279 90
|
数据采集 人工智能 监控
基于隐语的“蚂蚁风洞多方安全计算平台”入选2023中国国际金融展“金融科技创新成果”
基于隐语的“蚂蚁风洞多方安全计算平台”入选2023中国国际金融展“金融科技创新成果”
666 0
|
编译器
立创EDA一些基础操作
立创EDA一些基础操作
739 0
|
Web App开发 缓存 应用服务中间件
java.lang.IllegalStateException: Cannot call sendError() after the response has been committe【SSH】
java.lang.IllegalStateException: Cannot call sendError() after the response has been committe【SSH】
1087 0
java.lang.IllegalStateException: Cannot call sendError() after the response has been committe【SSH】
|
Java Spring
Spring Boot + MDC 实现全链路调用日志跟踪,这才叫优雅。。(下)
Spring Boot + MDC 实现全链路调用日志跟踪,这才叫优雅。。(下)
1132 0
|
机器学习/深度学习 自然语言处理 文字识别
算法专家解读 | 开放搜索教育搜题能力和实践
达摩院算法专家--徐光伟(昆卡)聚焦在线教育行业的拍照搜题场景,介绍如何应用开放搜索来构建更高搜索性能及搜题准确率的搜题系统,从而助力在线教育行业客户掌握更高层次用户体验的获客工具。
2197 0
算法专家解读 | 开放搜索教育搜题能力和实践

热门文章

最新文章