文字识别的搜索结果_热门_第8页-阿里云开发者社区

小华同学ai

|

3月前

|

博文

DocExt 是一款开源、免费的本地文档结构化提取工具，无需依赖 OCR 或云端服务，通过视觉语言模型（VLM）实现票据、护照、发票等多类型文档的关键字段与表格识别。支持多页文档处理、置信度量化及本地部署，提供直观的 Gradio Web 界面和灵活的 API 调用方式，适配高隐私场景如金融、医疗等领域。项目参与 IDP Leaderboard 评测，具备零模板限制和多模型支持等优势，是处理敏感文件的理想选择。

# 人工智能 # JSON # 文字识别 # API # Python

Deephub

|

26天前

|

博文

|

来自：大数据与机器学习

Dots.ocr：告别复杂多模块架构，1.7B参数单一模型统一处理所有OCR任务22

Dots.ocr 是一款仅1.7B参数的视觉语言模型，正在重塑文档处理技术。它将布局检测、文本识别、阅读顺序理解和数学公式解析等任务统一于单一架构，突破传统OCR多模块流水线的限制。在多项基准测试中，其表现超越大参数模型，展现出“小而精”的实用价值，标志着OCR技术向高效、统一、灵活方向演进。

# 编解码 # 文字识别 # 自然语言处理 # 测试技术 # 开发者

左诗右码

|

10月前

|

博文

Python中的文字识别利器：pytesseract库

`pytesseract` 是一个基于 Google Tesseract-OCR 引擎的 Python 库，能够从图像中提取文字，支持多种语言，易于使用且兼容性强。本文介绍了 `pytesseract` 的安装、基本功能、高级特性和实际应用场景，帮助读者快速掌握 OCR 技术。

# 文字识别 # 文字识别 # 自然语言处理 # API # 计算机视觉 # Python

blackswan_xdu-25928

|

9月前

|

博文

|

来自：通义大模型

Qwen2-VL微调实战：LaTex公式OCR识别任务（完整代码）

《SwanLab机器学习实战教程》推出了一项基于Qwen2-VL大语言模型的LaTeX OCR任务，通过指令微调实现多模态LLM的应用。本教程详述了环境配置、数据集准备、模型加载、SwanLab集成及微调训练等步骤，旨在帮助开发者轻松上手视觉大模型的微调实践。

# JSON # 文字识别 # 数据可视化 # 物联网 # 数据格式

老乡别走

|

7月前

|

博文

|

来自：视觉智能

【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名

学校和教育机构常需处理成绩单、报名表等PDF文件。通过OCR技术，可自动提取学生信息并录入Excel，便于统计分析和存档管理。本文介绍使用阿里云服务实现批量OCR识别、内容提取、重命名及导出表格的完整步骤，包括开通相关服务、编写代码、部署函数计算和设置自动化触发器等。提供Python示例代码和详细操作指南，帮助用户高效处理PDF文件。链接： - 百度网盘：[链接](https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866) - 腾讯网盘：[链接](https://share.weiyun.com/a77jklXK)

# 视觉智能开放平台 # 文字识别 # Serverless # 开发工具 # 对象存储 # Python

算精通

|

博文

RPA（Robotic Process Automation）

RPA（Robotic Process Automation）即机器人流程自动化，是一种通过使用软件机器人来自动化业务流程和任务的技术。RPA可以模拟人类的操作行为，通过界面交互、数据处理等方式，自动执行重复性的业务流程和任务，提高工作效率和准确性，降低成本和风险。

# 机器人流程自动化 # 文字识别 # 监控 # 机器人 # BI # 数据处理 # API # 开发工具 # 开发者

八百标兵奔北坡

|

博文

OCR技术原理

OCR技术通过识别图像中的字符转化为可编辑文本，涉及图像获取、预处理、字符分割、特征提取、字符识别和后处理等步骤。现代OCR利用机器学习和深度学习提升识别准确性，应对各种图像质量和文本类型挑战。随着技术进步，OCR广泛应用于文档扫描、数据录入和车牌识别等领域。

# 机器学习/深度学习 # 存储 # 文字识别 # 算法

三分钟热度的鱼

|

问答

|

来自：视觉智能

文字识别OCR识别失败是因为什么？报错 code 464

# 文字识别 # 视觉智能开放平台 # 文字识别

3ewaj2jnqceye

|

博文

秒懂全文：盘点13个各具特色的AI智能阅读助手工具

在当今信息爆炸的时代，AI阅读工具正在革新我们的阅读方式，成为了提高效率、优化阅读体验的关键。这类AI阅读辅助工具，只需要上传文件或者输入链接，便可以直接以聊天对话的形式进行一键总结和智能问答，满足用户AI PDF 阅读、AI文档问答分析、AI音视频总结等多种实用需求，高效提炼信息要点精华，建立属于自己的AI知识管理和信息管理工作流。对此，根据阅读场景，精选了 13 个具有代表性、各具特点的高质量 AI 阅读助手助理。具体如何选择，见文末总结。

# 人工智能 # 自然语言处理 # 文字识别 # 安全 # iOS开发

modelscope

|

3月前

|

博文

|

来自： ModelScope模型即服务

Nanonets-OCR-s开源！复杂文档转Markdown SoTA，颠覆复杂文档工作流

Nanonets团队开源了 Nanonets-OCR-s，该模型基于Qwen2.5-VL-3B微调，9G显存就能跑。

# 存储 # 人工智能 # 文字识别 # 数据安全/隐私保护 # 异构计算

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

文字识别