文字识别的搜索结果_文章_第16页-阿里云开发者社区

阿里云

|

8月前

|

博文

视觉理解模型Qwen2.5-VL开源，斩获多榜单冠军！

# 人工智能 # 编解码 # 文字识别 # 开发者

阿里云云原生

|

8月前

|

博文

|

来自：云原生

《零门槛AIGC应用实战——Serverless+AI 轻松玩转高频AIGC场景》电子书正式上线！多种精选 AI 部署方案带你深入了解 Serverless+AI 最新趋势、AI 应用的架构设计与详细的部署教程等。函数计算 AI 技术解决方案助您一键上云，高效部署。

# 函数计算 # 人工智能 # 运维 # 文字识别 # Serverless # 开发者

老乡别走

|

8月前

|

博文

|

来自：视觉智能

【全自动改PDF名】批量OCR识别提取PDF自定义指定区域内容保存到 Excel 以及根据PDF文件内容的标题来批量重命名

学校和教育机构常需处理成绩单、报名表等PDF文件。通过OCR技术，可自动提取学生信息并录入Excel，便于统计分析和存档管理。本文介绍使用阿里云服务实现批量OCR识别、内容提取、重命名及导出表格的完整步骤，包括开通相关服务、编写代码、部署函数计算和设置自动化触发器等。提供Python示例代码和详细操作指南，帮助用户高效处理PDF文件。链接： - 百度网盘：[链接](https://pan.baidu.com/s/1mWsg7mDZq2pZ8xdKzdn5Hg?pwd=8866) - 腾讯网盘：[链接](https://share.weiyun.com/a77jklXK)

# 视觉智能开放平台 # 文字识别 # Serverless # 开发工具 # 对象存储 # Python

老乡别走

|

8月前

|

博文

|

来自：视觉智能

【PDF提取全自动改名】如何批量提取PDF指定区域的文字内容，用内容批量给PDF命名或者导出表格，学会全自动解放双手

在生活和工作中，我们常需处理大量PDF文件，如银行单据、税收单据等。手动处理效率低下，而使用“咕嘎批量PDF多区域内容提取重命名导表格系统”可快速完成数千份文档的处理，大幅提高效率。该工具通过获取PDF各区域内容坐标，导入并处理文件，最终将信息提取至表格，并根据关键信息对PDF进行重命名，方便管理和查找。

# 视觉智能开放平台 # 文字识别

modelscope

|

8月前

|

博文

|

来自： ModelScope模型即服务

阿里国际Ovis2系列模型开源：多模态大语言模型的新突破

Ovis是阿里巴巴国际化团队提出的新型多模态大模型架构，通过巧妙地将视觉和文本嵌入进行结构化对齐，为解决模态间嵌入策略差异这一局限性提供了方案。

# 机器学习/深度学习 # 存储 # 文字识别 # 算法 # 计算机视觉

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Stirling-PDF：51.4K Star！用Docker部署私有PDF工作站，支持50多种PDF操作，从此告别在线工具

Stirling-PDF 是一款基于 Docker 的本地化 PDF 编辑工具，支持 50 多种 PDF 操作，包括合并、拆分、转换、压缩等，同时提供多语言支持和企业级功能，满足个人和企业用户的多样化需求。

# 自然语言处理 # 人工智能 # 文字识别 # 安全 # Docker # 容器

深圳快瞳科技有限公司

|

8月前

|

博文

|

来自：视觉智能

保单AI识别技术及代码示例解析

车险保单包含基础信息、车辆信息、人员信息、保险条款及特别约定等关键内容。AI识别技术通过OCR、文档结构化解析和数据校验，实现对保单信息的精准提取。然而，版式多样性、信息复杂性、图像质量和法律术语解析是主要挑战。Python代码示例展示了如何使用PaddleOCR进行保单信息抽取，并提出了定制化训练、版式分析等优化方向。典型应用场景包括智能录入、快速核保、理赔自动化等。未来将向多模态融合、自适应学习和跨区域兼容性发展。

# 云解析DNS # 人工智能 # 文字识别 # 自然语言处理 # 数据库 # Python

思通聚宝

|

8月前

|

博文

智能化车辆信息管理：AI视频监控在大型商场的技术方案介绍

通过高效停车管理系统实现精准采集车牌号码和停车时长、关联消费数据、优化停车引导。解决方案包括智能车牌识别、实时车位引导及个性化服务，利用OCR、AI图像增强、传感器等技术，确保准确识别、减少寻找车位时间，并提供定制化优惠，提升购物体验。

# 传感器 # 人工智能 # 文字识别 # 监控 # 搜索推荐

深圳快瞳科技有限公司

|

8月前

|

博文

|

来自：大数据与机器学习

当OCR遇见大语言模型：智能文本处理的进化之路

简介：本文探讨光学字符识别（OCR）技术与大语言模型（LLM）结合带来的革新。传统OCR在处理模糊文本、复杂排版时存在局限，而LLM的语义理解、结构解析和多模态处理能力恰好弥补这些不足。文中通过代码实例展示了两者融合在错误校正、文档解析、多语言处理、语义检索及流程革新上的五大优势，并以财务报表解析为例，说明了该技术组合在实际应用中的高效性。此外，文章也展望了未来的技术发展趋势，包括多模态架构、小样本学习和边缘计算部署等方向，预示着文本处理技术正迈向智能认知的新时代。（240字）

# 云解析DNS # 人工智能平台 PAI # 边缘计算 # 文字识别 # 自然语言处理 # 计算机视觉 # Python

深圳快瞳科技有限公司

|

8月前

|

博文

|

来自：视觉智能

如何结合NLP（自然语言处理）技术提升OCR系统的语义理解和上下文感知能力？

通过结合NLP技术，提升OCR系统的语义理解和上下文感知能力。方法包括集成NLP模块、文本预处理、语义特征提取、上下文推理及引入领域知识库。代码示例展示了如何使用Tesseract进行OCR识别，并通过BERT模型进行语义理解和纠错，最终提高文本识别的准确性。相关API如医疗电子发票验真、车险保单识别等可进一步增强应用效果。

# 自然语言处理 # 文字识别 # 自然语言处理 # API # Python

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

文字识别