文字识别的搜索结果_热门_第19页-阿里云开发者社区

yunmai

|

5月前

|

博文

OCR（光学字符识别）技术是数字化浪潮中的关键工具，可将纸质文档、手写笔记或复杂背景下的文字图像转化为可编辑文本。本文从图像采集、预处理、字符识别到文本校正，全面解析OCR技术的原理，并探讨其在智能办公、智慧交通、便捷生活等领域的广泛应用。未来，OCR将与自然语言处理、计算机视觉等技术深度融合，推动智能化和综合化发展。通过开放生态系统和政策支持，开发者可探索更多创新场景，如古籍数字化、盲人阅读等，为社会带来更多价值。

# 文字识别 # 机器学习/深度学习 # 文字识别 # 自然语言处理 # 算法 # 开发者

三分钟热度的鱼

|

问答

|

来自：视觉智能

OCR之前还用的好好的，怎么突然错了？

# 文字识别 # 视觉智能开放平台 # 文字识别 # API

modelscope

|

7月前

|

博文

|

来自： ModelScope模型即服务

Qwen2.5-VL-32B: 更聪明、更轻量!

年前，阿里通义千问团队推出了 Qwen2.5-VL 系列模型，获得了社区的广泛关注和积极反馈。在 Qwen2.5-VL 系列的基础上，研究团队使用强化学习持续优化模型，并使用 Apache 2.0 协议开源 32B 这个备受喜爱的参数规模的新 VL 模型—— Qwen2.5-VL-32B-Instruct。相比此前发布的 Qwen2.5-VL 系列模型，本次推出的 32B 模型的特点如下：

# 机器学习/深度学习 # 文字识别 # 测试技术 # API # Apache

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Mobile-Agent：通过视觉感知实现自动化手机操作，支持多应用跨平台

Mobile-Agent 是一款基于多模态大语言模型的智能代理，能够通过视觉感知自主完成复杂的移动设备操作任务，支持跨应用操作和纯视觉解决方案。

# 图像识别 # XML # 人工智能 # 文字识别 # 自然语言处理 # 决策智能

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

Manga Image Translator：开源的漫画文字翻译工具，支持多语言翻译并嵌入原图，保持漫画的原始风格和布局

Manga Image Translator 是一款开源的漫画图片文字翻译工具，支持多语言翻译并能将翻译后的文本无缝嵌入原图，保持漫画的原始风格和布局。该工具基于OCR技术和深度学习模型，提供批量处理和在线/离线翻译功能。

# 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 文字识别 # 计算机视觉

modelscope

|

19天前

|

博文

|

来自： ModelScope模型即服务

PDF解析迎来技术革新！阿里新产品实现复杂文档端到端结构化处理

前言9月24日云栖大会现场，由阿里巴巴爱橙科技数据技术及产品团队自主研发的 PDF解析神器正式亮相并同步开源模型。这款基于Logics-Parsing模型构建的AI工具直指当前PDF解析领域的技术痛点，显著提升复杂文档的结构…

# 云解析DNS # 存储 # 人工智能 # 文字识别 # 数据可视化 # 云栖大会

程序元宝

|

4月前

|

博文

|

来自：大数据与机器学习

2025年颠覆闭源大模型？MonkeyOCR：这款开源AI文档解析模型，精度更高，速度更快！

还在依赖昂贵且慢的闭源OCR工具？华中科技大学开源的MonkeyOCR文档解析模型，以其超越GPT4o的精度和更快的推理速度，在单机单卡（3090）上即可部署，正颠覆业界认知。本文将深入解析其设计哲学、核心突破——大规模自建数据集，并分享实测体验与避坑指南。

# 数据采集 # 人工智能 # 编解码 # 文字识别 # 算法

阿里云开发者

|

1月前

|

博文

RAG效果不佳？先别急着微调模型，这几个关键节点才是优化重点

本文深入探讨了RAG（Retrieval Augmented Generation）技术的实现细节与优化策略，指出在AI应用开发中，RAG常被视为黑盒导致问题定位困难。文章从文档分块（Chunking）、索引增强（语义增强与反向HyDE）、编码（Embedding）、混合检索（Hybrid Search）到重排序（Re-Ranking）等关键环节进行了详细解析，强调需结合具体场景对各模块进行调优，以提升召回率与精确率的平衡，并倡导从快速使用走向深度优化的实践路径。

# 人工智能 # 自然语言处理 # 文字识别 # 算法 # 索引

游客ymbxnyimjzpdk

|

6天前

|

博文

2025年企业防范员工向第三方人工智能工具泄露数据的全面防护方案

随着生成式人工智能工具的普及，企业员工在日常工作中越来越依赖ChatGPT、DeepSeek等第三方AI服务提升效率。然而，这种便利背后隐藏着严重的数据泄露风险。调查显示，近六成企业发生过敏感数据提交事件，其中三成导致实际泄露。传统防护手段在面对AI数据泄露场景时效果有限，企业急需建立针对性的防护体系。

# 人工智能 # 文字识别 # 安全 # 算法 # 数据安全/隐私保护

阿里云RPA小二

|

博文

超全干货分享：什么是RPA？

7月28日，阿里云RPA4.0版本重磅发布，为企业数字化转型提供高效、安全、可靠的服务。RPA是一款软件机器人，能够模拟人的行为完成软件的交互，能够解决跨系统、跨平台，重复有规律的工作流程。时至今日，阿里云RPA已被超过50万各行各业的用户采用，可以跟踪到的执行总次数已突破120亿次，用户使用RPA获得了3-10倍的效率提升

# 机器人流程自动化 # 文字识别 # 机器学习/深度学习 # 人工智能 # 文字识别 # 达摩院 # 数据可视化 # Oracle # 机器人 # 关系型数据库 # Java # 语音技术

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

文字识别