文字识别的搜索结果_文章_第17页-阿里云开发者社区

深圳快瞳科技有限公司

|

8月前

|

博文

|

OCR技术近年来迅速普及，广泛应用于文件扫描、快递单号识别、车牌识别及日常翻译等场景，极大提升了便利性。其发展历程从传统方法（基于模板匹配和手工特征设计）到深度学习（采用CNN、LSTM等自动学习高级语义特征），再到大模型OCR（基于Transformer架构，支持跨场景泛化和少样本学习）。每种技术在特定场景下各有优劣：传统OCR适合实时场景，深度学习OCR精度高但依赖大量数据，大模型OCR泛化能力强但训练成本高。未来，大模型OCR将结合多模态预训练，向通用文字理解方向发展，与深度学习OCR形成互补生态，最大化平衡成本与性能。

# 视觉智能开放平台 # 机器学习/深度学习 # 文字识别 # 自然语言处理 # 异构计算

小华同学ai

|

8月前

|

博文

Uppy：告别传统上传！这款开源工具如何让文件传输效率提升300%？🐶

**Uppy** 是由 Transloadit 团队开发的模块化、高扩展性的 JavaScript 文件上传库，支持断点续传、云存储直传、图片编辑等高级功能。它无缝集成 React、Vue 等框架，兼容移动端，被 Instagram、知乎等企业采用。Uppy 采用“核心+插件”架构，代码轻量且功能强大，适合电商、在线教育等多种场景。项目开源免费，GitHub 获得数万星标，提供丰富的插件生态和跨平台支持。

# 存储 # 文字识别 # JavaScript # 前端开发 # 开发者

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

OCRmyPDF：16.5K Star！快速将 PDF 文件转换为可搜索、可复制的文档的命令行工具

OCRmyPDF 是一款开源命令行工具，专为将扫描的 PDF 文件转换为可搜索、可复制的文档。支持多语言、图像优化和多核处理。

# 图像识别 # 人工智能 # 编解码 # 文字识别 # iOS开发 # MacOS

modelscope

|

8月前

|

博文

|

来自： ModelScope模型即服务

Qwen2.5-VL Cookbook来啦！手把手教你怎么用好视觉理解模型！

今天，Qwen团队发布了一系列展示 Qwen2.5-VL 用例的Notebook，包含本地模型和 API 的使用。

# JSON # 文字识别 # 测试技术 # API # 开发者

唠唠低代码

|

9月前

|

博文

卷死传统系统！AIOA 协同办公，傻瓜式玩转智能管理

AIOA协同管理平台基于钉钉和钉钉低代码构建，以预置OA应用快速迭代满足业务需求。方案内置销售、采购、财务费用闭环等主线应用，并提供固定资产、车辆管理、证照管理、访客管理等高频场景，实现开箱即用，快速响应企业信息化需求。通过统一门户、互联互通的流程体系、丰富的办公管理应用以及智能化能力，提升企业内外协同效率，支持持续数字化转型。

# 宜搭 # 人工智能 # 文字识别 # 监控 # 搜索推荐 # Serverless

听风de歌

|

9月前

|

博文

多模态数据信息提取解决方案测评报告

《多模态数据信息提取解决方案测评报告》概述了该方案在部署、操作界面、文档、函数模板及官方示例等方面的表现。其功能强大，涵盖OCR、NLP、物体检测等五大核心能力，适用于多种应用场景。系统运行稳定，尤其在图像识别方面表现出色，但在处理长篇文档和低质量音视频时有改进空间。尽管存在一些小问题，如配置复杂性和依赖库兼容性，整体用户体验良好，推荐给企业和开发者使用。

# 人工智能 # 文字识别 # 自然语言处理 # 开发者 # UED

modelscope

|

9月前

|

博文

|

来自： ModelScope模型即服务

统一多模态Embedding, 通义实验室开源GME系列模型

随着多媒体应用的迅猛发展，用户产生的数据类型日益多样化，不再局限于文本，还包含大量图像、音频和视频等多模态信息。这为信息检索带来了前所未有的挑战与机遇。传统的信息检索模型多关注单一模态，如仅对文本或图像进行分析和搜索。

# 文字识别

以山向海

|

9月前

|

博文

多模态数据信息提取解决方案评测报告

《多模态数据信息提取解决方案评测报告》概述了该方案在商业智能、内容审核等领域的应用。报告指出，该方案通过AI技术解析多种格式文件，提升数据处理效率。部署界面直观易用，但数据类型选择和复杂配置需优化。部署文档详尽，涵盖环境准备到验证，但在操作系统差异方面可加强指导。函数应用模板简化部署，适合非技术人员，但对于高级用户细节说明不足。官方示例展示了系统的强大功能，但在长篇文本和低质量图片处理上有改进空间。整体上，该方案表现良好，具有灵活性和可移植性，但仍需进一步优化以满足特定领域需求。

# 人工智能 # 文字识别 # BI # 数据处理 # Python

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Zerox：AI驱动的万能OCR工具，精准识别复杂布局并输出Markdown格式，支持PDF、DOCX、图片等多种文件格式

Zerox 是一款开源的本地化高精度OCR工具，基于GPT-4o-mini模型，支持PDF、DOCX、图片等多种格式文件，能够零样本识别复杂布局文档，输出Markdown格式结果。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 文字识别 # API # 开发者

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

moonshot-v1-vision-preview：月之暗面Kimi推出多模态视觉理解模型，支持图像识别、OCR文字识别、数据提取

moonshot-v1-vision-preview 是月之暗面推出的多模态图片理解模型，具备强大的图像识别、OCR文字识别和数据提取能力，支持API调用，适用于多种应用场景。

# 文字识别 # 图像识别 # 人工智能 # 文字识别 # API # Python

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

文字识别