文字识别

首页 标签 文字识别
# 文字识别 #
关注
5949内容
|
6月前
|
Umi-OCR_文字识别工具 免安装使用教程(附下载安装包)!永久免费,开源离线OCR识别软件下载
Umi-OCR是一款开源免费、支持离线运行的高精度OCR文字识别工具,基于深度学习技术,可快速识别中文、英文、日文等多种语言。无需联网,保护隐私,适用于Windows和Linux系统,解压即用,操作简便,是处理图片转文本的理想选择。
PDF 转 Markdown 神器:MinerU 2.5 (1.2B) 部署全攻略
MinerU是由OpenDataLab推出的开源PDF解析工具,支持精准布局分析、公式识别与表格提取。本文详解其2.5-2509-1.2B版本在Linux下的部署流程,涵盖环境搭建、模型下载、核心配置及实战应用,助你高效处理复杂PDF文档,提升AI数据清洗效率。
|
2天前
| |
阿里云 AI 产品免费试用:超30款 AI 产品和7000万大模型 tokens 免费体验
阿里云AI免费试用专区上线!新用户可享7000万大模型Tokens、30+款AI产品免费体验,覆盖大模型、AI开发、算力、文本与视觉全场景,支持通义千问系列、百炼平台及PAI开发工具,零门槛构建AI应用,助力个人学习与企业降本增效。
|
27天前
| |
来自: 弹性计算
阿里云AI产品免费试用:7000万Tokens+30款产品零成本体验!
阿里云推出“AI免费试用”活动:新用户享7000万Tokens、100张图+50秒视频生成额度,覆盖通义千问Qwen3、万相2.6等30+款AI产品。零门槛开通即用,支持Agent搭建、代码生成、NLP/视觉智能等全场景实践,助开发者低成本启航AI应用开发。
|
11天前
|
OpenClaw进阶指南:阿里云/本地部署+API配置+多模态融合+跨平台联动实战手册
2026年,AI技术的核心进化方向已从单一文本交互转向多模态融合,OpenClaw(曾用名Clawdbot)凭借开放的插件生态与灵活的部署架构,率先实现“文本、图像、语音、视频”的全维度交互支持。无论是通过语音下达复杂任务、让AI分析视频核心信息,还是上传图像实现智能识别,OpenClaw都能打破信息形态的边界,成为连接虚拟与现实的高效桥梁。
Qwen2.5-VL-32B: 更聪明、更轻量!
年前,阿里通义千问团队推出了 Qwen2.5-VL 系列模型,获得了社区的广泛关注和积极反馈。在 Qwen2.5-VL 系列的基础上,研究团队使用强化学习持续优化模型,并使用 Apache 2.0 协议开源 32B 这个备受喜爱的参数规模的新 VL 模型—— Qwen2.5-VL-32B-Instruct。相比此前发布的 Qwen2.5-VL 系列模型,本次推出的 32B 模型的特点如下:
让大模型“读懂”你的文档:RAG核心技术——文档切分完全指南
文档切分是智能问答系统成败的关键。本文深入解析RAG技术中分块(Chunking)的核心原理,涵盖五大切分策略:从基础的按句子、固定长度切分,到更智能的递归与语义切分。通过LangChain实战代码,手把手教你处理文本、Markdown、代码等多格式文档,并优化块大小、重叠与分隔符参数。提供人工抽样、模拟检索和端到端测试三大评估方法,助你构建高效精准的知识检索体系。
从零开始的OCR之旅
本文介绍了如何配置环境并使用EasyOCR库进行OCR任务,包括安装依赖、下载必要的模型包,并提供了一个简单的使用示例。
免费试用