文字识别

首页 标签 文字识别
# 文字识别 #
关注
5981内容
|
3小时前
| |
“图片翻译”的一次工程化拆分
本文探讨图片翻译的工程化拆分实践:因合规要求弃用海外模型后,发现单靠千问图像模型直接编辑易致乱码、错位、漏翻。作者提出四段式流水线——OCR结构识别→长度可控的翻译计划→带强约束的图像编辑→智能评估与重绘兜底,以流程确定性弥补模型能力缺口,实现版式保真的高质量中英图片翻译
文档智能处理与ReAct推理链:RAG系统的两个"隐形引擎"
本文深入解析RAG系统中两大“隐形引擎”:文档智能处理(含多格式解析、语义分片、QA抽取)与ReAct推理链(支持多轮思考-行动-观察)。二者协同提升知识库质量与AI推理能力,是决定RAG效果的关键底层能力。
|
1天前
|
飞书/钉钉/企微集成型办公Agent:实现一句话触发报销审批
本文介绍如何用AI办公Agent重构报销流程:员工群内一句话发起报销,Agent自动解析、验票、校验预算并推送审批,全程≤15分钟。涵盖多平台接入、大模型结构化提取、发票真伪核验及人工兜底机制,让财务专注高价值工作。(239字)
OpenClaw 小龙虾技能全解 五大场景高频实用插件清单
OpenClaw(小龙虾)核心优势在于Skill技能扩展体系,支持AI直接操控电脑执行实操任务。本文精选15大高频实用Skill,覆盖文件管理、办公自动化、浏览器操作、系统运维、内容处理五大场景,一键部署、即装即用,大幅提升日常办公与电脑使用效率。(239字)
什么是无纸化档案管理?企业怎么实现
“您的企业档案室现在还堆满了几百个文件盒吗?每次找一份合同要翻箱倒柜半小时?如果是时候改变了。”
|
3天前
| |
再获权威认可!金智维助力重庆银行“数智员工”连登两大市级榜单
重庆银行联合金智维打造“个人按揭贷款数智服务”,融合大模型、RPA与智能风控,实现资料处理自动化(210分钟→15分钟)、审批时效提升87%(4小时内完成),入选2025年重庆市AI典型案例及“应用场景领跑者”榜单,为银行业数字化转型树立标杆。
百度面试官一针见血:“多模态RAG,图片里的文字你OCR出来了,那图里的逻辑关系呢?”我沉默了
本文剖析多模态RAG在图表理解中的核心瓶颈:OCR仅提取文字,却无法捕获节点间逻辑关系。提出“四层架构”——视觉抽取、关系建图、语义注入、检索推理,实现从“看图”到“读图”的跃迁。对比三种方案,验证图结构化对路径推理的关键价值,并给出可落地的评测升级与工程实践路径。
Mistral3 实战:​D​М‌X​Α‌РΙ 解决推理过程中的字符编码乱码
Mistral Large 3(2026年)是面向企业生产的开源多模态大模型:41B激活参数、256k超长上下文、原生支持函数调用/结构化输出/Agent接口/OCR及多语言。它不追求单点惊艳,而以开放权重+工程就绪性为核心,适配知识问答、文档理解、客服编排等真实场景,需通过标准化API(如DMXAPI)实现可观测、可治理、可编排的稳定集成。(239字)
|
11天前
|
MinerU + RAG 集成实战:从 PDF 结构化解析到精准检索
本文详解 MinerU 与 RAG 的深度集成:针对 PDF 解析导致的召回瓶颈(如双栏错序、公式表格丢失),展示如何用 MinerU 实现结构化抽取(Markdown/JSON)、提升 Top-1 召回率25%,并提供 LangChain/LlamaIndex 全链路实战代码与生产避坑指南。
开源短剧翻译平台的OCR字幕提取技术:从视频帧到SRT的完整链路(2026)
短剧出海翻译首道难关是硬字幕提取——字幕烧录在视频中,无独立文本。NarratorAI“字幕君”通过OCR+动态关键帧+音频校准等10步链路,精准提取带时间轴的SRT文件,支持全自动或人工校对模式,兼顾精度与效率。
免费试用