文字识别

首页 标签 文字识别
# 文字识别 #
关注
5909内容
四款国产VLM OCR模型横评
春节前,DeepSeek、智谱、百度、腾讯四大团队密集开源新一代OCR小模型,全面采用视觉语言模型(VLM)架构,摒弃传统流水线,迈向“语义结构化”新纪元。DeepSeek-OCR2首创“视觉因果流”,GLM-OCR以0.9B参数登顶OmniDocBench榜首,PaddleOCR-VL-1.5攻克真实退化场景,Youtu-Parsing实现22倍推理加速——国产OCR正以架构创新实现垂直领域“换道超车”。
|
1天前
|
基于HTML表格重构二维码的钓鱼攻击机制与防御研究
本文揭示新型“无图像二维码”钓鱼攻击:攻击者利用HTML表格单元格背景色动态渲染二维码,绕过传统OCR与图像检测。文章剖析其技术原理、生成算法及防御盲区,并提出融合DOM熵值分析、动态渲染OCR与启发式规则的多维防御架构,为下一代邮件安全网关提供关键技术支撑。(239字)
0.9B 小模型,OCR 大能力——GLM-OCR 模型实战教程
智谱开源多模态OCR模型GLM-OCR,基于GLM-V架构,融合CogViT视觉编码器与GLM-0.5B语言解码器,支持公式、表格、代码等复杂文档识别,性能达OmniDocBench榜首(94.62分),仅0.9B参数,轻量高效,开箱即用。
ModelScope魔搭社区发布月报 -- 26年2月
临近年关,ModelScope迎来春节模型发布潮:Qwen3、GLM-4.7、MiniMax M2.1等大模型密集上新;AIGC生图、语音合成、具身智能全面突破;OpenAPI、OAuth、Gallery等生态基建同步升级,加速AI开源普惠。(239字)
|
15天前
|
DeepSeek V4春节炸场,三大黑科技让Claude和GPT都坐不住了
今儿看到个信息,DeepSeek可能发布V4了。 老金我第一时间测试佐证了一下。 虽说官方没明确公布上线,但是咱可以先来了解下它的 3大创新能力。 DeepSeek作为国产之光(毕竟 价格屠夫),老金我是尤为关注的。 这个模型它不是小更新,是直接对标Claude Opus 4.5和GPT-5的那种 大级别的。 上次DeepSeek R1发布的时候,硅谷那边就已经慌了一波。 这次V4,定位更狠—
达摩院开源RynnBrain:首个支持移动操作的具身大脑基础模型
达摩院发布首个可移动操作的具身基础模型RynnBrain,首创时空记忆与物理空间推理能力,支持视频/图像/文本多模态输入及区域、轨迹等具身输出。开源MOE架构RynnBrain-30B-A3B(仅3B激活参数),在16项基准全面SOTA,并推出全新评测集RynnBrain-Bench。
值得信赖的发票管理软件开发商
企业OA发票管理模块集成OCR识别、进项票池、验真查重、多维统计与可视化分析,实现发票采集、核验、归档、分析全周期数字化管理,提升财务效率、强化税务合规、支撑业财融合与数据决策。
AI技术在英语学习中的应用
AI已从翻译工具升级为嵌入英语学习全周期的“数字化私人导师”,实现口语智能对练、写作思维进阶、阅读情境习得。依托多模态感知、LLM推理、动态记忆与自然交互技术,推动学习去焦虑、低成本、碎片化沉浸。(239字)
|
17天前
|
Python驱动的PDF信息提取与结构化输出:从文本到表格的全流程解析
本文详解Python处理PDF的三大场景:文本提取(PyPDF2/pdfplumber)、扫描件OCR(Tesseract+pdf2image)、表格结构化(Camelot/tabula),结合真实案例演示精准提取与自动化输出,助力合同、发票等业务数据高效数字化。(239字)
|
20天前
|
JBoltAI全能力问答:Java AI框架实用解析
本简介聚焦JBoltAI框架核心能力,以开发者高频问题为线索,用通俗语言解析智能路由网关、多源数据接入、智能图表生成、OCR识别、文本向量化、多模态处理、可视化工作流及权限管理等模块的实际价值与落地逻辑,助力Java开发者高效集成AI能力。(239字)
免费试用