文字识别

首页 标签 文字识别
# 文字识别 #
关注
5915内容
|
9小时前
|
OCRFix僵尸网络利用ClickFix技术的攻击机理
本文深度剖析新型无文件僵尸网络OCRFix,其利用“ClickFix”社会工程学技术,伪装OCR修复向导诱导用户手动执行恶意PowerShell命令,在内存中加载载荷、建立C2通信。文章解构攻击全链路,并提出融合认知教育、行为监控与应用白名单的综合防御策略。(239字)
AI英语学习APP的开发
2026年国产AI英语学习APP已升级为“生成式AI+具身智能+情感交互”新范式:融合国产大模型(DeepSeek/讯飞/通义)双端协同、音素级纠音、OCR实景学习、自适应知识图谱与AI外教Agent,并深度适配微信/HarmonyOS生态,全面通过国内AI备案与未成年保护合规要求。(239字)
小红书开源FireRed-OCR,2B 参数登顶文档解析榜单
小红书FireRed团队开源的FireRed-OCR(仅20亿参数),在OmniDocBench v1.5端到端评测中以92.94%综合得分登顶,超越Gemini 3.0 Pro等大模型。专注解决文档解析中的“结构幻觉”问题,通过三阶段训练+格式约束强化学习,精准还原表格、公式、多栏等复杂结构。Apache 2.0协议,ModelScope开源,支持本地商用部署。(239字)
|
2天前
|
保姆级教程:OpenClaw阿里云及汉化本地极速部署,实现文本/图像/语音任务执行指南
OpenClaw(Clawdbot)2026年的核心升级聚焦“多模态AI能力融合”——不仅完成了阿里云部署环境下多模态任务的规模化执行优化,还在汉化本地部署版本中适配了中文语境下的文本、图像、语音多类型任务处理,让AI Agent从单一文本指令执行,升级为支持多类型输入输出的全场景自动化工具。
|
3天前
| |
来自: 视觉智能
视频后期黑科技:深度拆解开源 VSR 架构与视频 Inpainting 实践全指南
本文深度解析视频补全(Video Inpainting)前沿技术,聚焦硬字幕去除工具VSR的底层架构(OCR定位、时序传播、光流对齐)、本地部署要点(CUDA环境、显存优化)及云端方案(550W AI扩散模型),对比二者在隐私、效率与画质上的差异,助力开发者科学选型。(239字)
|
5天前
|
面向关键基础设施的“Quishing”攻击向量分析与多维防御架构研究
本文深度剖析朝鲜APT组织Kimsuky利用“Quishing”(二维码钓鱼)攻击关键基础设施的新型战术:通过伪造二维码绕过邮件网关检测,诱导用户扫码跳转至仿冒登录页窃取凭证。文章系统解构其TTPs,提出融合OCR解码、动态沙箱、FIDO2抗钓鱼认证与心理认知干预的纵深防御体系。(239字)
|
5天前
|
API 视角:Gemini 3.1 Flash (Nano Banana 2) 图像生成能力基准测试
本文基于Nano Banana AI实测,评测Gemini 3.1 Flash图像生成能力:在Prompt遵循度(精准颜色绑定)、OCR文本生成(端到端可读路牌)、高分辨率细节(2K无伪影)三方面表现优异,具备高准确度、原生多模态与低延迟(<10s),适合广告、游戏资产及合成数据等云上生产场景。
四款国产VLM OCR模型横评
春节前,DeepSeek、智谱、百度、腾讯四大团队密集开源新一代OCR小模型,全面采用视觉语言模型(VLM)架构,摒弃传统流水线,迈向“语义结构化”新纪元。DeepSeek-OCR2首创“视觉因果流”,GLM-OCR以0.9B参数登顶OmniDocBench榜首,PaddleOCR-VL-1.5攻克真实退化场景,Youtu-Parsing实现22倍推理加速——国产OCR正以架构创新实现垂直领域“换道超车”。
|
7天前
|
基于HTML表格重构二维码的钓鱼攻击机制与防御研究
本文揭示新型“无图像二维码”钓鱼攻击:攻击者利用HTML表格单元格背景色动态渲染二维码,绕过传统OCR与图像检测。文章剖析其技术原理、生成算法及防御盲区,并提出融合DOM熵值分析、动态渲染OCR与启发式规则的多维防御架构,为下一代邮件安全网关提供关键技术支撑。(239字)
0.9B 小模型,OCR 大能力——GLM-OCR 模型实战教程
智谱开源多模态OCR模型GLM-OCR,基于GLM-V架构,融合CogViT视觉编码器与GLM-0.5B语言解码器,支持公式、表格、代码等复杂文档识别,性能达OmniDocBench榜首(94.62分),仅0.9B参数,轻量高效,开箱即用。
免费试用