文字识别

首页 标签 文字识别
# 文字识别 #
关注
5992内容
Qwen3-VL新成员 2B、32B来啦!更适合开发者体质
Qwen3-VL家族重磅推出2B与32B双版本,轻量高效与超强推理兼备,一模型通吃多模态与纯文本任务!
阿里云AI产品免费试用活动介绍:超30款AI产品和7000万大模型 tokens 免费体验
阿里云2026年面向产品新用户推出的AI免费试用活动,提供超30款AI产品和7000万大模型tokens免费体验,零成本构建AI应用。核心权益包括:通义千问3系列、Qwen3-Coder、万相-Image等150+款大模型免费使用,100+Agent模板开箱即用,PAI平台一键部署大模型,以及NLP自然语言处理、视觉智能等10余款产品最长12个月免费试用。
论文推荐|[NAACL 2019] 基于图卷积网络的视觉富文本数据中文档图像信息抽取
简要介绍NAACL 2019录用论文“Graph Convolution for Multimodal Information Extraction from Visually Rich Documents”的主要工作。该论文主要针对视觉富文本数据的信息抽取问题,提出了一种图卷积网络,结合文本信息与视觉信息,取得了比纯文本方法更好的效果。
带你读《计算机文化》之一:Digital Content
在全球信息化大潮的推动下,我国的计算机产业发展迅猛,对专业人才的需求日益迫切,而专业教材的建设在教育战略上显得举足轻重,因此,引进一批国外优秀计算机教材将对我国计算机教育事业的发展起到积极的推动作用,也是与世界接轨、建设真正的世界一流大学的必由之路。
Mobile-Agent:通过视觉感知实现自动化手机操作,支持多应用跨平台
Mobile-Agent 是一款基于多模态大语言模型的智能代理,能够通过视觉感知自主完成复杂的移动设备操作任务,支持跨应用操作和纯视觉解决方案。
HiDream-O1开源:8B参数像素级统一Transformer
HiDream-O1-Image是HiDream.ai开源的8B参数像素级统一生成模型,摒弃VAE与分离文本编码器,首创UiT架构实现文本、图像、任务条件在共享token空间端到端联合建模。支持2048×2048高清生成、多镜头/多语言渲染、指令编辑与主体个性化,在GenEval等基准刷新SOTA。含50步未蒸馏版与28步Dev加速版,并集成推理驱动提示代理。
自动识别图片点击脚本,文字识别自动点击器, 能识别屏幕内容并自动点击
本方案采用OCR文字识别+图像匹配双模式识别技术: OCR引擎识别屏幕文字内容 OpenCV模板匹配识别图形元素 PyAutoGUI实现
|
9月前
|
Python实现PDF图片OCR识别:从原理到实战的全流程解析
本文详解2025年Python实现扫描PDF文本提取的四大OCR方案(Tesseract、EasyOCR、PaddleOCR、OCRmyPDF),涵盖环境配置、图像预处理、核心识别与性能优化,结合财务票据、古籍数字化等实战场景,助力高效构建自动化文档处理系统。
|
7月前
| |
通义千问大模型驱动的法律智能体创新实践
律杏法务云是基于阿里云通义千问大模型构建的新一代法律人工智能平台,通过深度融合OCR、NLP、知识图谱技术与千亿参数级语言模型,在企业法务管理领域实现了从信息抽取、文书生成到风险预警的全流程智能化。本文将深入剖析其技术架构与五大核心模块,揭示大模型如何重塑现代法务工作范式。
十个问题读懂OA办公系统
OA系统不仅是审批请假、报销的工具,更是企业内部事务协同的重要平台。它涵盖行政、人事、财务等多方面流程管理,通过数字化手段提升效率、规范操作、实现数据留痕。本文详解OA系统的功能、适用场景及实施要点,帮助企业管理更高效、制度更落地。
免费试用