文字识别

首页 标签 文字识别
# 文字识别 #
关注
5992内容
HiDream-O1开源:8B参数像素级统一Transformer
HiDream-O1-Image是HiDream.ai开源的8B参数像素级统一生成模型,摒弃VAE与分离文本编码器,首创UiT架构实现文本、图像、任务条件在共享token空间端到端联合建模。支持2048×2048高清生成、多镜头/多语言渲染、指令编辑与主体个性化,在GenEval等基准刷新SOTA。含50步未蒸馏版与28步Dev加速版,并集成推理驱动提示代理。
自动识别图片点击脚本,文字识别自动点击器, 能识别屏幕内容并自动点击
本方案采用OCR文字识别+图像匹配双模式识别技术: OCR引擎识别屏幕文字内容 OpenCV模板匹配识别图形元素 PyAutoGUI实现
|
9月前
|
Python实现PDF图片OCR识别:从原理到实战的全流程解析
本文详解2025年Python实现扫描PDF文本提取的四大OCR方案(Tesseract、EasyOCR、PaddleOCR、OCRmyPDF),涵盖环境配置、图像预处理、核心识别与性能优化,结合财务票据、古籍数字化等实战场景,助力高效构建自动化文档处理系统。
|
7月前
| |
通义千问大模型驱动的法律智能体创新实践
律杏法务云是基于阿里云通义千问大模型构建的新一代法律人工智能平台,通过深度融合OCR、NLP、知识图谱技术与千亿参数级语言模型,在企业法务管理领域实现了从信息抽取、文书生成到风险预警的全流程智能化。本文将深入剖析其技术架构与五大核心模块,揭示大模型如何重塑现代法务工作范式。
|
3月前
| |
来自: 弹性计算
阿里云AI产品免费试用:7000万Tokens+30款产品零成本体验!
阿里云推出“AI免费试用”活动:新用户享7000万Tokens、100张图+50秒视频生成额度,覆盖通义千问Qwen3、万相2.6等30+款AI产品。零门槛开通即用,支持Agent搭建、代码生成、NLP/视觉智能等全场景实践,助开发者低成本启航AI应用开发。
十个问题读懂OA办公系统
OA系统不仅是审批请假、报销的工具,更是企业内部事务协同的重要平台。它涵盖行政、人事、财务等多方面流程管理,通过数字化手段提升效率、规范操作、实现数据留痕。本文详解OA系统的功能、适用场景及实施要点,帮助企业管理更高效、制度更落地。
腾讯混元 HunyuanVideo 1.5 开源!
腾讯混元团队开源HunyuanVideo 1.5,一款8.3B参数的轻量级视频生成模型,基于DiT架构,支持文生视频、图生视频,可在14G显存设备运行,生成5-10秒高清视频,具备强指令响应、流畅动作与电影级画质。
|
2月前
|
阿里云Tokens如何收费?免费千万Tokens领取及亿万AI大模型扶持计划申请入口
2026年阿里云Tokens计费实行输入/输出分离、阶梯定价:Qwen-Max为2.4/9.6元/百万,Qwen-Plus按Token量分档计费。新用户开通百炼平台:https://t.aliyun.com/U/fPVHqY 即赠7000万免费Tokens(每模型各100万,有效期90天),企业还可申请万亿Tokens扶持。
免费试用