文字识别的搜索结果_热门_第17页-阿里云开发者社区

技术小阿哥

|

博文

SendInput模拟键盘输入的问题 <转>

# 消息中间件 # 文字识别 # 语音技术 # Windows

禾路

|

博文

集装箱项目

集装箱体本身的特征有三，一是图片中的需要识别的文字比较大；二是需要识别的文字色彩鲜艳；三是文字周围的干扰比较多，所以直接识别，即使是使用finereader这种软件都无法完成。所以，第一步需要做的就是更换图片区域，强调联通。

# 文字识别

modelscope

|

4天前

|

博文

|

来自： ModelScope模型即服务

Qwen3-VL再添丁！4B/8B Dense模型开源，更轻量，仍强大

凌晨，Qwen3-VL系列再添新成员——Dense架构的Qwen3-VL-8B、Qwen3-VL-4B 模型，本地部署友好，并完整保留了Qwen3-VL的全部表现，评测指标表现优秀。

# 编解码 # 自然语言处理 # 文字识别 # 前端开发 # JavaScript

六月的雨在钉钉

|

博文

|

来自：通义大模型

通义听悟--一个懂你的AI助理

介绍什么是通义听悟以及通义听悟的功能体验

# 智能语音交互 # 智能语音交互 # 大模型服务平台百炼 # 人工智能 # 文字识别 # 小程序

AI小怪兽

|

博文

|

来自：大数据与机器学习

ultralytics YOLO11 全新发布！（原理介绍+代码详见+结构框图）

本文详细介绍YOLO11，包括其全新特性、代码实现及结构框图，并提供如何使用NEU-DET数据集进行训练的指南。YOLO11在前代基础上引入了新功能和改进，如C3k2、C2PSA模块和更轻量级的分类检测头，显著提升了模型的性能和灵活性。文中还对比了YOLO11与YOLOv8的区别，并展示了训练过程和结果的可视化

# 机器学习/深度学习 # 人工智能 # 文字识别 # 数据可视化 # 计算机视觉

啦啦啦191

|

8天前

|

博文

|

来自：数据库

Umi-OCR_文字识别工具免安装使用教程（附下载安装包）!永久免费，开源离线OCR识别软件下载

Umi-OCR是一款开源免费、支持离线运行的高精度OCR文字识别工具，基于深度学习技术，可快速识别中文、英文、日文等多种语言。无需联网，保护隐私，适用于Windows和Linux系统，解压即用，操作简便，是处理图片转文本的理想选择。

# 文字识别 # 机器学习/深度学习 # 文字识别 # Linux # Windows

程序员晚枫

|

6月前

|

博文

GitHub封锁？推荐5个国产的Git仓库替代平台

近日，GitHub对中国区IP的部分限制引发了广泛关注。未登录用户被拒，已登录用户功能受限，南北网络环境差异更显“内卷”。为应对这一挑战，本文推荐了多个国产Git平台：Gitee（码云）、GitCode（CSDN旗下）、CODING（腾讯系）、CodeUP（阿里云支持）及微信代码管理工具。这些平台功能全面、稳定性强，是开发者迁移项目的理想选择。通过同步代码、配置CI/CD流水线等简单步骤，可确保项目平稳过渡。此次事件提醒我们，掌握核心技能与支持国产平台同样重要！

# 文字识别 # 网络协议 # 开发工具 # git # 开发者

西安网极

|

博文

如何利用OCR进行营业执照图片识别？

使用营业执照识别技术，实现对企业信息的结构化识别和录入，可应用于电商、零售、O2O等行业的商户入驻审查场景，实现商户信息的自动化审查和录入，有效提高客户体验，并大幅度提升服务标准和运营效率首先，激活使用权限，点此链接然后，进行在线调试看是否成功，如下图：返回数据如下： { "code": .

# 文字识别 # JSON # 文字识别 # 前端开发 # JavaScript # 数据格式

深圳快瞳科技有限公司

|

8月前

|

博文

|

来自：视觉智能

分析对比大模型OCR、传统OCR和深度学习OCR

OCR技术近年来迅速普及，广泛应用于文件扫描、快递单号识别、车牌识别及日常翻译等场景，极大提升了便利性。其发展历程从传统方法（基于模板匹配和手工特征设计）到深度学习（采用CNN、LSTM等自动学习高级语义特征），再到大模型OCR（基于Transformer架构，支持跨场景泛化和少样本学习）。每种技术在特定场景下各有优劣：传统OCR适合实时场景，深度学习OCR精度高但依赖大量数据，大模型OCR泛化能力强但训练成本高。未来，大模型OCR将结合多模态预训练，向通用文字理解方向发展，与深度学习OCR形成互补生态，最大化平衡成本与性能。

# 视觉智能开放平台 # 机器学习/深度学习 # 文字识别 # 自然语言处理 # 异构计算

阿里云开发者

|

23天前

|

博文

你们催更的模型，云栖大会一口气全发了！

通义发布6款全新模型及“通义百聆”语音品牌，覆盖文本、视觉、语音、视频、代码、图像全场景。Qwen系列升级显著提升多模态理解与生成能力，Wan2.5支持音画同步，百聆攻克企业语音落地难题，全面赋能AI应用创新。

# 人工智能 # 自然语言处理 # 文字识别 # 云栖大会 # 语音技术

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

文字识别