文字识别的搜索结果_热门_第16页-阿里云开发者社区

泡沫o0

|

博文

【C/C++ OCR识别】深入探索：Qt C++与OCR识别的完美结合

# 云解析DNS # 机器学习/深度学习 # 文字识别 # 并行计算 # C++ # 计算机视觉

VipSoft

|

博文

百度飞桨(PaddlePaddle) - PP-OCRv3 文字检测识别系统 Paddle Inference 模型推理（离线部署）

# GPU云服务器 # 文字识别 # 数据可视化 # Python

哈德门66

|

9月前

|

博文

实战阿里通义灵码极速编程-截屏-OCR-OLlama篇

通过实际案例展示阿里通义灵码如何极大提高编程效率。以开发屏幕截图OCR Python程序为例，使用Win10、Anaconda3、VS Code及通义灵码插件。经过四次提问与优化，从截屏选择矩形区域到调用大模型进行OCR识别，整个过程仅耗时半小时，最终形成可运行的控制台程序。加入界面开发后，总用时2小时，显著提升开发速度和质量。

# 文字识别 # 文字识别 # 程序员 # C++ # Python

老乡别走

|

8月前

|

博文

|

来自：视觉智能

如何使用OCR技术批量识别图片中的文字并重命名文件，OCR 技术批量识别图片中的文字可能出现的错误

### 简介【批量识别图片内容重命名】工具可批量识别图片中的文字并重命名文件，方便高效处理大量图片。然而，OCR 技术面临字符识别错误（如形近字混淆、生僻字识别不佳）、格式错误（段落错乱、换行问题）和语义理解错误等挑战。为提高准确性，建议提升图片质量、选择合适的 OCR 软件及参数，并结合自动校对与人工审核，确保最终文本的正确性和完整性。

# 视觉智能开放平台 # 编解码 # 文字识别 # 自然语言处理 # 数据安全/隐私保护

Deephub

|

6月前

|

博文

|

来自：大数据与机器学习

SigLIP 2：多语言语义理解、定位和密集特征的视觉语言编码器

SigLIP 2 是一种改进的多语言视觉-语言编码器系列，通过字幕预训练、自监督学习和在线数据管理优化性能。它在零样本分类、图像-文本检索及视觉表示提取中表现卓越，支持多分辨率处理并保持图像纵横比。模型提供 ViT-B 至 g 四种规格，采用 WebLI 数据集训练，结合 Sigmoid 损失与自蒸馏等技术提升效果。实验表明，SigLIP 2 在密集预测、定位任务及多模态应用中显著优于前代和其他基线模型。

# 机器学习/深度学习 # 编解码 # 自然语言处理 # 文字识别 # 数据管理

modelscope

|

3月前

|

博文

|

来自： ModelScope模型即服务

Nanonets-OCR-s开源！复杂文档转Markdown SoTA，颠覆复杂文档工作流

Nanonets团队开源了 Nanonets-OCR-s，该模型基于Qwen2.5-VL-3B微调，9G显存就能跑。

# 存储 # 人工智能 # 文字识别 # 数据安全/隐私保护 # 异构计算

小华同学ai

|

6月前

|

博文

1.6K star！这个开源文本提取神器，5分钟搞定PDF/图片/Office文档！

Kreuzberg 是一个基于 Python 的文本提取库，支持从 PDF、图像、Office 文档等 20+ 格式中提取文本内容。采用 MIT 开源协议，具备本地处理、异步架构、智能 OCR 等特性，特别适合需要隐私保护的文档处理场景。

# 人工智能 # 文字识别 # 自然语言处理 # 数据安全/隐私保护 # Python

游客ib7xsk7hcucuo

|

3月前

|

博文

顺丰同城抢单辅助脚本，顺丰骑士抢单辅助免封号，自动抢单神器【java版开源】

这是一套OCR实时检测订单列表并自动右滑的完整代码方案，适用于学习研究。代码包含四个主要模块：OCR处理（文字识别）、价格分析

# 文字识别 # 监控 # Java # Python

Deephub

|

23天前

|

博文

|

来自：大数据与机器学习

Dots.ocr：告别复杂多模块架构，1.7B参数单一模型统一处理所有OCR任务22

Dots.ocr 是一款仅1.7B参数的视觉语言模型，正在重塑文档处理技术。它将布局检测、文本识别、阅读顺序理解和数学公式解析等任务统一于单一架构，突破传统OCR多模块流水线的限制。在多项基准测试中，其表现超越大参数模型，展现出“小而精”的实用价值，标志着OCR技术向高效、统一、灵活方向演进。

# 编解码 # 文字识别 # 自然语言处理 # 测试技术 # 开发者

yunmai

|

4月前

|

博文

OCR技术：解锁文字识别的无限可能

OCR（光学字符识别）技术是数字化浪潮中的关键工具，可将纸质文档、手写笔记或复杂背景下的文字图像转化为可编辑文本。本文从图像采集、预处理、字符识别到文本校正，全面解析OCR技术的原理，并探讨其在智能办公、智慧交通、便捷生活等领域的广泛应用。未来，OCR将与自然语言处理、计算机视觉等技术深度融合，推动智能化和综合化发展。通过开放生态系统和政策支持，开发者可探索更多创新场景，如古籍数字化、盲人阅读等，为社会带来更多价值。

# 文字识别 # 机器学习/深度学习 # 文字识别 # 自然语言处理 # 算法 # 开发者

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

文字识别