文字识别的搜索结果_第17页-阿里云开发者社区

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

pdf-craft：PDF秒转Markdown/EPUB！接入DeepSeek轻松生成电子书，自动整理目录、注释和引文

pdf-craft是一款专注于处理扫描书籍PDF的开源工具，能精准提取正文内容并转换为Markdown/EPUB格式，通过AI算法解决跨页连贯性问题，是学术研究和电子书制作的利器。

# 自然语言处理 # 存储 # 人工智能 # 文字识别 # 算法 # 异构计算

modelscope

|

9月前

|

博文

|

来自： ModelScope模型即服务

Qwen2.5-VL-32B: 更聪明、更轻量!

年前，阿里通义千问团队推出了 Qwen2.5-VL 系列模型，获得了社区的广泛关注和积极反馈。在 Qwen2.5-VL 系列的基础上，研究团队使用强化学习持续优化模型，并使用 Apache 2.0 协议开源 32B 这个备受喜爱的参数规模的新 VL 模型—— Qwen2.5-VL-32B-Instruct。相比此前发布的 Qwen2.5-VL 系列模型，本次推出的 32B 模型的特点如下：

# 机器学习/深度学习 # 文字识别 # 测试技术 # API # Apache

modelscope

|

9月前

|

博文

|

来自： ModelScope模型即服务

今日论文推荐：MAPS、RoboFactory、OpenVLThinker等

由 AIRI 和 MIPT 等机构提出的这项工作，聚焦于视觉编码器生成的大量视觉 token 如何在保持高质量表征的同时减少计算成本。他们提出了一种自适应 token 削减方法，通过结合自编码器和 Gumbel-Softmax 选择机制，筛选出最具信息量的 token。实验表明，在 OCR 任务中可削减超 50% 的视觉上下文而不损失性能，为高效多模态推理开辟了新方向。

# 机器学习/深度学习 # 人工智能 # 文字识别 # vr&ar # 决策智能

耀骑士

|

9月前

|

博文

让你的电脑变得与众不同的冷门小工具

本文推荐了5款冷门但功能强大的小工具：1. MiniBin，轻量级回收站管理工具；2. AltairSimLab，多物理场仿真平台；3. 燃精灵，微信空号检测软件；4. IrfanView，经典图像查看器；5. Folder Size View，磁盘空间分析工具。这些软件体积小巧，功能出色，可大幅提升工作效率。

# 存储 # 文字识别 # 数据可视化

思通聚宝

|

9月前

|

博文

知识库管理：全流程智能化中枢，驱动企业信息资产高效流转

智能系统的知识库管理技术可以深度融合AI技术与精细化流程控制，提供从内容创建到版本追溯的全生命周期管理。支持多模态数据统一存储（文本、语音、图像等），实现自动化审核、智能分类与语义检索，确保企业知识资产的安全存储与高效利用，助力业务持续优化。核心功能包括多角色协作编辑、动态标签管理、历史版本追溯及毫秒级语义检索，大幅提升信息管理效率与准确性。

# 存储 # 人工智能 # 自然语言处理 # 文字识别 # 安全

小华同学ai

|

9月前

|

博文

1.6K star！这个开源文本提取神器，5分钟搞定PDF/图片/Office文档！

Kreuzberg 是一个基于 Python 的文本提取库，支持从 PDF、图像、Office 文档等 20+ 格式中提取文本内容。采用 MIT 开源协议，具备本地处理、异步架构、智能 OCR 等特性，特别适合需要隐私保护的文档处理场景。

# 人工智能 # 文字识别 # 自然语言处理 # 数据安全/隐私保护 # Python

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Umi-OCR：31K Star！离线OCR终结者！公式+二维码+多语种，开源免费吊打付费

Umi-OCR 是一款免费开源的离线 OCR 文字识别工具，支持截图、批量图片、PDF 扫描件的文字识别，内置多语言识别库，提供命令行和 HTTP 接口调用功能。

# 视觉智能开放平台 # 机器学习/深度学习 # 人工智能 # 文字识别 # 自然语言处理 # 算法

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

SmolDocling：256M多模态小模型秒转文档！开源OCR效率提升10倍

SmolDocling 是一款轻量级的多模态文档处理模型，能够将图像文档高效转换为结构化文本，支持文本、公式、图表等多种元素识别，适用于学术论文、技术报告等多类型文档。

# 图像识别 # 人工智能 # 文字识别 # 异构计算

modelscope

|

9月前

|

博文

|

来自： ModelScope模型即服务

Gemma3：Google开源多模态神器，轻量高效，精通140+语言，解锁文本与图像任务

在当今快速发展的 AI 领域，多模态模型正逐渐成为推动技术革新的重要力量。Google 最新推出的 Gemma 3 模型，凭借其轻量级、多模态的特性，为文本生成和图像理解任务带来了全新的可能性。它不仅支持文本和图像输入，还具备强大的语言处理能力，覆盖超过 140 种语言，并且能够在资源有限的设备上高效运行。从问答到摘要，从推理到图像分析，Gemma 3 正在重新定义 AI 模型的边界，为开发者和研究人员提供了一个极具潜力的工具。

# 人工智能 # 编解码 # 自然语言处理 # 文字识别 # 开发者

思通聚宝

|

9月前

|

博文

智能系统的知识库管理技术

本方案聚焦智能系统的知识库管理，深度融合AI技术与精细化流程控制。通过多模态数据统一存储，实现文本、语音、图像等全格式兼容与智能解析；构建全流程内容管理体系，涵盖创建、审核、更新环节，确保信息精准可靠；提供智能标签分类、版本追溯功能，支持秒级定位与历史对比；采用语义检索技术，打破数据孤岛，助力企业高效利用与优化知识资产，保障安全存储及持续增值。

# 存储 # 人工智能 # 自然语言处理 # 文字识别 # 安全

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

文字识别