文字识别的搜索结果_文章_第13页-阿里云开发者社区

耀骑士

|

7月前

|

博文

本文推荐了5款小众但实用的软件工具：MouseInc可通过手势操作提升效率；TagSpaces以标签化管理文件，打破传统目录结构；燃精灵可检测微信空号，助力精准营销；GIMP作为开源图像编辑器，功能媲美Photoshop；File Converter支持200+格式互转，满足多种文件处理需求。这些工具虽知名度不高，却各具特色，值得尝试。

# 编解码 # 人工智能 # 文字识别 # 数据库 # Python

飞川001

|

7月前

|

博文

Flutter敏感词过滤实战：基于AC自动机的高效解决方案

在社交、直播等场景中，敏感词过滤至关重要。本文介绍基于AC自动机的Flutter高效敏感词过滤方案，通过构建Trie树与失败指针实现线性时间复杂度的多模式匹配，支持干扰字符处理与动态优化。代码实战结合性能对比，助你打造毫秒级响应的过滤系统，适用于聊天、评论、内容审核等场景，保障平台安全。

# 机器学习/深度学习 # JSON # 自然语言处理 # 文字识别 # 安全

小白学大数据

|

8月前

|

博文

|

来自：大数据与机器学习

Python爬虫模拟登录并跳过二次验证

# 数据采集 # 文字识别 # API # 数据安全/隐私保护 # Python

modelscope

|

8月前

|

博文

|

来自： ModelScope模型即服务

看听说写四维突破：Qwen2.5-Omni 端到端多模态模型开源！

今天，通义千问团队发布了 Qwen2.5-Omni，Qwen 模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。

# 文字识别 # 测试技术 # 语音技术 # Docker # 容器

1918010837065910

|

8月前

|

博文

HarmonyOS NEXT AI基础视觉服务-文字识别

本案例展示了一款基于AI基础视觉服务的文字识别应用，通过调用设备相机拍摄照片并识别图片中的文字内容。主要实现步骤包括：1) 导入所需功能模块；2) 调用相机获取图片URI；3) 将图片转换为可识别的像素图；4) 配置视觉识别参数并执行文字识别；5) 构建界面组件，实现拍照与结果显示交互。核心要点涵盖相机权限、图像格式兼容及结构化识别结果处理，完整代码整合了各功能模块的调用流程，确保功能顺畅运行。

# 文字识别 # 人工智能 # 文字识别 # 计算机视觉

是Yu欸

|

8月前

|

博文

|

来自：通义大模型

从“泛读”到“精读”：合合信息文档解析如何让大模型更懂复杂文档？

随着deepseek等大模型逐渐步入视野，理论上文档解析工作应能大幅简化。然而，实际情况却不尽如人意。当前的多模态大模型虽然具备强大的视觉与语言交互能力，但在解析非结构化文档时，仍面临复杂版式、多元素混排以及严密逻辑推理等挑战。

# 机器学习/深度学习 # 人工智能 # 文字识别 # 算法 # 开发者

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

pdf-craft：PDF秒转Markdown/EPUB！接入DeepSeek轻松生成电子书，自动整理目录、注释和引文

pdf-craft是一款专注于处理扫描书籍PDF的开源工具，能精准提取正文内容并转换为Markdown/EPUB格式，通过AI算法解决跨页连贯性问题，是学术研究和电子书制作的利器。

# 自然语言处理 # 存储 # 人工智能 # 文字识别 # 算法 # 异构计算

modelscope

|

8月前

|

博文

|

来自： ModelScope模型即服务

Qwen2.5-VL-32B: 更聪明、更轻量!

年前，阿里通义千问团队推出了 Qwen2.5-VL 系列模型，获得了社区的广泛关注和积极反馈。在 Qwen2.5-VL 系列的基础上，研究团队使用强化学习持续优化模型，并使用 Apache 2.0 协议开源 32B 这个备受喜爱的参数规模的新 VL 模型—— Qwen2.5-VL-32B-Instruct。相比此前发布的 Qwen2.5-VL 系列模型，本次推出的 32B 模型的特点如下：

# 机器学习/深度学习 # 文字识别 # 测试技术 # API # Apache

modelscope

|

8月前

|

博文

|

来自： ModelScope模型即服务

今日论文推荐：MAPS、RoboFactory、OpenVLThinker等

由 AIRI 和 MIPT 等机构提出的这项工作，聚焦于视觉编码器生成的大量视觉 token 如何在保持高质量表征的同时减少计算成本。他们提出了一种自适应 token 削减方法，通过结合自编码器和 Gumbel-Softmax 选择机制，筛选出最具信息量的 token。实验表明，在 OCR 任务中可削减超 50% 的视觉上下文而不损失性能，为高效多模态推理开辟了新方向。

# 机器学习/深度学习 # 人工智能 # 文字识别 # vr&ar # 决策智能

耀骑士

|

8月前

|

博文

让你的电脑变得与众不同的冷门小工具

本文推荐了5款冷门但功能强大的小工具：1. MiniBin，轻量级回收站管理工具；2. AltairSimLab，多物理场仿真平台；3. 燃精灵，微信空号检测软件；4. IrfanView，经典图像查看器；5. Folder Size View，磁盘空间分析工具。这些软件体积小巧，功能出色，可大幅提升工作效率。

# 存储 # 文字识别 # 数据可视化

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

文字识别