文字识别的搜索结果_文章_第18页-阿里云开发者社区

游客jpyzg2kj5q46s

|

9月前

|

博文

该系统融合了案件云、脑机接口云、情绪感知云及互联网，涵盖审讯室终端。通过人脸识别验证人员信息后启动设备，利用语音转文字、情绪和脑机接口记录数据，并与其他执法网交换信息。智能云平台根据需求提供服务，如证据展示、健康监测等。系统通过OCR识别、数据搜集与分析，支持警方审讯并推送相关信息到显示器，实现智慧化审讯。

# 智能语音交互 # 文字识别 # 数据处理 # 语音技术 # Android开发 # 计算机视觉

modelscope

|

9月前

|

博文

|

来自： ModelScope模型即服务

MiniCPM-o 2.6：流式全模态，端到端，多模态端侧大模型来了！

MiniCPM-o 2.6 是 MiniCPM-o 系列的最新、性能最佳模型。该模型基于 SigLip-400M、Whisper-medium-300M、ChatTTS-200M 和 Qwen2.5-7B 构建，共 8B 参数，通过端到端方式训练和推理。相比 MiniCPM-V 2.6，该模型在性能上有了显著提升，并支持了实时语音对话和多模态流式交互的新功能。

# 编解码 # 文字识别 # 语音技术 # Swift # Python

技术小达人

|

9月前

|

博文

开放应用架构，建设全新可精细化运营的百炼

本次分享的主题是开放应用架构，建设全新可精细化运营的百炼。由阿里云智能集团专家团队介绍在过去一年中，百炼在RAG（检索增强生成）技术的应用落地所遇到的挑战及解决方案。

# 客服工作台 # 云解析DNS # 存储 # 自然语言处理 # 文字识别 # 算法 # 开发者

穿过生命散发芬芳

|

9月前

|

博文

方案测评 | 多模态数据信息提取极速体验

多模态数据信息提取方案基于先进AI技术，能高效处理文本、图像、音频和视频等不同格式文件，提取有价值信息。该方案通过深度学习、自然语言处理等技术，实现结构化信息挖掘与分析，支持批处理模式，显著提高大规模数据处理效率，降低业务成本。用户可通过阿里云平台一键部署，无需数据搬运，确保高效安全的数据处理体验。此方案在性能和易用性上表现出色，具有广泛的应用价值和市场前景。

# 域名与网站 # 函数计算 # 机器学习/深度学习 # 自然语言处理 # 文字识别 # Serverless # 数据处理

技术小达人

|

9月前

|

博文

云端问道23期—实操讲解（5种提取方式）

本次方案的主题是多模态数据信息提取，介绍了如何基于大模型搭建信息提取应用，总共包含了五个场景，分别是文本信息提取、文档文件信息提取、图片OCR信息提取、图片结构化属性提取以及视频理解与内容提取。 1. 内容产品架构图分析 2. 文本信息提取 3. 文档文件信息提取 4. 图片OCR信息提取 5. 图片结构化的属性提取 6. 视频理解与内容提取

# 域名与网站 # 函数计算 # 对象存储 # 存储 # 文字识别 # Serverless # 对象存储

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

NVIDIA-Ingest：英伟达开源智能文档提取及结构化工具，支持 GPU 加速和并行处理

NVIDIA-Ingest 是英伟达开源的智能文档提取工具，支持 PDF、Word、PPT 等多种格式，提供并行处理和 GPU 加速，适用于企业内容管理和生成式应用。

# GPU云服务器 # 图像识别 # 人工智能 # 文字识别 # 异构计算 # 微服务 # Python

warmhearted

|

9月前

|

博文

多模态数据信息提取解决方案评测报告

《多模态数据信息提取解决方案评测报告》评估了该方案在处理文本、图像、音频和视频等非结构化数据方面的表现。评测涵盖部署界面易用性、文档质量、函数模板效率、官方示例验证效果及五种信息提取方案的实际适用性。结果显示，该方案技术先进、界面友好、文档详尽，但在高级设置项的可见性、特定音频和低分辨率图像解析精度等方面仍有改进空间。整体而言，它为用户提供了一个强大的数据处理工具，尤其适合需要高效处理多模态数据的企业和个人。

# 文字识别 # 数据处理 # UED # 开发者

技术员阿伟

|

9月前

|

博文

《探索鸿蒙Next上人工智能图像编辑应用的技术路径》

在鸿蒙Next系统的支持下，AI图像编辑应用迎来新机遇。开发者可利用系统原生AI能力（如智能识别、OCR文字识别与抠图），集成第三方AI框架（如TensorFlow、PyTorch），运用分布式技术实现多设备协同编辑，并采用微内核架构和原子化服务提升安全性和用户体验。此外，优化用户交互设计，提供简洁直观的操作界面，确保应用高效稳定运行。

# 人工智能 # 文字识别 # 算法框架/工具 # 开发者 # UED

html的七十二变

|

9月前

|

博文

阿里云多模态数据信息提取解决方案评测

本评测涵盖阿里云多模态数据信息提取解决方案的部署操作界面、文档、函数应用模板、官方示例验证及信息提取方案的实用性与可移植性。界面简洁但部分参数解释不足；文档逻辑清晰，特殊权限配置说明有限；模板简化部署，自定义扩展指导欠缺；官方示例基本功能齐全，复杂场景验证不足；信息提取方案实用性强，但跨平台兼容性需改进。总体表现良好，细节优化空间大。

# 存储 # 文字识别 # Serverless # 数据处理 # 对象存储

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

VideoRAG：长视频理解的检索增强生成技术，支持多模态信息提取，能与任何 LVLM 兼容

VideoRAG 是一种用于长视频理解的检索增强生成技术，通过提取视频中的视觉对齐辅助文本，帮助大型视频语言模型更好地理解和处理长视频内容。

# 视觉智能开放平台 # 存储 # 人工智能 # 文字识别 # 语音技术 # 数据库

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

文字识别