文字识别的搜索结果_文章_第15页-阿里云开发者社区

蚝油菜花

|

7月前

|

博文

|

OmniAlign-V：20万高质量多模态数据集开源，让AI模型真正对齐人类偏好

OmniAlign-V 是由上海交通大学、上海AI Lab等机构联合推出的高质量多模态数据集，旨在提升多模态大语言模型与人类偏好的对齐能力。该数据集包含约20万个多模态训练样本，涵盖自然图像和信息图表，结合开放式问答对，支持知识问答、推理任务和创造性任务。

# 图像识别 # 数据采集 # 人工智能 # 文字识别 # 测试技术

小华同学ai

|

7月前

|

博文

3.4K star！全能PDF处理神器开源！文档转换/OCR识别一键搞定

PDF-Guru 是一款开箱即用的全能型PDF处理工具，支持跨平台文档转换、智能OCR识别、多格式解析等核心功能。项目采用模块化架构设计，提供简洁的Web界面和API接口，开发者可快速集成到现有系统中。

# 文字识别 # BI # API # 开发者 # Python

技术小达人

|

7月前

|

博文

新书上线 |《零门槛AIGC应用实战——Serverless+AI 轻松玩转高频AIGC场景》免费下载

# 函数计算 # 人工智能 # 运维 # 文字识别 # Serverless # 开发者

技术内容小助手

|

7月前

|

博文

|

来自：通义大模型

通义两大模型，正式开源！

# 大模型服务平台百炼 # 人工智能 # JSON # 文字识别 # API # UED

码农小达人

|

8月前

|

博文

阿里国际Ovis2系列模型开源：多模态大语言模型的新突破

# 机器学习/深度学习 # 存储 # 文字识别 # 算法 # 计算机视觉

技术小达人

|

8月前

|

博文

OpenSearch LLM智能问答版全新升级

# 智能开放搜索 OpenSearch # 存储 # 人工智能 # 自然语言处理 # 文字识别 # 索引

技术内容小助手

|

8月前

|

博文

Qwen2.5-VL！Qwen2.5-VL！！Qwen2.5-VL！！！

# 机器学习/深度学习 # 编解码 # JSON # 文字识别 # 数据格式

技术内容小助手

|

8月前

|

博文

超顶的视觉理解模型怎么用？Qwen2.5-VL Cookbook教会你！

# JSON # 文字识别 # 测试技术 # API # 开发者

技术内容小助手

|

8月前

|

博文

新书上线 |《零门槛AIGC应用实战——Serverless+AI 轻松玩转高频AIGC场景》免费下载

# 函数计算 # 人工智能 # 运维 # 文字识别 # Serverless # 开发者

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

R1-Onevision：开源多模态推理之王！复杂视觉难题一键解析，超越GPT-4V

R1-Onevision 是一款开源的多模态视觉推理模型，基于 Qwen2.5-VL 微调，专注于复杂视觉推理任务。它通过整合视觉和文本数据，能够在数学、科学、深度图像理解和逻辑推理等领域表现出色，并在多项基准测试中超越了 Qwen2.5-VL-7B 和 GPT-4V 等模型。

# 云解析DNS # 机器学习/深度学习 # 人工智能 # 编解码 # 文字识别 # 测试技术

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

文字识别