图像内容理解-图像智能分析-图片内容理解API接口介绍

2026-04-13 32

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 图像内容理解服务基于视觉大模型，支持人、物、行为、场景、文字等多维度识别，可生成一句话描述、分类标签及OCR文字信息。提供“提交请求”和“获取结果”两个API接口，适用于看图问答、视觉推理等场景。

简介

图像内容理解，即采用图像理解视觉大模型，可多维度识别与理解图片内容，包括人、物、行为、场景、文字等，支持输出对图片内容的一句话描述，同时返回图片的分类标签、文字内容等信息。主要功能包括：

图片理解与内容描述
多维度理解图片内容，支持输出对图片内容的一句话描述，结合大语言模型，可应用于看图问答、视觉推理等场景。
物体和场景全识别
识别动物、植物、商品、建筑、风景、动漫、食材、公众人物等10万个常见物体及场景，支持拼接返回大类及细分类名称。
图片文字全识别
检测并识别图片内的全部文字信息，涵盖文档、证件等常见场景，支持输出文字内容及文字位置。

API介绍

图像内容理解服务涉及 2 个接口，分别为：

图像内容理解-提交请求：支持传入图片、提问等参数，创建图像内容理解任务，该接口会返回任务ID。
图像内容理解-获取结果：在任务成功创建后，支持传入任务ID，查看任务处理的状态、获取处理完成后返回的结果。

详细说明请参考此处

提交请求

请求参数

名称	类型	必须	说明
image	String	否	图片的base64
url	String	否	图片完整 url，url 长度不超过 1024 字节
question	String	是	提问信息，如“这张图片里有什么？”、“图中的人物是谁，并进行简单介绍”,限制 100 个字符之内

image、url 必须提供一个，优先级：url > base64。大小不超过10M，最短边至少64px，最长边最大8192px，图片格式支持jpg/jpeg/png格式。超过4096px的图片，将被自动等比例压缩至4096px进行处理，压缩后会影响处理效果

返回样例

{
   
  "code": 200,// 返回码，详见返回码说明
  "msg": "成功",// 返回码对应描述
  "taskNo": "043439882226367117195632",// 本次请求号
  "data": {
   
    "taskId": "xxxx" //用于获取结果
  }
}

获取结果

请求参数

名称	类型	必须	说明
taskId	String	是	提交请求接口返回的taskId

返回样例

``` json
{
"code": 200,//返回码，详见返回码说明
"msg": "成功",//返回码对应描述
"taskNo": "571436032193067500962066",//本次请求号
"data": {
"resultCode": "0",//任务状态，0：处理成功；1：处理中
"description": "这张图里面有：\n\n1. 一个人正在讲台上讲话， xxxxxx",//针对输入的 question 问题，对图片内容进行分析后输出的答案
"resultMsg": "处理成功" //任务状态描述
}
}

图像内容理解-图像智能分析-图片内容理解API接口介绍

简介

API介绍

提交请求

请求参数

返回样例

获取结果

请求参数

返回样例

云市场头条

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像内容理解-图像智能分析-图片内容理解API接口介绍

简介

API介绍

提交请求

请求参数

返回样例

获取结果

请求参数

返回样例

云市场头条

热门文章

最新文章

相关电子书