图像内容理解-图像智能分析-图片内容理解API接口介绍

简介: 图像内容理解服务基于视觉大模型,支持人、物、行为、场景、文字等多维度识别,可生成一句话描述、分类标签及OCR文字信息。提供“提交请求”和“获取结果”两个API接口,适用于看图问答、视觉推理等场景。

简介

图像内容理解,即采用图像理解视觉大模型,可多维度识别与理解图片内容,包括人、物、行为、场景、文字等,支持输出对图片内容的一句话描述,同时返回图片的分类标签、文字内容等信息。主要功能包括:

  1. 图片理解与内容描述
    多维度理解图片内容,支持输出对图片内容的一句话描述,结合大语言模型,可应用于看图问答、视觉推理等场景。

  2. 物体和场景全识别
    识别动物、植物、商品、建筑、风景、动漫、食材、公众人物等10万个常见物体及场景,支持拼接返回大类及细分类名称。

  3. 图片文字全识别
    检测并识别图片内的全部文字信息,涵盖文档、证件等常见场景,支持输出文字内容及文字位置。

API介绍

图像内容理解服务涉及 2 个接口,分别为:

图像内容理解-提交请求:支持传入图片、提问等参数,创建图像内容理解任务,该接口会返回任务ID。
图像内容理解-获取结果:在任务成功创建后,支持传入任务ID,查看任务处理的状态、获取处理完成后返回的结果。

详细说明请参考此处

提交请求

请求参数

名称 类型 必须 说明
image String 图片的base64
url String 图片完整 url,url 长度不超过 1024 字节
question String 提问信息,如“这张图片里有什么?”、“图中的人物是谁,并进行简单介绍”,限制 100 个字符之内
  • image、url 必须提供一个,优先级:url > base64。大小不超过10M,最短边至少64px,最长边最大8192px,图片格式支持jpg/jpeg/png格式。超过4096px的图片,将被自动等比例压缩至4096px进行处理,压缩后会影响处理效果

返回样例

{
   
  "code": 200,// 返回码,详见返回码说明
  "msg": "成功",// 返回码对应描述
  "taskNo": "043439882226367117195632",// 本次请求号
  "data": {
   
    "taskId": "xxxx" //用于获取结果
  }
}

获取结果

请求参数

名称 类型 必须 说明
taskId String 提交请求接口返回的taskId

返回样例

``` json
{
"code": 200,//返回码,详见返回码说明
"msg": "成功",//返回码对应描述
"taskNo": "571436032193067500962066",//本次请求号
"data": {
"resultCode": "0",//任务状态,0:处理成功;1:处理中
"description": "这张图里面有:\n\n1. 一个人正在讲台上讲话, xxxxxx",//针对输入的 question 问题,对图片内容进行分析后输出的答案
"resultMsg": "处理成功" //任务状态描述
}
}

相关文章
|
20天前
|
算法 API
翻拍识别-翻拍检测-图片翻拍识别-图像翻拍检测-图片造假检测API接口介绍
翻拍识别API可精准识别手机翻拍的货架、促销等零售场景图片,有效防范造假。针对模糊、摩尔纹、边框等优化,准确率达99%,支持Base64、文件、URL三种输入方式,返回翻拍/原图分类及置信度。
139 9
|
21天前
|
API
火车票余额票价查询-火车车次时刻查询-火车查询-火车车站查询API接口介绍
本文介绍与12306同步的火车查询API,涵盖余票、票价、时刻、车次、车站等信息。提供两大接口:火车票查询(支持出发/到达站、日期、高铁筛选)和过站停留查询(需车次UUID及站点编码),助力快速集成至自有系统。
284 8
|
18天前
|
安全 API
广告敏感词过滤-敏感词-文本审核-敏感词过滤-敏感词检测
本工具提供文本合规检测服务,精准识别广告法违禁词、极限用语(如“顶级”“全网首发”)、色情低俗、辱骂攻击及低质灌水等内容,支持电商文案、短视频脚本、企业宣传物料等多场景审核,保障内容安全合规。
197 10
|
1月前
|
人工智能 弹性计算 自然语言处理
OpenClaw是什么?阿里云OpenClaw一键部署官方教程(原Clawdbot/Moltbot)
2026年,开源AI智能体OpenClaw(“龙虾AI”)爆火。它是一款遵循MIT开源协议的AI自动化引擎与个人助手平台,能将大模型从“对话”变为“执行任务”。其核心架构由网关、智能体、技能和记忆构成,可自主行动、跨平台协同且高度可扩展。阿里云提供官方镜像一键部署方案,新用户首月服务器成本9.9元,还有大模型免费额度。
741 21
|
2月前
|
数据采集 人工智能 算法
生成式引擎优化:深度解析站内与站外维度的协同共振
AI搜索时代,SEO正加速升级为GEO(生成式引擎优化)。麦肯锡预测:2028年75%+谷歌搜索含AI摘要。于磊老师首创“两大核心+四轮驱动”GEO方法论——以人性化内容与交叉验证筑基,融合EEAT、语义结构、意图关键词及权威引用,实现站内“被读懂”与站外“被信任”的协同增效。
129 12
|
28天前
|
弹性计算 5G 云计算
2026年阿里云秒杀活动全攻略:时间、入口、抢购技巧
阿里云2026秒杀活动升级上线!新用户专享轻量服务器38元/年、9.9元/月起,每日10:00/15:00两场抢购。含实名认证要求、抢购技巧及68元/年起备选方案,助你低成本高效上云!
304 18
|
25天前
|
人工智能 API 网络安全
神级组合!阿里云部署 OpenClaw X 飞书 CLI,开启 Agent 基建新时代!(附免费使用6个月服务器)
2026年,AI 与自动化基础设施进入全面落地阶段,各类厂商纷纷开放命令行工具(CLI),标志着软件交互从“为人设计”正式转向“为 AI 设计”。本文以阿里云轻量应用服务器(Lighthouse)为载体,完整呈现**一键部署 OpenClaw、对接飞书 CLI、实现 AI 全自动执行任务**的全流程,让 AI 真正拥有“动手能力”,实现消息自动发送、文献自动整理、知识库自动维护等高频办公场景,真正做到一句话下达指令,AI 全程独立完成。
318 26
|
25天前
|
弹性计算 人工智能 API
阿里云ECS云服务器快速部署OpenClaw实战|千问大模型Qwen3.6-Plus一站式配置教程
随着AI智能体技术不断成熟,OpenClaw(曾用名Clawdbot)已经成为轻量化、可扩展、高稳定性的开源AI执行框架代表。它能够将自然语言指令转化为真实可执行的系统操作、文件处理、信息检索、流程自动化任务,真正实现从“对话”到“执行”的落地。
598 29
|
25天前
|
人工智能 机器人 API
阿里云服务器玩转OpenClaw教程|免费领6月云服务器+配置+飞书接入+让龙虾成为公众号自动化智能分身指南
很多AI爱好者因为缺少稳定服务器,无法长期运行OpenClaw智能体。本文带来一套**零成本阿里云服务器部署方案**,手把手教你搭建OpenClaw环境,并将其改造成可以24小时运行的**公众号智能分身**,实现热点聚合、内容拆解、选题生成、公众号自动发布等全流程自动化能力。
336 24
|
7天前
|
负载均衡 并行计算 数据可视化
在阿里云花费1元:快速体验DeepSeek-V4-Pro,基于阿里云百炼免费领取100万Token
阿里云推出DeepSeek-V4-Pro体验方案,开通百炼平台:https://t.aliyun.com/U/fPVHqY 仅1元即可通过百炼平台领取100万免费Token,5分钟快速调用;或选择GPU服务器部署(约1600元),享受满血版高性能推理。支持超长上下文与领先Agent能力。
325 8