图像内容理解-图像智能分析-图片内容理解API接口介绍

简介: 图像内容理解服务基于视觉大模型,支持人、物、行为、场景、文字等多维度识别,可生成一句话描述、分类标签及OCR文字信息。提供“提交请求”和“获取结果”两个API接口,适用于看图问答、视觉推理等场景。

简介

图像内容理解,即采用图像理解视觉大模型,可多维度识别与理解图片内容,包括人、物、行为、场景、文字等,支持输出对图片内容的一句话描述,同时返回图片的分类标签、文字内容等信息。主要功能包括:

  1. 图片理解与内容描述
    多维度理解图片内容,支持输出对图片内容的一句话描述,结合大语言模型,可应用于看图问答、视觉推理等场景。

  2. 物体和场景全识别
    识别动物、植物、商品、建筑、风景、动漫、食材、公众人物等10万个常见物体及场景,支持拼接返回大类及细分类名称。

  3. 图片文字全识别
    检测并识别图片内的全部文字信息,涵盖文档、证件等常见场景,支持输出文字内容及文字位置。

API介绍

图像内容理解服务涉及 2 个接口,分别为:

图像内容理解-提交请求:支持传入图片、提问等参数,创建图像内容理解任务,该接口会返回任务ID。
图像内容理解-获取结果:在任务成功创建后,支持传入任务ID,查看任务处理的状态、获取处理完成后返回的结果。

详细说明请参考此处

提交请求

请求参数

名称 类型 必须 说明
image String 图片的base64
url String 图片完整 url,url 长度不超过 1024 字节
question String 提问信息,如“这张图片里有什么?”、“图中的人物是谁,并进行简单介绍”,限制 100 个字符之内
  • image、url 必须提供一个,优先级:url > base64。大小不超过10M,最短边至少64px,最长边最大8192px,图片格式支持jpg/jpeg/png格式。超过4096px的图片,将被自动等比例压缩至4096px进行处理,压缩后会影响处理效果

返回样例

{
   
  "code": 200,// 返回码,详见返回码说明
  "msg": "成功",// 返回码对应描述
  "taskNo": "043439882226367117195632",// 本次请求号
  "data": {
   
    "taskId": "xxxx" //用于获取结果
  }
}

获取结果

请求参数

名称 类型 必须 说明
taskId String 提交请求接口返回的taskId

返回样例

``` json
{
"code": 200,//返回码,详见返回码说明
"msg": "成功",//返回码对应描述
"taskNo": "571436032193067500962066",//本次请求号
"data": {
"resultCode": "0",//任务状态,0:处理成功;1:处理中
"description": "这张图里面有:\n\n1. 一个人正在讲台上讲话, xxxxxx",//针对输入的 question 问题,对图片内容进行分析后输出的答案
"resultMsg": "处理成功" //任务状态描述
}
}

相关文章
|
10天前
|
人工智能 数据可视化 安全
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
本文详解如何用阿里云Lighthouse一键部署OpenClaw,结合飞书CLI等工具,让AI真正“动手”——自动群发、生成科研日报、整理知识库。核心理念:未来软件应为AI而生,CLI即AI的“手脚”,实现高效、安全、可控的智能自动化。
34596 28
王炸组合!阿里云 OpenClaw X 飞书 CLI,开启 Agent 基建狂潮!(附带免费使用6个月服务器)
|
3天前
|
人工智能 机器人 开发工具
Windows 也能跑 Hermes Agent!完整安装教程 + 飞书接入,全程避坑
Hermes Agent 是一款自学习AI智能体系统,支持一键安装与飞书深度集成。本教程详解Windows下从零部署全流程,涵盖依赖自动安装、模型配置、飞书机器人接入及四大典型兼容性问题修复,助你快速构建企业级AI协作平台。(239字)
4318 10
|
5天前
|
人工智能 自然语言处理 安全
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
本文介绍了Claude Code终端AI助手的使用指南,主要内容包括:1)常用命令如版本查看、项目启动和更新;2)三种工作模式切换及界面说明;3)核心功能指令速查表,包含初始化、压缩对话、清除历史等操作;4)详细解析了/init、/help、/clear、/compact、/memory等关键命令的使用场景和语法。文章通过丰富的界面截图和场景示例,帮助开发者快速掌握如何通过命令行和交互界面高效使用Claude Code进行项目开发,特别强调了CLAUDE.md文件作为项目知识库的核心作用。
4632 19
Claude Code 全攻略:命令大全 + 实战工作流(建议收藏)
|
22天前
|
人工智能 JSON 机器人
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
本文带你零成本玩转OpenClaw:学生认证白嫖6个月阿里云服务器,手把手配置飞书机器人、接入免费/高性价比AI模型(NVIDIA/通义),并打造微信公众号“全自动分身”——实时抓热榜、AI选题拆解、一键发布草稿,5分钟完成热点→文章全流程!
45447 151
让龙虾成为你的“公众号分身” | 阿里云服务器玩Openclaw
|
12天前
|
人工智能 JSON 监控
Claude Code 源码泄露:一份价值亿元的 AI 工程公开课
我以为顶级 AI 产品的护城河是模型。读完这 51.2 万行泄露的源码,我发现自己错了。
5218 21
|
4天前
|
机器学习/深度学习 存储 人工智能
还在手写Skill?hermes-agent 让 Agent 自己进化能力
Hermes-agent 是 GitHub 23k+ Star 的开源项目,突破传统 Agent 依赖人工编写Aegnt Skill 的瓶颈,首创“自我进化”机制:通过失败→反思→自动生成技能→持续优化的闭环,让 Agent 在实践中自主构建、更新技能库,持续自我改进。
1019 3

热门文章

最新文章

下一篇
开通oss服务