图像内容理解-图像智能分析-图片内容理解API接口介绍

简介: 图像内容理解服务基于视觉大模型,支持人、物、行为、场景、文字等多维度识别,可生成一句话描述、分类标签及OCR文字信息。提供“提交请求”和“获取结果”两个API接口,适用于看图问答、视觉推理等场景。

简介

图像内容理解,即采用图像理解视觉大模型,可多维度识别与理解图片内容,包括人、物、行为、场景、文字等,支持输出对图片内容的一句话描述,同时返回图片的分类标签、文字内容等信息。主要功能包括:

  1. 图片理解与内容描述
    多维度理解图片内容,支持输出对图片内容的一句话描述,结合大语言模型,可应用于看图问答、视觉推理等场景。

  2. 物体和场景全识别
    识别动物、植物、商品、建筑、风景、动漫、食材、公众人物等10万个常见物体及场景,支持拼接返回大类及细分类名称。

  3. 图片文字全识别
    检测并识别图片内的全部文字信息,涵盖文档、证件等常见场景,支持输出文字内容及文字位置。

API介绍

图像内容理解服务涉及 2 个接口,分别为:

图像内容理解-提交请求:支持传入图片、提问等参数,创建图像内容理解任务,该接口会返回任务ID。
图像内容理解-获取结果:在任务成功创建后,支持传入任务ID,查看任务处理的状态、获取处理完成后返回的结果。

详细说明请参考此处

提交请求

请求参数

名称 类型 必须 说明
image String 图片的base64
url String 图片完整 url,url 长度不超过 1024 字节
question String 提问信息,如“这张图片里有什么?”、“图中的人物是谁,并进行简单介绍”,限制 100 个字符之内
  • image、url 必须提供一个,优先级:url > base64。大小不超过10M,最短边至少64px,最长边最大8192px,图片格式支持jpg/jpeg/png格式。超过4096px的图片,将被自动等比例压缩至4096px进行处理,压缩后会影响处理效果

返回样例

{
   
  "code": 200,// 返回码,详见返回码说明
  "msg": "成功",// 返回码对应描述
  "taskNo": "043439882226367117195632",// 本次请求号
  "data": {
   
    "taskId": "xxxx" //用于获取结果
  }
}

获取结果

请求参数

名称 类型 必须 说明
taskId String 提交请求接口返回的taskId

返回样例

``` json
{
"code": 200,//返回码,详见返回码说明
"msg": "成功",//返回码对应描述
"taskNo": "571436032193067500962066",//本次请求号
"data": {
"resultCode": "0",//任务状态,0:处理成功;1:处理中
"description": "这张图里面有:\n\n1. 一个人正在讲台上讲话, xxxxxx",//针对输入的 question 问题,对图片内容进行分析后输出的答案
"resultMsg": "处理成功" //任务状态描述
}
}

相关文章
|
2月前
|
算法 API
翻拍识别-翻拍检测-图片翻拍识别-图像翻拍检测-图片造假检测API接口介绍
翻拍识别API可精准识别手机翻拍的货架、促销等零售场景图片,有效防范造假。针对模糊、摩尔纹、边框等优化,准确率达99%,支持Base64、文件、URL三种输入方式,返回翻拍/原图分类及置信度。
269 9
|
2月前
|
API
火车票余额票价查询-火车车次时刻查询-火车查询-火车车站查询API接口介绍
本文介绍与12306同步的火车查询API,涵盖余票、票价、时刻、车次、车站等信息。提供两大接口:火车票查询(支持出发/到达站、日期、高铁筛选)和过站停留查询(需车次UUID及站点编码),助力快速集成至自有系统。
645 8
|
2月前
|
存储 人工智能 安全
意图共鸣科技:AI记忆链的盲存——你的记忆,只有你能打开
你和AI的对话,平台真能“看不见”吗?意图共鸣科技推出“盲存”技术:数据本地加密后上传,密钥仅用户持有,云端仅存密文。平台变“数据保管员”,无法访问明文,隐私由架构保障而非承诺。用户完全掌控记忆——可查、可导、可删,跨设备同步同样安全。
241 16
|
2月前
|
安全 API
广告敏感词过滤-敏感词-文本审核-敏感词过滤-敏感词检测
本工具提供文本合规检测服务,精准识别广告法违禁词、极限用语(如“顶级”“全网首发”)、色情低俗、辱骂攻击及低质灌水等内容,支持电商文案、短视频脚本、企业宣传物料等多场景审核,保障内容安全合规。
384 10
|
2月前
|
人工智能 API 网络安全
神级组合!阿里云部署 OpenClaw X 飞书 CLI,开启 Agent 基建新时代!(附免费使用6个月服务器)
2026年,AI 与自动化基础设施进入全面落地阶段,各类厂商纷纷开放命令行工具(CLI),标志着软件交互从“为人设计”正式转向“为 AI 设计”。本文以阿里云轻量应用服务器(Lighthouse)为载体,完整呈现**一键部署 OpenClaw、对接飞书 CLI、实现 AI 全自动执行任务**的全流程,让 AI 真正拥有“动手能力”,实现消息自动发送、文献自动整理、知识库自动维护等高频办公场景,真正做到一句话下达指令,AI 全程独立完成。
566 26
|
2月前
|
数据采集 安全 API
邮箱验证-邮箱校验-邮件地址验证-电子邮件地址校验API接口介绍
本服务提供邮箱全方位核验:校验格式、MX解析、识别临时/虚假/高风险邮箱,有效防范恶意注册、垃圾信息与欺诈。适用于注册验证、会员实名、邮件触达、安全通知及表单数据清洗等场景,保障数据真实可信。
290 5
|
3月前
|
缓存 网络安全 数据安全/隐私保护
Socks5代理使用避坑指南,常见问题及应对策略汇总
本文详解Socks5代理五大高频问题(连接失败、无法上网、卡顿断连、IP被封、软件不兼容)及零门槛实操解法,涵盖参数核对、节点切换、协议设置、IP轮换等技巧,无需专业术语,新手一看就会,助你稳定高效使用代理。
760 11
|
1月前
|
SQL 关系型数据库 MySQL
【MySQL百日打怪升级第14天】 LIMIT 分页的性能优化:深分页到底慢在哪?
本文深入剖析MySQL深分页(如`LIMIT 100000,20`)性能瓶颈:本质是OFFSET导致全量扫描与丢弃,页码越深,扫描行数线性增长。详解三种实战优化方案——游标分页(高效稳定,需有序唯一字段)、延迟关联(兼容OFFSET,索引覆盖减回表)、范围分页(极简但场景受限),并附EXPLAIN对比与避坑指南。(239字)
188 6
|
2月前
|
缓存 监控 前端开发
《爱企查商品详情页前端性能优化实战》
爱企查企业详情页前端性能优化实战:针对数据量大、接口多、渲染复杂等痛点,通过接口聚合与优先级调度、虚拟滚动/懒加载、智能缓存(IndexedDB)、资源瘦身及HTTP/2推送等分层策略,实现FCP↓62%、LCP↓69%、资源减56%,兼顾实时性与体验。
|
2月前
|
运维 监控 数据可视化
前端组件库——DataV知识点大全(三)
教程来源 https://www.ltglu.cn DataV企业级实战涵盖智慧城市教育大屏、出海业务全球监控、机电运维管理及故障自愈机制;支持按需引入、防抖更新、虚拟滚动与WebGPU加速,并提供样式适配、飞线图调试等常见问题解决方案。