图像内容理解-图像智能分析-图片内容理解API接口介绍

简介: 图像内容理解服务基于视觉大模型,支持人、物、行为、场景、文字等多维度识别,可生成一句话描述、分类标签及OCR文字信息。提供“提交请求”和“获取结果”两个API接口,适用于看图问答、视觉推理等场景。

简介

图像内容理解,即采用图像理解视觉大模型,可多维度识别与理解图片内容,包括人、物、行为、场景、文字等,支持输出对图片内容的一句话描述,同时返回图片的分类标签、文字内容等信息。主要功能包括:

  1. 图片理解与内容描述
    多维度理解图片内容,支持输出对图片内容的一句话描述,结合大语言模型,可应用于看图问答、视觉推理等场景。

  2. 物体和场景全识别
    识别动物、植物、商品、建筑、风景、动漫、食材、公众人物等10万个常见物体及场景,支持拼接返回大类及细分类名称。

  3. 图片文字全识别
    检测并识别图片内的全部文字信息,涵盖文档、证件等常见场景,支持输出文字内容及文字位置。

API介绍

图像内容理解服务涉及 2 个接口,分别为:

图像内容理解-提交请求:支持传入图片、提问等参数,创建图像内容理解任务,该接口会返回任务ID。
图像内容理解-获取结果:在任务成功创建后,支持传入任务ID,查看任务处理的状态、获取处理完成后返回的结果。

详细说明请参考此处

提交请求

请求参数

名称 类型 必须 说明
image String 图片的base64
url String 图片完整 url,url 长度不超过 1024 字节
question String 提问信息,如“这张图片里有什么?”、“图中的人物是谁,并进行简单介绍”,限制 100 个字符之内
  • image、url 必须提供一个,优先级:url > base64。大小不超过10M,最短边至少64px,最长边最大8192px,图片格式支持jpg/jpeg/png格式。超过4096px的图片,将被自动等比例压缩至4096px进行处理,压缩后会影响处理效果

返回样例

{
   
  "code": 200,// 返回码,详见返回码说明
  "msg": "成功",// 返回码对应描述
  "taskNo": "043439882226367117195632",// 本次请求号
  "data": {
   
    "taskId": "xxxx" //用于获取结果
  }
}

获取结果

请求参数

名称 类型 必须 说明
taskId String 提交请求接口返回的taskId

返回样例

``` json
{
"code": 200,//返回码,详见返回码说明
"msg": "成功",//返回码对应描述
"taskNo": "571436032193067500962066",//本次请求号
"data": {
"resultCode": "0",//任务状态,0:处理成功;1:处理中
"description": "这张图里面有:\n\n1. 一个人正在讲台上讲话, xxxxxx",//针对输入的 question 问题,对图片内容进行分析后输出的答案
"resultMsg": "处理成功" //任务状态描述
}
}

相关文章
|
存储 缓存 文件存储
如何保证分布式文件系统的数据一致性
分布式文件系统需要向上层应用提供透明的客户端缓存,从而缓解网络延时现象,更好地支持客户端性能水平扩展,同时也降低对文件服务器的访问压力。当考虑客户端缓存的时候,由于在客户端上引入了多个本地数据副本(Replica),就相应地需要提供客户端对数据访问的全局数据一致性。
32698 79
如何保证分布式文件系统的数据一致性
|
前端开发 容器
HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局(上)
HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局
17750 20
|
设计模式 存储 监控
设计模式(C++版)
看懂UML类图和时序图30分钟学会UML类图设计原则单一职责原则定义:单一职责原则,所谓职责是指类变化的原因。如果一个类有多于一个的动机被改变,那么这个类就具有多于一个的职责。而单一职责原则就是指一个类或者模块应该有且只有一个改变的原因。bad case:IPhone类承担了协议管理(Dial、HangUp)、数据传送(Chat)。good case:里式替换原则定义:里氏代换原则(Liskov 
36682 19
设计模式(C++版)
|
存储 编译器 C语言
抽丝剥茧C语言(初阶 下)(下)
抽丝剥茧C语言(初阶 下)
|
机器学习/深度学习 人工智能 自然语言处理
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
24758 14
|
机器学习/深度学习 弹性计算 监控
重生之---我测阿里云U1实例(通用算力型)
阿里云产品全线降价的一力作,2023年4月阿里云推出新款通用算力型ECS云服务器Universal实例,该款服务器的真实表现如何?让我先测为敬!
36660 15
重生之---我测阿里云U1实例(通用算力型)
|
SQL 存储 弹性计算
Redis性能高30%,阿里云倚天ECS性能摸底和迁移实践
Redis在倚天ECS环境下与同规格的基于 x86 的 ECS 实例相比,Redis 部署在基于 Yitian 710 的 ECS 上可获得高达 30% 的吞吐量优势。成本方面基于倚天710的G8y实例售价比G7实例低23%,总性价比提高50%;按照相同算法,相对G8a,性价比为1.4倍左右。
|
存储 算法 Java
【分布式技术专题】「分布式技术架构」手把手教你如何开发一个属于自己的限流器RateLimiter功能服务
随着互联网的快速发展,越来越多的应用程序需要处理大量的请求。如果没有限制,这些请求可能会导致应用程序崩溃或变得不可用。因此,限流器是一种非常重要的技术,可以帮助应用程序控制请求的数量和速率,以保持稳定和可靠的运行。
29838 52

热门文章

最新文章

下一篇
开通oss服务