LEOPARD:腾讯AI Lab西雅图实验室推出的视觉语言模型

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
简介: LEOPARD是由腾讯AI Lab西雅图实验室推出的视觉语言模型,专为处理含有大量文本的多图像任务设计。该模型通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集,在多个基准测试中表现卓越,适用于自动化文档理解、教育和学术研究、商业智能和数据分析等多个应用场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

模型设计:LEOPARD专为处理文本丰富的多图像任务设计,具备自适应高分辨率多图像编码能力。
技术特点:整合多模态大型语言模型架构,利用大规模多模态指令调优数据集进行训练。
应用场景:适用于自动化文档理解、教育和学术研究、商业智能和数据分析等多个领域。

正文

LEOPARD 是什么

公众号: 蚝油菜花 - Leopard

LEOPARD是腾讯AI Lab西雅图实验室推出的视觉语言模型,专为理解和处理含有大量文本的多图像任务设计。该模型通过两个主要技术创新来实现其功能:一是策划约一百万条专门针对文本丰富、多图像场景的高质量多模态指令调优数据集;二是开发自适应高分辨率多图像编码模块,动态优化视觉序列长度分配。

LEOPARD在多个基准测试中展现卓越的性能,特别是在需要理解单个图像内容及跨多个视觉输入进行推理的复杂任务中表现出色。

LEOPARD 的主要功能

  • 处理文本丰富的多图像任务:用于理解和处理包含大量文本信息的多图像场景,如幻灯片、扫描文档和网页截图等。
  • 跨图像推理:模型能理解单个图像的内容,在多个图像间进行逻辑推理和关系建立。
  • 高分辨率图像处理:基于自适应高分辨率多图像编码模块,能有效处理高分辨率图像,保持文本和细节的清晰度。
  • 动态视觉序列长度优化:根据输入图像的原始纵横比和分辨率动态优化视觉序列长度,平衡图像细节和模型处理能力。
  • 多模态指令调优:用大规模多模态指令调优数据集,能针对复杂的视觉语言任务进行优化。

LEOPARD 的技术原理

  • 多模态大型语言模型(MLLM):基于MLLM架构,整合视觉编码器、视觉语言连接器和语言模型,处理视觉和文本信息。
  • 数据集构建:构建LEOPARD-INSTRUCT数据集,包含约一百万条针对文本丰富、多图像场景的指令,用在模型训练和优化。
  • 自适应高分辨率编码:基于自适应策略,根据输入图像的特性动态调整视觉特征序列,适应模型的序列长度限制。
  • 像素洗牌技术:应用像素洗牌操作,将长视觉特征序列无损压缩成更短的序列,便于模型处理更多的高分辨率图像。
  • 图像分割:将高分辨率图像分割成多个子图像,以便独立处理并保留细节,然后将视觉特征与文本信息一起输入到语言模型中。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
3天前
|
机器学习/深度学习 人工智能 算法
Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现
Enhance-A-Video 是由上海人工智能实验室、新加坡国立大学和德克萨斯大学奥斯汀分校联合推出的视频生成质量增强算法,能够显著提升视频的对比度、清晰度和细节真实性。
24 8
Enhance-A-Video:上海 AI Lab 推出视频生成质量增强算法,显著提升 AI 视频生成的真实度和细节表现
|
4天前
|
人工智能 自然语言处理 决策智能
DRT-o1:腾讯推出专注于文学翻译的 AI 模型,擅长理解比喻和隐喻等修辞手法,在翻译时保留原文的情感色彩
DRT-o1 是腾讯研究院推出的文学翻译系列 AI 模型,通过长链思考推理技术显著提升翻译质量,特别擅长处理比喻和隐喻等修辞手法。
33 2
DRT-o1:腾讯推出专注于文学翻译的 AI 模型,擅长理解比喻和隐喻等修辞手法,在翻译时保留原文的情感色彩
|
30天前
|
人工智能
AnchorCrafter:中科院联合腾讯推出的AI虚拟主播带货视频制作技术
AnchorCrafter是由中科院和腾讯联合推出的一项AI虚拟主播带货视频制作技术。该技术基于扩散模型,能够自动生成高保真度的主播风格产品推广视频,通过整合人-物交互(HOI)技术,实现对物体外观和运动控制的高度还原。AnchorCrafter在物体外观保持、交互感知以及视频质量方面优于现有方法,为在线广告和消费者参与提供了新的可能性。
155 30
AnchorCrafter:中科院联合腾讯推出的AI虚拟主播带货视频制作技术
|
21天前
|
数据采集 人工智能 编解码
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
书生·万象InternVL 2.5是由上海AI实验室OpenGVLab团队推出的开源多模态大语言模型系列。该模型在多模态理解基准(MMMU)上表现优异,超越了许多商业模型,适用于图像和视频分析、视觉问答、文档理解和多语言处理等多个领域。
72 7
书生·万象InternVL 2.5:上海 AI Lab 开源的多模态大语言模型,超越了目前许多商业模型
|
29天前
|
人工智能 vr&ar
GeneMAN:上海AI Lab联合北大等高校推出的3D人体模型创建框架
GeneMAN是由上海AI实验室、北京大学、南洋理工大学和上海交通大学联合推出的3D人体模型创建框架。该框架能够从单张图片中生成高保真度的3D人体模型,适用于多种应用场景,如虚拟试衣、游戏和娱乐、增强现实和虚拟现实等。
55 7
GeneMAN:上海AI Lab联合北大等高校推出的3D人体模型创建框架
|
2月前
|
机器学习/深度学习 人工智能 Python
MuCodec:清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器
MuCodec是由清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学联合开发的超低比特率音乐编解码器。它能够在0.35kbps至1.35kbps的比特率下实现高效的音乐压缩和高保真重建,适用于在线音乐流媒体服务、音乐下载、语言模型建设等多个应用场景。
41 1
MuCodec:清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器
|
2月前
|
人工智能 架构师 大数据
广西广电X阿里云:共同成立全媒体AI实验室!
广西广电X阿里云:共同成立全媒体AI实验室!
37 5
|
8月前
|
存储 人工智能 文字识别
极空间 NAS 上线“AI 实验室”功能:自然语言搜图、以图搜图、文字识别
【2月更文挑战第17天】极空间 NAS 上线“AI 实验室”功能:自然语言搜图、以图搜图、文字识别
323 5
极空间 NAS 上线“AI 实验室”功能:自然语言搜图、以图搜图、文字识别
|
6天前
|
机器学习/深度学习 人工智能 自动驾驶
企业内训|AI大模型在汽车行业的前沿应用研修-某汽车集团
本课程是TsingtaoAI为某汽车集团高级项目经理设计研发,课程全面系统地解析AI的发展历程、技术基础及其在汽车行业的深度应用。通过深入浅出的理论讲解、丰富的行业案例分析以及实战项目训练,学员将全面掌握机器学习、深度学习、NLP与CV等核心技术,了解自动驾驶、智能制造、车联网与智能营销等关键应用场景,洞悉AI技术对企业战略布局的深远影响。
134 97
|
11天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营

热门文章

最新文章