图像识别的搜索结果_文章_第16页-阿里云开发者社区

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

MV-Adapter：上交大、北航和 VAST 等联合开源多视图一致图像生成模型，将预训练的文生图扩散模型转为多视图生成器

MV-Adapter是由北京航空航天大学、VAST和上海交通大学联合开发的多视图一致图像生成模型。该模型能够将预训练的文本到图像扩散模型转化为多视图图像生成器，支持生成高分辨率的多视角图像。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 编解码

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

MarkItDown：微软开源的多格式转Markdown工具，支持将PDF、Word、图像和音频等文件转换为Markdown格式

MarkItDown 是微软开源的多功能文档转换工具，支持将 PDF、PPT、Word、Excel、图像、音频等多种格式的文件转换为 Markdown 格式，具备 OCR 文字识别、语音转文字和元数据提取等功能。

# 图像识别 # 智能语音交互 # 人工智能 # 文字识别 # 数据挖掘 # API # 开发者

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

NodeTool：AI 工作流可视化构建器，通过拖放节点设计复杂的工作流，集成 OpenAI 等多个平台

NodeTool 是一个开源的 AI 工作流可视化构建器，通过拖放节点的方式设计复杂的工作流，无需编码即可快速原型设计和测试。它支持本地 GPU 运行 AI 模型，并与 Hugging Face、OpenAI 等平台集成，提供模型访问能力。

# 图像识别 # 人工智能 # 数据可视化 # JavaScript # Linux # 异构计算

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

VMB：中科院联合多所高校推出多模态音乐生成框架，能够通过文本、图像和视频等多种输入生成音乐

VMB（Visuals Music Bridge）是由中科院联合多所高校机构推出的多模态音乐生成框架，能够从文本、图像和视频等多种输入模态生成音乐。该框架通过文本桥接和音乐桥接解决了数据稀缺、跨模态对齐弱和可控性有限的问题。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 安全 # vr&ar

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Lyra：SmartMore 联合香港多所高校推出的多模态大型语言模型，专注于提升语音、视觉和语言模态的交互能力

Lyra是由香港中文大学、SmartMore和香港科技大学联合推出的高效多模态大型语言模型，专注于提升语音、视觉和语言模态的交互能力。Lyra基于开源大型模型和多模态LoRA模块，减少训练成本和数据需求，支持多种模态理解和推理任务。

# 图像识别 # 人工智能 # 算法 # 物联网

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

LatentLM：微软联合清华大学推出的多模态生成模型，能够统一处理和生成图像、文本、音频和语音合成

LatentLM是由微软研究院和清华大学联合推出的多模态生成模型，能够统一处理离散和连续数据，具备高性能图像生成、多模态大型语言模型集成等功能，展现出卓越的多模态任务处理能力。

# 图像识别 # 人工智能 # 数据处理 # 语音技术

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

RDT：清华开源全球最大的双臂机器人操作任务扩散基础模型、代码与训练集，基于模仿能力机器人能够自主完成复杂任务

RDT（Robotics Diffusion Transformer）是由清华大学AI研究院TSAIL团队推出的全球最大的双臂机器人操作任务扩散基础模型。RDT具备十亿参数量，能够在无需人类操控的情况下自主完成复杂任务，如调酒和遛狗。

# 图像识别 # 传感器 # 人工智能 # 自然语言处理 # 机器人

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Apollo：Meta 联合斯坦福大学推出专注于视频理解的多模态模型，能够理解长达数小时的视频

Apollo是由Meta和斯坦福大学合作推出的大型多模态模型，专注于视频理解。该模型通过“Scaling Consistency”现象，在较小模型上的设计决策能够有效扩展至大型模型，显著提升了视频理解能力。

# 图像识别 # 人工智能 # 监控 # 自动驾驶 # 计算机视觉

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

POINTS 1.5：腾讯微信开源的多模态大模型，超越了业界其他的开源视觉语言模型，具备强大的视觉和语言处理能力

POINTS 1.5是腾讯微信推出的多模态大模型，基于LLaVA架构，具备强大的视觉和语言处理能力。它在复杂场景的OCR、推理能力、关键信息提取等方面表现出色，是全球10B以下开源模型中的佼佼者。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 文字识别 # 自然语言处理 # 计算机视觉

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Maya：基于 LLaVA 开发的多模态小模型，能理解和处理八种语言，适用于低资源环境

Maya 是一个开源的多语言多模态模型，能够处理和理解八种不同语言，包括中文、法语、西班牙语、俄语、印地语、日语、阿拉伯语和英语。该模型基于LLaVA框架，通过指令微调和多语言数据集的预训练，提升了在视觉-语言任务中的表现，特别适用于低资源语言的内容生成和跨文化理解。

# 图像识别 # 人工智能 # 自然语言处理 # 并行计算 # 计算机视觉

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别