图像识别的搜索结果_热门_第20页-阿里云开发者社区

蚝油菜花

|

9月前

|

博文

|

Maya：基于 LLaVA 开发的多模态小模型，能理解和处理八种语言，适用于低资源环境

Maya 是一个开源的多语言多模态模型，能够处理和理解八种不同语言，包括中文、法语、西班牙语、俄语、印地语、日语、阿拉伯语和英语。该模型基于LLaVA框架，通过指令微调和多语言数据集的预训练，提升了在视觉-语言任务中的表现，特别适用于低资源语言的内容生成和跨文化理解。

# 图像识别 # 人工智能 # 自然语言处理 # 并行计算 # 计算机视觉

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

CogAgent-9B：智谱 AI 开源 GLM-PC 的基座模型，专注于预测和执行 GUI 操作，可应用于自动化交互任务

CogAgent-9B 是智谱AI基于 GLM-4V-9B 训练的专用Agent任务模型，支持高分辨率图像处理和双语交互，能够预测并执行GUI操作，广泛应用于自动化任务。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 测试技术 # 计算机视觉

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

OpenEMMA：德克萨斯开源端到端的自动驾驶多模态模型框架，基于预训练的 MLLMs，处理复杂的视觉数据，推理驾驶场景

OpenEMMA 是德州农工大学、密歇根大学和多伦多大学共同开源的端到端自动驾驶多模态模型框架，基于预训练的多模态大型语言模型处理视觉数据和复杂驾驶场景的推理。

# 图像识别 # 传感器 # 人工智能 # 自动驾驶 # API # 数据处理

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Agent Laboratory：AI自动撰写论文，AMD开源自动完成科研全流程的多智能体框架

Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架，基于大型语言模型，能够加速科学发现、降低成本并提高研究质量。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 决策智能 # Python

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Emotion-LLaMA：用 AI 读懂、听懂、看懂情绪，精准捕捉文本、音频和视频中的复杂情绪

Emotion-LLaMA 是一款多模态情绪识别与推理模型，融合音频、视觉和文本输入，通过特定情绪编码器整合信息，广泛应用于人机交互、教育、心理健康等领域。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 人机交互

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

MiniCPM-o 2.6：面壁智能开源多模态大模型，仅8B参数量就能媲美GPT-4o，支持实时交互，在ipad等终端设备上运行

MiniCPM-o 2.6 是面壁智能开源的多模态大模型，支持视觉、语音和多模态直播，性能媲美GPT-4o，能够在端侧设备上高效运行。

# 图像识别 # 人工智能 # 语音技术 # iOS开发

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

OmAgent：轻松构建在终端设备上运行的 AI 应用，赋能手机、穿戴设备、摄像头等多种设备

OmAgent 是 Om AI 与浙江大学联合开源的多模态语言代理框架，支持多设备连接、高效模型集成，助力开发者快速构建复杂的多模态代理应用。

# 图像识别 # 人工智能 # 算法 # 前端开发 # NoSQL # 开发者

蚝油菜花

|

7月前

|

博文

|

来自： ModelScope模型即服务

CLaMP 3：音乐搜索AI革命！多模态AI能听懂乐谱/MIDI/音频，用27国语言搜索全球音乐

CLaMP 3是由清华大学团队开发的多模态、多语言音乐信息检索框架，支持27种语言，能够进行跨模态音乐检索、零样本分类和音乐推荐等任务。

# 图像识别 # XML # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 数据格式

蚝油菜花

|

6月前

|

博文

|

来自： ModelScope模型即服务

CogView4：智谱开源中文文生图新标杆，中文海报+任意分辨率一键生成

CogView4 是智谱推出的开源文生图模型，支持中英双语输入和任意分辨率图像生成，特别优化了中文文字生成能力，适合广告、创意设计等场景。

# 图像识别 # 编解码 # 人工智能 # 测试技术 # Apache # 算法框架/工具

蚝油菜花

|

6月前

|

博文

|

来自： ModelScope模型即服务

Open-LLM-VTuber：宅男福音！开源AI老婆离线版上线，实时语音+Live2D互动还会脸红心跳

Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目，支持实时语音对话、视觉感知和生动的 Live2D 动态形象，完全离线运行，保护用户隐私。

# 图像识别 # 人工智能 # 并行计算 # 语音技术 # 异构计算 # Windows

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别