图像识别的搜索结果_文章_第12页-阿里云开发者社区

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

LlamaV-o1：全能多模态视觉推理模型，推理得分超越其他开源模型，推理速度翻5倍

LlamaV-o1 是一款多模态视觉推理模型，通过逐步推理学习方法解决复杂任务，支持透明推理过程，适用于医疗、金融等领域。

# 图像识别 # 人工智能 # 测试技术

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

MiniCPM-o 2.6：面壁智能开源多模态大模型，仅8B参数量就能媲美GPT-4o，支持实时交互，在ipad等终端设备上运行

MiniCPM-o 2.6 是面壁智能开源的多模态大模型，支持视觉、语音和多模态直播，性能媲美GPT-4o，能够在端侧设备上高效运行。

# 图像识别 # 人工智能 # 语音技术 # iOS开发

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Riona-AI-Agent：自媒体 AI 代理！自动点赞、评论、个性化内容生成和发布等交互任务

Riona-AI-Agent 是一款基于 Node.js 和 TypeScript 的 AI 自动化工具，支持 Instagram、Twitter 等平台的自动化交互，生成高质量内容，提升社交媒体管理效率。

# 图像识别 # 数据采集 # 人工智能 # 自然语言处理 # JavaScript # 搜索推荐

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

NVIDIA-Ingest：英伟达开源智能文档提取及结构化工具，支持 GPU 加速和并行处理

NVIDIA-Ingest 是英伟达开源的智能文档提取工具，支持 PDF、Word、PPT 等多种格式，提供并行处理和 GPU 加速，适用于企业内容管理和生成式应用。

# GPU云服务器 # 图像识别 # 人工智能 # 文字识别 # 异构计算 # 微服务 # Python

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Eko：一句话就能快速构建复杂工作流的 AI 代理开发框架！快速实现自动操作电脑和浏览器完成任务

Eko 是 Fellou AI 推出的开源 AI 代理开发框架，支持自然语言驱动，帮助开发者快速构建从简单指令到复杂工作流的智能代理。

# 图像识别 # 自然语言处理 # 人工智能 # 开发框架 # 自然语言处理 # 调度 # 开发者

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Emotion-LLaMA：用 AI 读懂、听懂、看懂情绪，精准捕捉文本、音频和视频中的复杂情绪

Emotion-LLaMA 是一款多模态情绪识别与推理模型，融合音频、视觉和文本输入，通过特定情绪编码器整合信息，广泛应用于人机交互、教育、心理健康等领域。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 人机交互

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Agent Laboratory：AI自动撰写论文，AMD开源自动完成科研全流程的多智能体框架

Agent Laboratory 是由 AMD 和约翰·霍普金斯大学联合推出的自主科研框架，基于大型语言模型，能够加速科学发现、降低成本并提高研究质量。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 决策智能 # Python

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Seer：上海 AI Lab 与北大联合开源端到端操作模型，结合视觉预测与动作执行信息，使机器人任务提升成功率43%

Seer是由上海AI实验室与北大等机构联合推出的端到端操作模型，结合视觉预测与动作执行，显著提升机器人任务成功率。

# 图像识别 # 数据采集 # 人工智能 # 算法 # 机器人

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Aria-UI：港大联合 Rhymes AI 开源面向 GUI 智能交互的多模态模型，整合动作历史信息实现更加准确的定位

Aria-UI 是香港大学与 Rhymes AI 联合开发的多模态模型，专为 GUI 智能交互设计，支持高分辨率图像处理，适用于自动化测试、用户交互辅助等场景。

# 图像识别 # 人工智能 # 编解码 # 自然语言处理 # 测试技术 # 计算机视觉

蚝油菜花

|

11月前

|

博文

|

来自： ModelScope模型即服务

Mobile-Agent：通过视觉感知实现自动化手机操作，支持多应用跨平台

Mobile-Agent 是一款基于多模态大语言模型的智能代理，能够通过视觉感知自主完成复杂的移动设备操作任务，支持跨应用操作和纯视觉解决方案。

# 图像识别 # XML # 人工智能 # 文字识别 # 自然语言处理 # 决策智能

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别