备案控制台

图像识别

# 图像识别 #

0 关注

1223内容

相关子社区

ModelScope模型即服务

14534内容 6活动 3806关注

最新热门文章问答视频训练营活动

喜欢猪猪

|

9月前

|

博文

|

来自： ModelScope模型即服务

JAVA接入DeepSeek大模型接口开发---阿里云的百炼模型

随着大模型的越来越盛行，现在很多企业开始接入大模型的接口，今天我从java开发角度来写一个demo的示例，用于接入DeepSeek大模型，国内的大模型有很多的接入渠道，今天主要介绍下阿里云的百炼模型，因为这个模型是免费的，只要注册一个账户，就会免费送百万的token进行学习，今天就从一个简单的可以执行的示例开始进行介绍，希望可以分享给各位正在学习的同学们。

# 图像识别 # 机器学习/深度学习 # 人工智能 # NoSQL # 搜索推荐 # Java

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

MedRAG：医学AI革命！知识图谱+四层诊断，临床准确率飙升11.32%

MedRAG是南洋理工大学推出的医学诊断模型，结合知识图谱与大语言模型，提升诊断准确率11.32%，支持多模态输入与智能提问，适用于急诊、慢性病管理等多种场景。

# 图像识别 # 人工智能 # 监控 # 搜索推荐 # 数据挖掘 # 知识图谱

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

AudioX：颠覆创作！多模态AI一键生成电影级音效+配乐，耳朵的终极盛宴

AudioX 是香港科技大学和月之暗面联合推出的扩散变换器模型，能够从文本、视频、图像等多种模态生成高质量音频和音乐，具备强大的跨模态学习能力和泛化能力。

# 图像识别 # 人工智能 # 自然语言处理

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Open-LLM-VTuber：宅男福音！开源AI老婆离线版上线，实时语音+Live2D互动还会脸红心跳

Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目，支持实时语音对话、视觉感知和生动的 Live2D 动态形象，完全离线运行，保护用户隐私。

# 图像识别 # 人工智能 # 并行计算 # 语音技术 # 异构计算 # Windows

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

MV-MATH：中科院开源多模态数学推理基准，多视觉场景评估新标杆

MV-MATH 是中科院自动化所推出的多模态数学推理基准数据集，旨在评估多模态大语言模型在多视觉场景中的数学推理能力。该数据集包含2009个高质量的数学问题，涵盖11个数学领域和3个难度级别，适用于智能辅导系统和多模态学习研究。

# 图像识别 # 人工智能

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

阿里通义开源全模态大语言模型 R1-Omni：情感分析成绩新标杆！推理过程全程透明，准确率飙升200%

R1-Omni 是阿里通义开源的全模态大语言模型，专注于情感识别任务，结合视觉和音频信息，提供可解释的推理过程，显著提升情感识别的准确性和泛化能力。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 监控 # 计算机视觉

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

AppAgentX：告别重复点击！自我进化式GUI代理自动生成高级操作，效率翻倍

AppAgentX 是西湖大学推出的新型自我进化式 GUI 代理框架，通过记忆和进化机制提升智能手机交互的效率和智能性，支持复杂任务和跨应用操作，显著优于现有方法。

# 图像识别 # 存储 # 人工智能 # API # Android开发 # 容器

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

Kiss3DGen：基于图像扩散模型的3D资产生成框架

Kiss3DGen是一个创新的3D资产生成框架，通过重新利用预训练的2D图像扩散模型，高效生成、编辑和增强3D对象，支持文本到3D、图像到3D等多种生成任务。

# 图像识别 # 人工智能 # 搜索推荐 # 开发者 # 异构计算

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

PodAgent：港中文、微软、小红书联合推出的播客生成框架

PodAgent 是由香港中文大学、微软和小红书联合推出的播客生成框架，基于多智能体协作系统，自动生成高质量对话内容，支持声音角色匹配和语音合成，适用于媒体、教育、企业推广等多个场景。

# 图像识别 # 人工智能 # 自然语言处理 # 语音技术 # 决策智能

蚝油菜花

|

9月前

|

博文

|

来自： ModelScope模型即服务

SpatialVLA：上海AI Lab联合上科大推出的空间具身通用操作模型

SpatialVLA 是由上海 AI Lab、中国电信人工智能研究院和上海科技大学等机构共同推出的新型空间具身通用操作模型，基于百万真实数据预训练，赋予机器人强大的3D空间理解能力，支持跨平台泛化控制。

# 图像识别 # 人工智能 # 机器人 # 物联网 # 异构计算

1

...

5

6

7

...

20

免费试用