图像识别的搜索结果_文章_第5页-阿里云开发者社区

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Hunyuan3D 2.0：腾讯混元开源3D生成大模型！图生/文生秒建高精度模型，细节纹理自动合成

Hunyuan3D 2.0 是腾讯推出的大规模 3D 资产生成系统，专注于从文本和图像生成高分辨率的 3D 模型，支持几何生成和纹理合成。

# 图像识别 # 人工智能 # PyTorch # API # 算法框架/工具 # 图形学

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

昆仑万维开源 Skywork R1V：开源多模态推理核弹！视觉链式分析超越人类专家

Skywork R1V 是昆仑万维开源的多模态思维链推理模型，具备强大的视觉链式推理能力，能够在多个权威基准测试中取得领先成绩，推动多模态推理模型的发展。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 测试技术 # 数据安全/隐私保护

喜欢猪猪

|

8月前

|

博文

|

来自： ModelScope模型即服务

JAVA接入DeepSeek大模型接口开发---阿里云的百炼模型

随着大模型的越来越盛行，现在很多企业开始接入大模型的接口，今天我从java开发角度来写一个demo的示例，用于接入DeepSeek大模型，国内的大模型有很多的接入渠道，今天主要介绍下阿里云的百炼模型，因为这个模型是免费的，只要注册一个账户，就会免费送百万的token进行学习，今天就从一个简单的可以执行的示例开始进行介绍，希望可以分享给各位正在学习的同学们。

# 图像识别 # 机器学习/深度学习 # 人工智能 # NoSQL # 搜索推荐 # Java

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

MedRAG：医学AI革命！知识图谱+四层诊断，临床准确率飙升11.32%

MedRAG是南洋理工大学推出的医学诊断模型，结合知识图谱与大语言模型，提升诊断准确率11.32%，支持多模态输入与智能提问，适用于急诊、慢性病管理等多种场景。

# 图像识别 # 人工智能 # 监控 # 搜索推荐 # 数据挖掘 # 知识图谱

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

AudioX：颠覆创作！多模态AI一键生成电影级音效+配乐，耳朵的终极盛宴

AudioX 是香港科技大学和月之暗面联合推出的扩散变换器模型，能够从文本、视频、图像等多种模态生成高质量音频和音乐，具备强大的跨模态学习能力和泛化能力。

# 图像识别 # 人工智能 # 自然语言处理

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Open-LLM-VTuber：宅男福音！开源AI老婆离线版上线，实时语音+Live2D互动还会脸红心跳

Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目，支持实时语音对话、视觉感知和生动的 Live2D 动态形象，完全离线运行，保护用户隐私。

# 图像识别 # 人工智能 # 并行计算 # 语音技术 # 异构计算 # Windows

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

MV-MATH：中科院开源多模态数学推理基准，多视觉场景评估新标杆

MV-MATH 是中科院自动化所推出的多模态数学推理基准数据集，旨在评估多模态大语言模型在多视觉场景中的数学推理能力。该数据集包含2009个高质量的数学问题，涵盖11个数学领域和3个难度级别，适用于智能辅导系统和多模态学习研究。

# 图像识别 # 人工智能

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

阿里通义开源全模态大语言模型 R1-Omni：情感分析成绩新标杆！推理过程全程透明，准确率飙升200%

R1-Omni 是阿里通义开源的全模态大语言模型，专注于情感识别任务，结合视觉和音频信息，提供可解释的推理过程，显著提升情感识别的准确性和泛化能力。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 监控 # 计算机视觉

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

AppAgentX：告别重复点击！自我进化式GUI代理自动生成高级操作，效率翻倍

AppAgentX 是西湖大学推出的新型自我进化式 GUI 代理框架，通过记忆和进化机制提升智能手机交互的效率和智能性，支持复杂任务和跨应用操作，显著优于现有方法。

# 图像识别 # 存储 # 人工智能 # API # Android开发 # 容器

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Kiss3DGen：基于图像扩散模型的3D资产生成框架

Kiss3DGen是一个创新的3D资产生成框架，通过重新利用预训练的2D图像扩散模型，高效生成、编辑和增强3D对象，支持文本到3D、图像到3D等多种生成任务。

# 图像识别 # 人工智能 # 搜索推荐 # 开发者 # 异构计算

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别