图像识别的搜索结果_热门_第8页-阿里云开发者社区

蚝油菜花

|

5月前

|

博文

|

来自： ModelScope模型即服务

模型手动绑骨3天，AI花3分钟搞定！UniRig：清华开源通用骨骼自动绑定框架，助力3D动画制作

UniRig是清华大学与VAST联合研发的自动骨骼绑定框架，基于自回归模型与交叉注意力机制，支持多样化3D模型的骨骼生成与蒙皮权重预测，其创新的骨骼树标记化技术显著提升动画制作效率。

# 图像识别 # 机器学习/深度学习 # 人工智能 # PyTorch # 算法框架/工具 # C++

心随而动

|

博文

|

来自：视觉智能

人工智能图像识别四大算子（一）

# 图像识别 # 视觉智能开放平台 # 机器学习/深度学习 # 存储 # 传感器 # 人工智能 # 文字识别 # 算法 # 大数据 # 计算机视觉 # Python

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Janus-Pro：DeepSeek 开源的多模态模型，支持图像理解和生成

Janus-Pro是DeepSeek推出的一款开源多模态AI模型，支持图像理解和生成，提供1B和7B两种规模，适配多元应用场景。通过改进的训练策略、扩展的数据集和更大规模的模型，显著提升了文本到图像的生成能力和指令跟随性能。

# 图像识别 # 人工智能 # 自然语言处理 # 计算机视觉 # 开发者 # Python

蚝油菜花

|

10月前

|

博文

|

来自： ModelScope模型即服务

ebook2audiobookXTTS：开源电子书转有声书 AI 工具，支持 16 种语言

ebook2audiobookXTTS 是一款开源的 AI 工具，能够将电子书转换为有声书，支持多种电子书格式和 16 种语言。该工具利用 Coqui XTTS 技术实现高质量的文本到语音转换，并提供命令行、Web 界面和 Docker 容器等多种使用方式。

# 图像识别 # 人工智能 # Ubuntu # 语音技术 # Docker # 容器

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Eliza：TypeScript 版开源 AI Agent 开发框架，快速搭建智能、个性的 Agents 系统

Eliza 是一个开源的多代理模拟框架，支持多平台连接、多模型集成，能够快速构建智能、高效的AI系统。

# 图像识别 # 存储 # 人工智能 # 开发框架 # JavaScript # API

蚝油菜花

|

7月前

|

博文

|

来自： ModelScope模型即服务

LLaVA-Med：微软推出专为临床放射学优化和报告生成的多模态模型

LLaVA-Med是微软推出的小型多模态模型，专注于高效生成高质量的胸部X光放射学报告，支持快速临床部署。

# 图像识别 # 人工智能 # 计算机视觉 # 异构计算

蚝油菜花

|

7月前

|

博文

|

来自： ModelScope模型即服务

VideoCaptioner：北大推出视频字幕处理神器，AI自动生成+断句+翻译，1小时工作量5分钟搞定

VideoCaptioner 是一款基于大语言模型的智能视频字幕处理工具，支持语音识别、字幕断句、优化、翻译全流程处理，并提供多种字幕样式和格式导出。

# 图像识别 # 智能语音交互 # 人工智能 # API # 语音技术 # iOS开发 # MacOS

蚝油菜花

|

8月前

|

博文

|

来自： ModelScope模型即服务

Emotion-LLaMA：用 AI 读懂、听懂、看懂情绪，精准捕捉文本、音频和视频中的复杂情绪

Emotion-LLaMA 是一款多模态情绪识别与推理模型，融合音频、视觉和文本输入，通过特定情绪编码器整合信息，广泛应用于人机交互、教育、心理健康等领域。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 人机交互

蚝油菜花

|

6月前

|

博文

|

来自： ModelScope模型即服务

SongGen：三秒克隆音色！开源AI一键生成专业级歌曲，创作人必备神器

SongGen是由上海AI Lab、北京航空航天大学和香港中文大学联合推出的单阶段自回归Transformer模型，能够通过文本生成高质量歌曲，支持混合模式和双轨模式，显著提升生成歌曲的自然度和人声清晰度。

# 图像识别 # 数据采集 # 机器学习/深度学习 # 人工智能 # 自然语言处理 # 搜索推荐

蚝油菜花

|

6月前

|

博文

|

来自： ModelScope模型即服务

QVQ-Max：阿里通义新一代视觉推理模型！再造多模态「全能眼」秒解图文难题

QVQ-Max是阿里通义推出的新一代视觉推理模型，不仅能解析图像视频内容，还能进行深度推理和创意生成，在数学解题、数据分析、穿搭建议等场景展现强大能力。

# 图像识别 # 人工智能 # 数据可视化 # 数据挖掘 # 计算机视觉

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别