图像识别的搜索结果_文章_第19页-阿里云开发者社区

蚝油菜花

|

博文

|

Fugatto是由英伟达推出的多功能AI音频生成模型，能够根据文本提示生成音频或视频，并修改现有音频文件。该模型基于增强型的Transformer模型，支持复杂的组合指令，具有强大的音频生成与转换能力，广泛应用于音乐创作、声音设计、语音合成等领域。

# 图像识别 # 机器学习/深度学习 # 人工智能 # 语音技术

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

LongLLaVA：香港中文大学推出的多模态上下文混合架构大语言模型

LongLLaVA是由香港中文大学推出的多模态大型语言模型，采用混合架构，结合Mamba和Transformer模块，旨在高效处理大量图像数据。该模型能够在单个A100 80GB GPU上处理多达1000张图像，通过2D池化技术压缩图像token，显著降低计算成本，同时保留关键的空间关系信息。LongLLaVA在视频理解、高分辨率图像分析和多模态代理等应用场景中展现出卓越的性能。

# GPU云服务器 # 图像识别 # 人工智能 # 测试技术 # 计算机视觉 # 数据格式 # 异构计算

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

LazyGraphRAG：微软推出的图形增强生成增强检索框架

LazyGraphRAG是微软研究院推出的图形增强生成增强检索框架，旨在大幅降低数据索引成本并提高查询效率。该框架结合了最佳优先搜索和广度优先搜索，支持本地和全局查询，适用于一次性查询、探索性分析和流数据处理。LazyGraphRAG将加入开源的GraphRAG库，为开发者和企业提供更高效的技术支持。

# 图像识别 # 人工智能 # 自然语言处理 # 数据处理 # 开发者 # 索引

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

MuCodec：清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器

MuCodec是由清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学联合开发的超低比特率音乐编解码器。它能够在0.35kbps至1.35kbps的比特率下实现高效的音乐压缩和高保真重建，适用于在线音乐流媒体服务、音乐下载、语言模型建设等多个应用场景。

# 图像识别 # 机器学习/深度学习 # 人工智能 # Python

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

EvolveDirector：阿里联合南洋理工推出文本到图像生成模型的高效训练技术

EvolveDirector是由阿里巴巴和南洋理工大学联合推出的文本到图像生成模型的高效训练技术。该框架通过与高级模型的API交互获取数据对，并利用预训练的大型视觉语言模型（VLMs）动态优化训练数据集，显著减少了数据量和训练成本。EvolveDirector能够从多个高级模型中选择最佳样本进行学习，使最终训练出的模型在多个方面超越现有高级模型。

# 图像识别 # 人工智能 # API

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

StoryTeller：字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

StoryTeller是由字节跳动、上海交通大学和北京大学共同推出的全自动长视频描述生成系统。该系统通过音频视觉角色识别技术，结合低级视觉概念和高级剧情信息，生成详细且连贯的视频描述。StoryTeller在MovieQA任务中展现出比现有模型更高的准确率，适用于电影制作、视频内容分析、辅助视障人士等多个应用场景。

# 图像识别 # 人工智能 # 算法 # 数据挖掘

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Kandinsky-3：开源的文本到图像生成框架，适应多种图像生成任务

Kandinsky-3 是一个开源的文本到图像生成框架，基于潜在扩散模型，能够适应多种图像生成任务。该框架支持高质量和逼真的图像合成，包括文本引导的修复/扩展、图像融合、文本-图像融合及视频生成等功能。Kandinsky-3 通过简化模型架构，提高了推理速度，同时保持了图像质量。

# 图像识别 # 人工智能 # 自然语言处理 # 网络性能优化 # 异构计算 # Python

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

Pangea：卡内基梅隆大学开源的多语言多模态大语言模型

Pangea是由卡内基梅隆大学团队开发的多语言多模态大型语言模型，支持39种语言，包含高质量英文指令、机器翻译指令及文化相关任务。该模型在多语言和文化背景下的性能超越现有开源模型，适用于多语言客户服务、教育和学习、跨文化交流等多个应用场景。

# 机器翻译 # 图像识别 # 人工智能 # 自然语言处理 # 开发工具 # git # Python

蚝油菜花

|

博文

|

来自： ModelScope模型即服务

ebook2audiobookXTTS：开源电子书转有声书 AI 工具，支持 16 种语言

ebook2audiobookXTTS 是一款开源的 AI 工具，能够将电子书转换为有声书，支持多种电子书格式和 16 种语言。该工具利用 Coqui XTTS 技术实现高质量的文本到语音转换，并提供命令行、Web 界面和 Docker 容器等多种使用方式。

# 图像识别 # 人工智能 # Ubuntu # 语音技术 # Docker # 容器

深语人工智能DeepNLP

|

博文

|

来自： ModelScope模型即服务

AI Agents Loop异步执行可视化Tutorial 借助AgentBoard工具可视化工作流

本文介绍了AI Agent的异步执行循环（Agent Loop），并展示了如何利用开源框架agentboard可视化这一过程。通过分析不同框架（如AutoGen、LangGraph、AutoAgent）对Agent Loop的抽象，文章详细说明了从简单的功能调用到复杂的多阶段执行流程的设计。此外，还提供了使用agentboard进行日志记录与流程可视化的具体示例，包括安装步骤、代码实现及运行方法，帮助开发者更高效地调试和优化AI Agent的应用。

# 云原生数据仓库 AnalyticDB PostgreSQL版 # 图像识别 # 日志服务 # 人工智能 # 数据可视化 # API # 算法框架/工具 # PyTorch

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

图像识别