多模态-最新-第5页-阿里云开发者社区-阿里云

蚝油菜花

|

机器学习/深度学习人工智能语音技术

|

博文

Fugatto：英伟达推出的多功能AI音频生成模型

Fugatto是由英伟达推出的多功能AI音频生成模型，能够根据文本提示生成音频或视频，并修改现有音频文件。该模型基于增强型的Transformer模型，支持复杂的组合指令，具有强大的音频生成与转换能力，广泛应用于音乐创作、声音设计、语音合成等领域。

550 1 1

蚝油菜花

|

人工智能测试技术计算机视觉

|

博文

LongLLaVA：香港中文大学推出的多模态上下文混合架构大语言模型

LongLLaVA是由香港中文大学推出的多模态大型语言模型，采用混合架构，结合Mamba和Transformer模块，旨在高效处理大量图像数据。该模型能够在单个A100 80GB GPU上处理多达1000张图像，通过2D池化技术压缩图像token，显著降低计算成本，同时保留关键的空间关系信息。LongLLaVA在视频理解、高分辨率图像分析和多模态代理等应用场景中展现出卓越的性能。

408 5 5

蚝油菜花

|

人工智能自然语言处理数据处理

|

博文

LazyGraphRAG：微软推出的图形增强生成增强检索框架

LazyGraphRAG是微软研究院推出的图形增强生成增强检索框架，旨在大幅降低数据索引成本并提高查询效率。该框架结合了最佳优先搜索和广度优先搜索，支持本地和全局查询，适用于一次性查询、探索性分析和流数据处理。LazyGraphRAG将加入开源的GraphRAG库，为开发者和企业提供更高效的技术支持。

823 0 0

蚝油菜花

|

机器学习/深度学习人工智能 Python

|

博文

MuCodec：清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器

MuCodec是由清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学联合开发的超低比特率音乐编解码器。它能够在0.35kbps至1.35kbps的比特率下实现高效的音乐压缩和高保真重建，适用于在线音乐流媒体服务、音乐下载、语言模型建设等多个应用场景。

592 1 1

蚝油菜花

|

人工智能 API

|

博文

EvolveDirector：阿里联合南洋理工推出文本到图像生成模型的高效训练技术

EvolveDirector是由阿里巴巴和南洋理工大学联合推出的文本到图像生成模型的高效训练技术。该框架通过与高级模型的API交互获取数据对，并利用预训练的大型视觉语言模型（VLMs）动态优化训练数据集，显著减少了数据量和训练成本。EvolveDirector能够从多个高级模型中选择最佳样本进行学习，使最终训练出的模型在多个方面超越现有高级模型。

382 0 0

蚝油菜花

|

人工智能算法数据挖掘

|

博文

StoryTeller：字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

StoryTeller是由字节跳动、上海交通大学和北京大学共同推出的全自动长视频描述生成系统。该系统通过音频视觉角色识别技术，结合低级视觉概念和高级剧情信息，生成详细且连贯的视频描述。StoryTeller在MovieQA任务中展现出比现有模型更高的准确率，适用于电影制作、视频内容分析、辅助视障人士等多个应用场景。

914 0 0

蚝油菜花

|

人工智能自然语言处理网络性能优化

|

博文

Kandinsky-3：开源的文本到图像生成框架，适应多种图像生成任务

Kandinsky-3 是一个开源的文本到图像生成框架，基于潜在扩散模型，能够适应多种图像生成任务。该框架支持高质量和逼真的图像合成，包括文本引导的修复/扩展、图像融合、文本-图像融合及视频生成等功能。Kandinsky-3 通过简化模型架构，提高了推理速度，同时保持了图像质量。

580 2 2

蚝油菜花

|

人工智能自然语言处理开发工具

|

博文

Pangea：卡内基梅隆大学开源的多语言多模态大语言模型

Pangea是由卡内基梅隆大学团队开发的多语言多模态大型语言模型，支持39种语言，包含高质量英文指令、机器翻译指令及文化相关任务。该模型在多语言和文化背景下的性能超越现有开源模型，适用于多语言客户服务、教育和学习、跨文化交流等多个应用场景。

494 2 2

蚝油菜花

|

人工智能 Ubuntu 语音技术

|

博文

ebook2audiobookXTTS：开源电子书转有声书 AI 工具，支持 16 种语言

ebook2audiobookXTTS 是一款开源的 AI 工具，能够将电子书转换为有声书，支持多种电子书格式和 16 种语言。该工具利用 Coqui XTTS 技术实现高质量的文本到语音转换，并提供命令行、Web 界面和 Docker 容器等多种使用方式。

2118 3 4

深语人工智能DeepNLP

|

人工智能数据可视化 API

|

博文

AI Agents Loop异步执行可视化Tutorial 借助AgentBoard工具可视化工作流

本文介绍了AI Agent的异步执行循环（Agent Loop），并展示了如何利用开源框架agentboard可视化这一过程。通过分析不同框架（如AutoGen、LangGraph、AutoAgent）对Agent Loop的抽象，文章详细说明了从简单的功能调用到复杂的多阶段执行流程的设计。此外，还提供了使用agentboard进行日志记录与流程可视化的具体示例，包括安装步骤、代码实现及运行方法，帮助开发者更高效地调试和优化AI Agent的应用。

1768 4 4

蚝油菜花

|

机器学习/深度学习人工智能自然语言处理

|

博文

Documind：开源 AI 文档处理工具，将 PDF 转换为图像提取结构化数据

Documind 是一款利用 AI 技术从 PDF 中提取结构化数据的先进文档处理工具，支持灵活的本地或云端部署。

832 8 8

蚝油菜花

|

人工智能 API

|

博文

OmniSearch：阿里巴巴通义推出的多模态检索增强生成框架

本文介绍了阿里巴巴通义实验室推出的多模态检索增强生成框架 OmniSearch，该框架具备自适应规划能力，能够动态拆解复杂问题，根据检索结果和问题情境调整检索策略，从而提升检索效率和准确性。

1382 5 5

游客ffug4tlsqqei4

|

问答

【求助】关于使用Qwen2-7B-VL多模型模型识别图片某个元素的坐标的问题

879 1 1

sherlockma1-19672

|

数据格式 JSON Python

|

问答

为什么用vllm部署qwen2-2b-vl，传输2张照片却，只回答一张照片的问题？

1284 0 0

aliyun0534282676-30235

|

问答

mPLUG-HiTeA模型的video-question-answering报错问题。

197 1 0

DreamSpark

|

人工智能

|

博文

多模态AI单词助记模型体验

一文带你了解多模态AI单词助记模型的优与劣

626 1 1

游客g7lt2jtezlzsm

|

问答

3D-Speaker怎么使用自己的声纹音频文件进行训练，研究好久了，一直没有思路

553 1 0

游客ff2b2e5pkwlsi

|

人工智能

|

问答

Luma ai（Luma Dream Machine）如何做到抖音上的搞怪视频，例如尔康带上墨镜

205 0 0

AI小怪兽

|

机器学习/深度学习算法算法框架/工具

|

博文

《YOLOv5原创自研》专栏介绍 & CSDN独家改进创新实战&专栏目录

YOLOv5原创自研，助力创新

569 1 1

AI小怪兽

|

机器学习/深度学习编解码人工智能

|

博文

一种基于YOLOv8改进的高精度表面缺陷检测网络， NEU-DET和GC10-DET涨点明显（原创自研）

【7月更文挑战第3天】一种基于YOLOv8改进的高精度表面缺陷检测，在NEU-DET和GC10-DET任务中涨点明显；

890 1 1

游客ruuucchvrvp5q

|

API 容器 Docker

|

问答

docker和open-webui、ollama 部署本地的qwen2 14b 提供了API接口吗？

665 1 0

MahonGG-24847

|

问答

如何本地化（局域网内）部署Qwen的多模态大模型，用作推理并自有程序调用

886 0 0

mutonix

|

测试技术

|

博文

Vript：最为详细的视频文本数据集，每个视频片段平均超过140词标注｜多模态大模型，文生视频

[Vript](https://github.com/mutonix/Vript) 是一个大规模的细粒度视频文本数据集，包含12K个高分辨率视频和400k+片段，以视频脚本形式进行密集注释，每个场景平均有145个单词的标题。除了视觉信息，还转录了画外音，提供额外背景。新发布的Vript-Bench基准包括三个挑战性任务：Vript-CAP（详细视频描述）、Vript-RR（视频推理）和Vript-ERO（事件时序推理），旨在推动视频理解的发展。

673 1 1

游客jiocit5wk2kz6

|

问答

from modelscope.utils.constant import Tasks报错

420 0 0

hahah116

|

存储开发工具

|

问答

怎么修改model scope的默认存储位置

1613 1 0

游客l2j3ddwpe5s4k

|

编解码

|

问答

下载youku-mplug的Video Captioning数据集时报错。

206 0 0

游客l2j3ddwpe5s4k

|

编解码 Python API

|

问答

下载youku-mplug的Video Captioning数据集时报错。

668 1 0

1888825013031733

|

问答

multi-modal-embedding注册问题

310 0 0

7q53djewhjqbu

|

文字识别

|

问答

使用ofa的ocr模型识别手写体文字时，怎么增加vocab.txt中没有的字

300 1 0

雪域之巅

|

问答

如何设计一个以往需要依靠专家来评估的模型，比如教学能力

129 0 0

菜鸡修地球

|

问答

ModelScope通义千问72B有多模态能力吗？

309 0 0

aliyun3739868482

|

问答

请问Qwen-VL怎么用自己的数据集微调

1960 4 0

游客ywsjlwgvlizwi

|

问答

modelscope中“mPLUG-HiTeA模型”使用报错求助是什么原因

662 4 0

快乐期盼

|

人工智能

|

博文

aigc

429 0 0

游客d7av6cbryzbho

|

问答

请帮我看看以下模型评估的文档说明

390 2 0

游客ghxtbizdgejvs

|

博文

请问有没有能撰写期刊学术论文的模型和数据？

392 0 0

游客ffrsaok5ymnc4

|

Python

|

问答

Modelscope下载Youku-mPLUG出现oss2.exceptions.NoSuchKey

596 3 0

游客a4pupork2sqbg

|

问答

CLIP-CN的finetune问题

283 0 0

viera

|

问答

通义千问：pipeline 任务支持visual_grounding功能吗？

379 0 0

游客brlol47csguvw

|

问答

代码问题关于videofusion

403 1 0

王伍六七

|

问答

你好，在官方提供的实例上运行，报了下图错误。即使把modelscope库更新到1.8.4还是存在问题

272 1 0

游客veylemwmx266o

|

编解码

|

问答

下载数据集报错：UnicodeDecodeError: 'utf-8' codec can't de

551 1 0

游客2ebfl3hcl3o2y

|

问答

这个有美化提示词的作用吗？以及可以美化中文提示词吗？

380 0 0

爱吃电脑的跳跳

|

测试技术芯片索引

|

博文

中文竞技场大模型评测体验报告

本文对大型语言模型进行综合评测，从代码相关性、人类价值观和知识常识三个角度展开分析。每个领域提出了3个问题，以测试模型的效果。

589 0 0

well520

|

问答

视频能长一些吗？太短了

412 1 0

yhixdjfumu6ny

|

问答

阿里魔搭社区中的 Text-to-video-synthesis 模型最多支持多长的视频生成

448 1 0

1912472885236101

|

问答

ofa_image-caption 支持中文训练吗？

220 1 0

shmilysyq

|

问答

GridVLP多模态类目预测-中文-电商领域-base 找不到模型

428 1 0

南修子

|

问答

!pip install open_clip_torch !pip install pytorch-

1115 1 0

游客ukdilib2wvvgo

|

数据库

|

问答

请问如何根据自己的数据进行finetune呢？

797 3 0

多模态

最新

文章

视频

问答

推荐

精华

Fugatto：英伟达推出的多功能AI音频生成模型

LongLLaVA：香港中文大学推出的多模态上下文混合架构大语言模型

LazyGraphRAG：微软推出的图形增强生成增强检索框架

MuCodec：清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器

EvolveDirector：阿里联合南洋理工推出文本到图像生成模型的高效训练技术

StoryTeller：字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

Kandinsky-3：开源的文本到图像生成框架，适应多种图像生成任务

Pangea：卡内基梅隆大学开源的多语言多模态大语言模型

ebook2audiobookXTTS：开源电子书转有声书 AI 工具，支持 16 种语言

AI Agents Loop异步执行可视化Tutorial 借助AgentBoard工具可视化工作流

Documind：开源 AI 文档处理工具，将 PDF 转换为图像提取结构化数据

OmniSearch：阿里巴巴通义推出的多模态检索增强生成框架

【求助】关于使用Qwen2-7B-VL多模型模型识别图片某个元素的坐标的问题

为什么用vllm部署qwen2-2b-vl，传输2张照片却，只回答一张照片的问题？

mPLUG-HiTeA模型的video-question-answering报错问题。

多模态AI单词助记模型体验

3D-Speaker怎么使用自己的声纹音频文件进行训练，研究好久了，一直没有思路

Luma ai（Luma Dream Machine）如何做到抖音上的搞怪视频，例如尔康带上墨镜

《YOLOv5原创自研》专栏介绍 & CSDN独家改进创新实战&专栏目录

一种基于YOLOv8改进的高精度表面缺陷检测网络， NEU-DET和GC10-DET涨点明显（原创自研）

docker和open-webui、ollama 部署本地的qwen2 14b 提供了API接口吗？

如何本地化（局域网内）部署Qwen的多模态大模型，用作推理 并自有程序调用

Vript：最为详细的视频文本数据集，每个视频片段平均超过140词标注 ｜ 多模态大模型，文生视频

from modelscope.utils.constant import Tasks报错

怎么修改model scope的默认存储位置

下载youku-mplug的Video Captioning数据集时报错。

下载youku-mplug的Video Captioning数据集时报错。

multi-modal-embedding注册问题

使用ofa的ocr模型识别手写体文字时，怎么增加vocab.txt中没有的字

如何设计一个以往需要依靠专家来评估的模型，比如教学能力

ModelScope通义千问72B有多模态能力吗？

请问Qwen-VL怎么用自己的数据集微调

modelscope中“mPLUG-HiTeA模型”使用报错求助是什么原因

aigc

请帮我看看以下模型评估的文档说明

请问有没有能撰写期刊学术论文的模型和数据？

Modelscope下载Youku-mPLUG出现oss2.exceptions.NoSuchKey

CLIP-CN的finetune问题

通义千问：pipeline 任务支持visual_grounding功能吗？

代码问题关于videofusion

你好，在官方提供的实例上运行，报了下图错误。即使把modelscope库更新到1.8.4还是存在问题

下载数据集报错：UnicodeDecodeError: 'utf-8' codec can't de

这个有美化提示词的作用吗？以及可以美化中文提示词吗？

中文竞技场大模型评测体验报告

视频能长一些吗？太短了

阿里魔搭社区中的 Text-to-video-synthesis 模型最多支持多长的视频生成

ofa_image-caption 支持中文训练吗？

GridVLP多模态类目预测-中文-电商领域-base 找不到模型

!pip install open_clip_torch !pip install pytorch-

请问如何根据自己的数据进行finetune呢？

活跃用户

如何本地化（局域网内）部署Qwen的多模态大模型，用作推理并自有程序调用

Vript：最为详细的视频文本数据集，每个视频片段平均超过140词标注｜多模态大模型，文生视频