开发者社区> ModelScope模型即服务> 多模态

多模态

关注

包含图像描述、文本生成图片、版面分析、多模态表征、视觉问答、文档理解等多个领域

0
今日
307
内容
0
活动
249
关注
|
10月前
|
人工智能 API
|

EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术

EvolveDirector是由阿里巴巴和南洋理工大学联合推出的文本到图像生成模型的高效训练技术。该框架通过与高级模型的API交互获取数据对,并利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,显著减少了数据量和训练成本。EvolveDirector能够从多个高级模型中选择最佳样本进行学习,使最终训练出的模型在多个方面超越现有高级模型。

192 0
|
10月前
|
人工智能 算法 数据挖掘
|

StoryTeller:字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

StoryTeller是由字节跳动、上海交通大学和北京大学共同推出的全自动长视频描述生成系统。该系统通过音频视觉角色识别技术,结合低级视觉概念和高级剧情信息,生成详细且连贯的视频描述。StoryTeller在MovieQA任务中展现出比现有模型更高的准确率,适用于电影制作、视频内容分析、辅助视障人士等多个应用场景。

458 0
|
10月前
|
人工智能 自然语言处理 网络性能优化
|

Kandinsky-3:开源的文本到图像生成框架,适应多种图像生成任务

Kandinsky-3 是一个开源的文本到图像生成框架,基于潜在扩散模型,能够适应多种图像生成任务。该框架支持高质量和逼真的图像合成,包括文本引导的修复/扩展、图像融合、文本-图像融合及视频生成等功能。Kandinsky-3 通过简化模型架构,提高了推理速度,同时保持了图像质量。

260 2
|
10月前
|
人工智能 自然语言处理 开发工具
|

Pangea:卡内基梅隆大学开源的多语言多模态大语言模型

Pangea是由卡内基梅隆大学团队开发的多语言多模态大型语言模型,支持39种语言,包含高质量英文指令、机器翻译指令及文化相关任务。该模型在多语言和文化背景下的性能超越现有开源模型,适用于多语言客户服务、教育和学习、跨文化交流等多个应用场景。

261 2
|
10月前
|
人工智能 Ubuntu 语音技术
|

ebook2audiobookXTTS:开源电子书转有声书 AI 工具,支持 16 种语言

ebook2audiobookXTTS 是一款开源的 AI 工具,能够将电子书转换为有声书,支持多种电子书格式和 16 种语言。该工具利用 Coqui XTTS 技术实现高质量的文本到语音转换,并提供命令行、Web 界面和 Docker 容器等多种使用方式。

1163 3
|
10月前
|
人工智能 数据可视化 API
|

AI Agents Loop异步执行可视化Tutorial 借助AgentBoard工具可视化工作流

本文介绍了AI Agent的异步执行循环(Agent Loop),并展示了如何利用开源框架agentboard可视化这一过程。通过分析不同框架(如AutoGen、LangGraph、AutoAgent)对Agent Loop的抽象,文章详细说明了从简单的功能调用到复杂的多阶段执行流程的设计。此外,还提供了使用agentboard进行日志记录与流程可视化的具体示例,包括安装步骤、代码实现及运行方法,帮助开发者更高效地调试和优化AI Agent的应用。

551 4
|
10月前
|
机器学习/深度学习 人工智能 自然语言处理
|

Documind:开源 AI 文档处理工具,将 PDF 转换为图像提取结构化数据

Documind 是一款利用 AI 技术从 PDF 中提取结构化数据的先进文档处理工具,支持灵活的本地或云端部署。

387 8
|
10月前
|
人工智能 API
|

OmniSearch:阿里巴巴通义推出的多模态检索增强生成框架

本文介绍了阿里巴巴通义实验室推出的多模态检索增强生成框架 OmniSearch,该框架具备自适应规划能力,能够动态拆解复杂问题,根据检索结果和问题情境调整检索策略,从而提升检索效率和准确性。

913 5
|
人工智能
|

多模态AI单词助记模型体验

一文带你了解多模态AI单词助记模型的优与劣

395 1
|
机器学习/深度学习 算法 算法框架/工具
|

《YOLOv5原创自研》专栏介绍 & CSDN独家改进创新实战&专栏目录

YOLOv5原创自研,助力创新

340 1
|
机器学习/深度学习 编解码 人工智能
|

一种基于YOLOv8改进的高精度表面缺陷检测网络, NEU-DET和GC10-DET涨点明显(原创自研)

【7月更文挑战第3天】一种基于YOLOv8改进的高精度表面缺陷检测, 在NEU-DET和GC10-DET任务中涨点明显;

437 1
|
测试技术
|

Vript:最为详细的视频文本数据集,每个视频片段平均超过140词标注 | 多模态大模型,文生视频

[Vript](https://github.com/mutonix/Vript) 是一个大规模的细粒度视频文本数据集,包含12K个高分辨率视频和400k+片段,以视频脚本形式进行密集注释,每个场景平均有145个单词的标题。除了视觉信息,还转录了画外音,提供额外背景。新发布的Vript-Bench基准包括三个挑战性任务:Vript-CAP(详细视频描述)、Vript-RR(视频推理)和Vript-ERO(事件时序推理),旨在推动视频理解的发展。

349 1
|
人工智能
|

aigc

aigc

283 0

请问有没有能撰写期刊学术论文的模型和数据?

请问有没有能撰写期刊学术论文的模型和数据?

271 0
|
测试技术 芯片 索引
|

中文竞技场大模型评测体验报告

本文对大型语言模型进行综合评测,从代码相关性、人类价值观和知识常识三个角度展开分析。每个领域提出了3个问题,以测试模型的效果。

396 0

ONE-PEACE:探索通往无限模态的通用表征模型

王鹏 达摩院高级算法工程师

2826 0
我要发布