LongLLaVA:香港中文大学推出的多模态上下文混合架构大语言模型
LongLLaVA是由香港中文大学推出的多模态大型语言模型,采用混合架构,结合Mamba和Transformer模块,旨在高效处理大量图像数据。该模型能够在单个A100 80GB GPU上处理多达1000张图像,通过2D池化技术压缩图像token,显著降低计算成本,同时保留关键的空间关系信息。LongLLaVA在视频理解、高分辨率图像分析和多模态代理等应用场景中展现出卓越的性能。
LazyGraphRAG:微软推出的图形增强生成增强检索框架
LazyGraphRAG是微软研究院推出的图形增强生成增强检索框架,旨在大幅降低数据索引成本并提高查询效率。该框架结合了最佳优先搜索和广度优先搜索,支持本地和全局查询,适用于一次性查询、探索性分析和流数据处理。LazyGraphRAG将加入开源的GraphRAG库,为开发者和企业提供更高效的技术支持。
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
EvolveDirector是由阿里巴巴和南洋理工大学联合推出的文本到图像生成模型的高效训练技术。该框架通过与高级模型的API交互获取数据对,并利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,显著减少了数据量和训练成本。EvolveDirector能够从多个高级模型中选择最佳样本进行学习,使最终训练出的模型在多个方面超越现有高级模型。
Kandinsky-3:开源的文本到图像生成框架,适应多种图像生成任务
Kandinsky-3 是一个开源的文本到图像生成框架,基于潜在扩散模型,能够适应多种图像生成任务。该框架支持高质量和逼真的图像合成,包括文本引导的修复/扩展、图像融合、文本-图像融合及视频生成等功能。Kandinsky-3 通过简化模型架构,提高了推理速度,同时保持了图像质量。
Pangea:卡内基梅隆大学开源的多语言多模态大语言模型
Pangea是由卡内基梅隆大学团队开发的多语言多模态大型语言模型,支持39种语言,包含高质量英文指令、机器翻译指令及文化相关任务。该模型在多语言和文化背景下的性能超越现有开源模型,适用于多语言客户服务、教育和学习、跨文化交流等多个应用场景。
AI Agents Loop异步执行可视化Tutorial 借助AgentBoard工具可视化工作流
本文介绍了AI Agent的异步执行循环(Agent Loop),并展示了如何利用开源框架agentboard可视化这一过程。通过分析不同框架(如AutoGen、LangGraph、AutoAgent)对Agent Loop的抽象,文章详细说明了从简单的功能调用到复杂的多阶段执行流程的设计。此外,还提供了使用agentboard进行日志记录与流程可视化的具体示例,包括安装步骤、代码实现及运行方法,帮助开发者更高效地调试和优化AI Agent的应用。