蚝油菜花_个人页

个人头像照片 蚝油菜花
个人头像照片
164
1
0

个人介绍

微信公众号:@蚝油菜花|如果你也关注大模型发展现状,或对大模型应用开发非常感兴趣,很期待你的关注和私信,我会不定期分享自己的想法和开源实例。

擅长的技术

获得更多能力
通用技术能力:

暂时未有相关通用技术能力~

云产品技术能力:

暂时未有相关云产品技术能力~

阿里云技能认证

详细说明
暂无更多信息

2024年12月

  • 12.03 20:59:18
    发表了文章 2024-12-03 20:59:18

    360Zhinao2-7B:360推出自研360智脑大模型的升级版

    360Zhinao2-7B是360自研的AI大模型360智脑7B参数升级版,涵盖基础模型及多种上下文长度的聊天模型。该模型在语言理解与生成、聊天能力、数学逻辑推理等方面表现出色,支持多语言和多上下文长度,适用于多种商业应用场景。
  • 12.03 19:29:18
    发表了文章 2024-12-03 19:29:18

    Magic Copy:开源的 AI 抠图工具,在浏览器中自动识别图像进行抠图

    Magic Copy 是一款开源的 AI 抠图工具,支持 Chrome 浏览器扩展。它基于 Meta 的 Segment Anything Model 技术,能够自动识别图像中的前景对象并提取出来,简化用户从图片中提取特定元素的过程,提高工作效率。
  • 12.03 19:28:39
    发表了文章 2024-12-03 19:28:39

    FlagEvalMM:智源开源的多模态模型评测框架

    FlagEvalMM 是由北京智源人工智能研究院开源的多模态模型评测框架,旨在全面评估处理文本、图像、视频等多种模态的模型。该框架支持多种任务和指标,采用评测与模型推理解耦的设计,提升评测效率,便于快速适配新任务和模型。
  • 12.03 19:28:06
    发表了文章 2024-12-03 19:28:06

    Delta-CoMe:清华联合OpenBMB等高校开源的新型增量压缩算法

    Delta-CoMe是由清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法。该算法通过结合低秩分解和低比特量化技术,显著减少了大型语言模型的存储和内存需求,同时保持了模型性能几乎无损。Delta-CoMe特别适用于处理数学、代码和多模态等复杂任务,并在推理速度上有所提升。
  • 12.03 19:27:27
    发表了文章 2024-12-03 19:27:27

    Agent-E:基于 AutoGen 代理框架构建的 AI 浏览器自动化系统

    Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统,专注于浏览器内的自动化操作。它能够执行多种复杂任务,如填写表单、搜索和排序电商产品、定位网页内容等,从而提高在线效率,减少重复劳动。本文将详细介绍 Agent-E 的功能、技术原理以及如何运行该系统。
  • 12.03 19:26:38
    发表了文章 2024-12-03 19:26:38

    GLM-Edge:智谱开源的端侧大语言和多模态系列模型

    GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型,旨在实现模型性能、实机推理效果和落地便利性之间的最佳平衡。该系列模型支持在手机、车机和PC等端侧设备上高效运行,适用于智能助手、聊天机器人、图像标注等多种应用场景。
  • 12.03 19:26:02
    发表了文章 2024-12-03 19:26:02

    Make-It-Animatable:中科大联合腾讯推出的自动生成即时动画准备资产

    Make-It-Animatable是由中国科学技术大学和腾讯联合推出的数据驱动框架,能够在不到一秒内将任何3D人形模型转换为可用于动画的状态。该框架支持多种3D数据格式,并采用从粗到细的表示策略和结构感知建模,显著提升了动画准备的质量和速度。
  • 12.02 22:05:58
    发表了文章 2024-12-02 22:05:58

    Voice-Pro:开源AI音频处理工具,集成转录、翻译、TTS等一站式服务

    Voice-Pro是一款开源的多功能音频处理工具,集成了语音转文字、文本转语音、实时翻译、YouTube视频下载和人声分离等多种功能。它支持超过100种语言,适用于教育、娱乐和商业等多个领域,为用户提供一站式的音频处理解决方案,极大地提高工作效率和音频处理的便捷性。
  • 12.02 22:05:10
    发表了文章 2024-12-02 22:05:10

    iDP3:斯坦福大学联合多所高校推出的改进型3D视觉运动策略

    iDP3是由斯坦福大学联合多所高校推出的改进型3D视觉运动策略,旨在提升人形机器人在多样化环境中的自主操作能力。该策略基于自我中心的3D视觉表征,无需精确相机校准和点云分割,显著提高了机器人在未见过的环境中的实用性和灵活性。
  • 12.02 22:04:41
    发表了文章 2024-12-02 22:04:41

    OminiControl:AI图像生成框架,实现图像主题控制和空间精确控制

    OminiControl 是一个高度通用且参数高效的 AI 图像生成框架,专为扩散变换器模型设计,能够实现图像主题控制和空间精确控制。该框架通过引入极少量的额外参数(0.1%),支持主题驱动控制和空间对齐控制,适用于多种图像生成任务。
  • 12.02 22:03:58
    发表了文章 2024-12-02 22:03:58

    Proactive Agent:清华联合面壁智能开源的新一代主动Agent交互范式

    Proactive Agent是由清华大学联合面壁智能等团队推出的新一代主动Agent交互范式。它具备主动性,能够预测用户需求并在没有直接指令的情况下采取行动。本文详细介绍了Proactive Agent的主要功能、技术原理以及如何运行和评估其性能。
  • 12.01 02:49:58
    发表了文章 2024-12-01 02:49:58

    Mooncake:月之暗面Kimi联合清华等机构推出的大模型推理架构

    Mooncake是由月之暗面Kimi联合清华大学等机构共同开源的大模型推理架构。该架构以KVCache为中心,通过分布式设计和资源优化,显著提升了大模型推理的吞吐量和效率,同时降低了算力开销。Mooncake在长上下文场景中表现出色,支持多种应用场景,如自然语言处理、内容推荐系统和搜索引擎等。
  • 12.01 02:49:18
    发表了文章 2024-12-01 02:49:18

    Devika AI:开源的 AI 软件开发工具,理解和执行复杂的人类指令

    Devika AI 是一款开源的 AI 软件开发工具,能够理解和执行复杂的人类指令。它通过分解任务、信息搜集和代码生成,帮助开发者提高效率,减少人工干预。本文将详细介绍 Devika AI 的功能、技术原理以及如何运行和配置该工具。
  • 12.01 02:48:22
    发表了文章 2024-12-01 02:48:22

    Sketch2Lineart:AI绘画工具,自动将手绘草图转换成清晰的线条画

    Sketch2Lineart是一款基于人工智能的绘画工具,能够自动将手绘草图转换成清晰的线条画。该工具支持多种功能,如草图转线稿、自动描述生成、细节调整和风格定制等,适用于艺术创作、产品设计、教育培训等多个领域。
  • 12.01 02:47:50
    发表了文章 2024-12-01 02:47:50

    ShowUI:新加坡国立联合微软推出用于 GUI 自动化的视觉-语言-操作模型

    ShowUI是由新加坡国立大学Show Lab和微软联合推出的视觉-语言-行动模型,旨在提升图形用户界面(GUI)助手的效率。该模型通过UI引导的视觉令牌选择和交错视觉-语言-行动流,有效减少计算成本并提高训练效率。ShowUI在小规模高质量数据集上表现出色,展现出在GUI自动化领域的潜力。
  • 12.01 02:47:15
    发表了文章 2024-12-01 02:47:15

    Find3D:加州理工学院推出的3D部件分割模型

    Find3D是由加州理工学院推出的3D部件分割模型,能够根据任意文本查询分割任意对象的任何部分。该模型利用强大的数据引擎自动从互联网上的3D资产生成训练数据,并通过对比训练方法训练出一个可扩展的3D模型。Find3D在多个数据集上表现出色,显著提升了平均交并比(mIoU),并能处理来自iPhone照片和AI生成图像的野外3D构建。
  • 12.01 02:46:43
    发表了文章 2024-12-01 02:46:43

    SAM 2.1:Meta 开源的图像和视频分割,支持实时视频处理

    SAM 2.1是由Meta(Facebook的母公司)推出的先进视觉分割模型,专为图像和视频处理设计。该模型基于Transformer架构和流式记忆设计,实现了实时视频处理,并引入了数据增强技术,提升了对视觉相似物体和小物体的识别能力。SAM 2.1的主要功能包括图像和视频分割、实时视频处理、用户交互式分割、多对象跟踪以及改进的遮挡处理能力。
  • 12.01 02:46:01
    发表了文章 2024-12-01 02:46:01

    Fancy123:华中科技和华南理工推出的3D网格生成技术

    Fancy123是由华中科技大学和华南理工大学联合推出的3D网格生成技术,能够从单张图片生成高质量的3D网格。该技术通过即插即用的变形技术,解决了多视图图像的局部不一致性,提高了网格对输入图像的保真度,并确保了高清晰度。Fancy123在定性和定量实验中表现出色,能够无缝集成到现有的单图像到3D的方法中。
  • 12.01 02:45:30
    发表了文章 2024-12-01 02:45:30

    Promptriever:信息检索模型,支持自然语言提示响应用户搜索需求

    Promptriever 是一种新型信息检索模型,由约翰斯·霍普金斯大学和 Samaya AI 联合推出。该模型能够接受自然语言提示,并以直观的方式响应用户的搜索需求。通过在 MS MARCO 数据集上的训练,Promptriever 在标准检索任务上表现出色,能够更有效地遵循详细指令,提高查询的鲁棒性和检索性能。
  • 12.01 02:45:00
    发表了文章 2024-12-01 02:45:00

    Qwen2VL-Flux:开源的多模态图像生成模型,支持多种生成模式

    Qwen2VL-Flux 是一个开源的多模态图像生成模型,结合了 Qwen2VL 的视觉语言理解和 FLUX 框架,能够基于文本提示和图像参考生成高质量的图像。该模型支持多种生成模式,包括变体生成、图像到图像转换、智能修复及 ControlNet 引导生成,具备深度估计和线条检测功能,提供灵活的注意力机制和高分辨率输出,是一站式的图像生成解决方案。

2024年11月

  • 11.29 20:12:27
    发表了文章 2024-11-29 20:12:27

    LongLLaVA:香港中文大学推出的多模态上下文混合架构大语言模型

    LongLLaVA是由香港中文大学推出的多模态大型语言模型,采用混合架构,结合Mamba和Transformer模块,旨在高效处理大量图像数据。该模型能够在单个A100 80GB GPU上处理多达1000张图像,通过2D池化技术压缩图像token,显著降低计算成本,同时保留关键的空间关系信息。LongLLaVA在视频理解、高分辨率图像分析和多模态代理等应用场景中展现出卓越的性能。
  • 11.29 20:11:06
    发表了文章 2024-11-29 20:11:06

    EchoMimicV2:阿里推出的开源数字人项目,能生成完整数字人半身动画

    EchoMimicV2是阿里蚂蚁集团推出的开源数字人项目,能够生成完整的数字人半身动画。该项目基于参考图片、音频剪辑和手部姿势序列,通过音频-姿势动态协调策略生成高质量动画视频,确保音频内容与半身动作的一致性。EchoMimicV2不仅支持中文和英文驱动,还简化了动画生成过程中的复杂条件,适用于虚拟主播、在线教育、娱乐和游戏等多个应用场景。
  • 11.29 20:10:21
    发表了文章 2024-11-29 20:10:21

    Markdown-to-Image:开源的在线 Markdown 转海报编辑器

    Markdown-to-Image 是一款开源的在线 Markdown 转海报编辑器,能够将 Markdown 文本内容转换为图像,适用于创建社交媒体帖子、海报和其他视觉内容。该工具支持多种输出格式,并允许用户自定义样式,适用于多种应用场景。
  • 11.29 20:09:21
    发表了文章 2024-11-29 20:09:21

    SmolVLM:Hugging Face推出的轻量级视觉语言模型

    SmolVLM是Hugging Face推出的轻量级视觉语言模型,专为设备端推理设计。以20亿参数量,实现了高效内存占用和快速处理速度。SmolVLM提供了三个版本以满足不同需求,并完全开源,所有模型检查点、VLM数据集、训练配方和工具均在Apache 2.0许可证下发布。
  • 11.29 20:06:05
    发表了文章 2024-11-29 20:06:05

    BALROG:基准测试工具,用于评估 LLMs 和 VLMs 在复杂动态环境中的推理能力

    BALROG 是一款用于评估大型语言模型(LLMs)和视觉语言模型(VLMs)在复杂动态环境中推理能力的基准测试工具。它通过一系列挑战性的游戏环境,如 NetHack,测试模型的规划、空间推理和探索能力。BALROG 提供了一个开放且细粒度的评估框架,推动了自主代理研究的进展。
  • 11.29 20:05:13
    发表了文章 2024-11-29 20:05:13

    Optima:清华联合北邮推出优化通信效率和任务有效性的训练框架

    Optima是由清华大学和北京邮电大学联合推出的一个优化通信效率和任务有效性的训练框架。该框架通过迭代生成、排名、选择和训练范式,显著提高了基于大型语言模型(LLM)的多智能体系统(MAS)的通信效率和任务效果。Optima不仅减少了令牌使用,还为改进推理时间扩展法则提供了新的可能性。
  • 11.29 20:04:04
    发表了文章 2024-11-29 20:04:04

    Fugatto:英伟达推出的多功能AI音频生成模型

    Fugatto是由英伟达推出的多功能AI音频生成模型,能够根据文本提示生成音频或视频,并修改现有音频文件。该模型基于增强型的Transformer模型,支持复杂的组合指令,具有强大的音频生成与转换能力,广泛应用于音乐创作、声音设计、语音合成等领域。
  • 11.29 20:02:50
    发表了文章 2024-11-29 20:02:50

    LEOPARD:腾讯AI Lab西雅图实验室推出的视觉语言模型

    LEOPARD是由腾讯AI Lab西雅图实验室推出的视觉语言模型,专为处理含有大量文本的多图像任务设计。该模型通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集,在多个基准测试中表现卓越,适用于自动化文档理解、教育和学术研究、商业智能和数据分析等多个应用场景。
  • 11.28 17:58:53
    发表了文章 2024-11-28 17:58:53

    AutoTrain:Hugging Face 开源的无代码模型训练平台

    AutoTrain 是 Hugging Face 推出的开源无代码模型训练平台,旨在简化最先进模型的训练过程。用户无需编写代码,只需上传数据即可创建、微调和部署自己的 AI 模型。AutoTrain 支持多种机器学习任务,并提供自动化最佳实践,包括超参数调整、模型验证和分布式训练。
  • 11.28 17:57:30
    发表了文章 2024-11-28 17:57:30

    StoryTeller:字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

    StoryTeller是由字节跳动、上海交通大学和北京大学共同推出的全自动长视频描述生成系统。该系统通过音频视觉角色识别技术,结合低级视觉概念和高级剧情信息,生成详细且连贯的视频描述。StoryTeller在MovieQA任务中展现出比现有模型更高的准确率,适用于电影制作、视频内容分析、辅助视障人士等多个应用场景。
  • 11.28 17:55:23
    发表了文章 2024-11-28 17:55:23

    LongRAG:智谱联合清华和中科院推出的双视角鲁棒检索框架

    LongRAG是由智谱、清华大学和中国科学院联合推出的双视角鲁棒检索增强生成框架,专为长文本问答设计。该框架通过混合检索器、LLM增强信息提取器、CoT引导过滤器和LLM增强生成器等组件,有效解决了长文本问答中的全局上下文理解和事实细节识别难题。LongRAG在多个数据集上表现优异,提供了自动化微调数据构建管道,增强了系统的“指令跟随”能力和领域适应性。
  • 11.28 17:54:12
    发表了文章 2024-11-28 17:54:12

    LazyGraphRAG:微软推出的图形增强生成增强检索框架

    LazyGraphRAG是微软研究院推出的图形增强生成增强检索框架,旨在大幅降低数据索引成本并提高查询效率。该框架结合了最佳优先搜索和广度优先搜索,支持本地和全局查询,适用于一次性查询、探索性分析和流数据处理。LazyGraphRAG将加入开源的GraphRAG库,为开发者和企业提供更高效的技术支持。
  • 11.28 17:52:51
    发表了文章 2024-11-28 17:52:51

    ViewExtrapolator:南洋理工联合UCAS团队推出的新型视图合成方法

    南洋理工大学与UCAS团队联合推出了一种新型视图合成方法——ViewExtrapolator。该方法基于稳定视频扩散(SVD)技术,能够在不进行微调的情况下,高效生成超出训练视图范围的新视角图像,显著减少伪影,提升视觉质量。ViewExtrapolator具有广泛的应用前景,尤其在虚拟现实、3D内容创建、电影制作等领域。
  • 11.28 17:51:37
    发表了文章 2024-11-28 17:51:37

    MuCodec:清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器

    MuCodec是由清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学联合开发的超低比特率音乐编解码器。它能够在0.35kbps至1.35kbps的比特率下实现高效的音乐压缩和高保真重建,适用于在线音乐流媒体服务、音乐下载、语言模型建设等多个应用场景。
  • 11.28 17:50:52
    发表了文章 2024-11-28 17:50:52

    EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术

    EvolveDirector是由阿里巴巴和南洋理工大学联合推出的文本到图像生成模型的高效训练技术。该框架通过与高级模型的API交互获取数据对,并利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,显著减少了数据量和训练成本。EvolveDirector能够从多个高级模型中选择最佳样本进行学习,使最终训练出的模型在多个方面超越现有高级模型。
  • 11.28 17:49:51
    发表了文章 2024-11-28 17:49:51

    XGrammar:陈天奇团队推出的LLM结构化生成引擎

    XGrammar是由陈天奇团队推出的开源软件库,专为大型语言模型(LLM)设计,提供高效、灵活且可移植的结构化数据生成能力。基于上下文无关语法(CFG),XGrammar支持递归组合以表示复杂结构,适用于生成JSON、SQL等格式数据,并通过字节级下推自动机优化解释CFG,实现百倍加速。
  • 11.28 00:55:45
    发表了文章 2024-11-28 00:55:45

    ebook2audiobookXTTS:开源电子书转有声书 AI 工具,支持 16 种语言

    ebook2audiobookXTTS 是一款开源的 AI 工具,能够将电子书转换为有声书,支持多种电子书格式和 16 种语言。该工具利用 Coqui XTTS 技术实现高质量的文本到语音转换,并提供命令行、Web 界面和 Docker 容器等多种使用方式。
  • 11.28 00:55:05
    发表了文章 2024-11-28 00:55:05

    OneDiffusion:无缝支持双向图像合成和理解的开源扩散模型

    OneDiffusion 是一个开源的扩散模型,能够无缝支持双向图像合成和理解。它基于统一的训练框架,支持多种任务,如文本到图像生成、条件图像生成和图像理解等。OneDiffusion 通过流匹配框架和序列建模技术,实现了高度的灵活性和可扩展性。
  • 11.28 00:54:24
    发表了文章 2024-11-28 00:54:24

    TÜLU 3:Ai2推出的系列开源指令遵循模型

    TÜLU 3是由艾伦人工智能研究所(Ai2)推出的开源指令遵循模型系列,包括8B和70B两个版本,未来计划推出405B版本。该模型在性能上超越了Llama 3.1 Instruct版本,提供了详细的后训练技术报告,公开数据、评估代码和训练算法。TÜLU 3基于强化学习、直接偏好优化等先进技术,显著提升模型在数学、编程和指令遵循等核心技能上的表现。
  • 11.28 00:52:17
    发表了文章 2024-11-28 00:52:17

    Pangea:卡内基梅隆大学开源的多语言多模态大语言模型

    Pangea是由卡内基梅隆大学团队开发的多语言多模态大型语言模型,支持39种语言,包含高质量英文指令、机器翻译指令及文化相关任务。该模型在多语言和文化背景下的性能超越现有开源模型,适用于多语言客户服务、教育和学习、跨文化交流等多个应用场景。
  • 11.28 00:51:24
    发表了文章 2024-11-28 00:51:24

    ACE:阿里通义实验室推出的全能图像生成和编辑模型

    ACE是阿里巴巴通义实验室推出的全能图像生成和编辑模型,基于扩散变换器,支持多模态输入和多任务处理。该模型通过长上下文条件单元(LCU)和统一条件格式,能够理解和执行自然语言指令,实现图像生成、编辑和多轮交互等复杂任务,显著提升视觉内容创作的效率和灵活性。
  • 11.28 00:50:30
    发表了文章 2024-11-28 00:50:30

    Kandinsky-3:开源的文本到图像生成框架,适应多种图像生成任务

    Kandinsky-3 是一个开源的文本到图像生成框架,基于潜在扩散模型,能够适应多种图像生成任务。该框架支持高质量和逼真的图像合成,包括文本引导的修复/扩展、图像融合、文本-图像融合及视频生成等功能。Kandinsky-3 通过简化模型架构,提高了推理速度,同时保持了图像质量。
  • 11.28 00:49:36
    发表了文章 2024-11-28 00:49:36

    DynaSaur:Adobe 推出的大语言模型代理框架

    Adobe Research 推出的 DynaSaur 是一个突破性的大语言模型代理框架,它允许代理动态创建和组合动作,通过生成和执行 Python 代码与环境互动,从而实现更灵活的问题解决。DynaSaur 不仅在 GAIA 基准测试中表现出色,还具有动态动作创建、动作积累与复用、环境互动等主要功能,适用于多种应用场景。
  • 11.28 00:48:38
    发表了文章 2024-11-28 00:48:38

    MVPaint:腾讯PCG联合多所高校共同推出的3D纹理生成框架

    MVPaint是由腾讯PCG联合多所高校共同推出的3D纹理生成框架,基于同步多视角扩散技术,实现高分辨率、无缝且多视图一致的3D纹理生成。该框架包含三个核心模块:同步多视角生成、空间感知3D修补和UV细化,显著提升3D模型的纹理生成效果。
  • 11.27 23:45:18
    发表了文章 2024-11-27 23:45:18

    aisuite:吴恩达发布开源Python库,一个接口调用多个大模型

    吴恩达发布的开源Python库aisuite,提供了一个统一的接口来调用多个大型语言模型(LLM)服务。支持包括OpenAI、Anthropic、Azure等在内的11个模型平台,简化了多模型管理和测试的工作,促进了人工智能技术的应用和发展。
  • 11.27 23:44:28
    发表了文章 2024-11-27 23:44:28

    OpenScholar:华盛顿大学联合艾伦研究所开源的学术搜索工具

    OpenScholar是由华盛顿大学和艾伦AI研究所联合开发的开源学术搜索工具,旨在通过检索和综合科学文献中的相关论文来回答用户问题。该工具利用大规模科学论文数据库、定制的检索器和重排器,以及一个优化的8B参数语言模型,生成基于实际文献的准确回答。OpenScholar在提供事实性回答和准确引用方面超越了现有的专有和开源模型,所有相关代码和数据均已开源,支持并加速科学研究。
  • 11.27 23:43:41
    发表了文章 2024-11-27 23:43:41

    LongAlign:港大推出的提升文本到图像扩散模型处理长文本对齐方法

    LongAlign是由香港大学研究团队推出的文本到图像扩散模型的改进方法,旨在提升长文本输入的对齐精度。通过段级编码技术和分解偏好优化,LongAlign显著提高了模型在长文本对齐任务上的性能,超越了现有的先进模型。
  • 11.27 23:42:57
    发表了文章 2024-11-27 23:42:57

    LTX Video:Lightricks推出的开源AI视频生成模型

    LTX Video是由Lightricks推出的开源AI视频生成模型,能够在4秒内生成5秒的高质量视频。该模型基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性,支持长视频制作,适用于多种场景,如游戏图形升级和电子商务广告变体制作。
  • 11.27 23:42:08
    发表了文章 2024-11-27 23:42:08

    AutoVFX:自然语言驱动的视频特效编辑框架

    AutoVFX是一个先进的自然语言驱动的视频特效编辑框架,由伊利诺伊大学香槟分校的研究团队开发。该框架能够根据自然语言指令自动创建真实感和动态的视觉特效(VFX)视频,集成了神经场景建模、基于大型语言模型(LLM)的代码生成和物理模拟技术。本文详细介绍了AutoVFX的主要功能、技术原理以及如何运行该框架。
  • 11.27 23:41:12
    发表了文章 2024-11-27 23:41:12

    OmniBooth:华为诺亚方舟联合港科大推出的图像生成框架

    OmniBooth是由华为诺亚方舟实验室和港科大研究团队联合推出的图像生成框架,支持基于文本提示或图像参考进行空间控制和实例级定制。该框架通过用户定义的掩码和相关联的文本或图像指导,精确控制图像中对象的位置和属性,提升文本到图像合成技术的可控性和实用性。
  • 发表了文章 2024-12-24

    Univer:开源全栈 AI 办公工具,支持 Word、Excel、PPT 等文档处理和多人实时协作

  • 发表了文章 2024-12-24

    Kheish:开源的多智能体开发框架,通过 YAML 配置工作流和多个 Agent 共同协作解决复杂任务

  • 发表了文章 2024-12-24

    Bamba-9B:基于 Mamba2 架构的仅解码语言模型,旨在提高大型语言模型在推理时的效率

  • 发表了文章 2024-12-24

    DisPose:清华北大等多所高校联合推出基于人物图像增强视频生成技术,实现对人物动画的准确控制和一致性

  • 发表了文章 2024-12-24

    HelloMeme:开源的面部表情与姿态迁移框架,将视频中的人物表情迁移到静态图像中生成动态视频

  • 发表了文章 2024-12-24

    InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像

  • 发表了文章 2024-12-24

    CLEAR:新加坡国立大学推出线性注意力机制,使8K图像的生成速度提升6.3倍,显著减少了计算量和时间延迟

  • 发表了文章 2024-12-24

    VSI-Bench:李飞飞谢赛宁团队推出视觉空间智能基准测试集,旨在评估多模态大语言模型在空间认知和理解方面的能力

  • 发表了文章 2024-12-23

    3D-Speaker:阿里通义开源的多模态说话人识别项目,支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

  • 发表了文章 2024-12-23

    VisionFM:通用眼科 AI 大模型,具备眼科疾病诊断能力,展现出专家级别的准确性

  • 发表了文章 2024-12-23

    AgentScope:阿里开源多智能体低代码开发平台,支持一键导出源码、多种模型API和本地模型部署

  • 发表了文章 2024-12-23

    LeviTor:蚂蚁集团开源3D目标轨迹控制视频合成技术,能够控制视频中3D物体的运动轨迹

  • 发表了文章 2024-12-22

    RWKV-7:RWKV系列开源最新的大模型架构,具有强大的上下文学习能力,超越传统的Attention范式

  • 发表了文章 2024-12-22

    PromptWizard:微软开源 AI 提示词自动化优化框架,能够迭代优化提示指令和上下文示例,提升 LLMs 特定任务的表现

  • 发表了文章 2024-12-22

    StyleStudio:支持图像风格迁移的文生图模型,能将融合参考图像的风格和文本提示内容生成风格一致的图像

  • 发表了文章 2024-12-22

    OpenAI 12天发布会内容全纪录!一文快速回顾获知亮点信息,原文附发布会中文字幕视频

  • 发表了文章 2024-12-21

    Gemini 2.0 Flash Thinking:谷歌推出实验性多模态推理模型,在快速生成的同时展示详细的思考过程

  • 发表了文章 2024-12-21

    AniDoc:蚂蚁集团开源 2D 动画上色 AI 模型,基于视频扩散模型自动将草图序列转换成彩色动画,保持动画的连贯性

  • 发表了文章 2024-12-21

    Genesis:卡内基梅隆大学联合 20 多所研究机构开源生成式物理引擎,能够模拟各种材料、物体和物理运动现象

  • 发表了文章 2024-12-21

    WeaveFox:蚂蚁集团推出 AI 前端智能研发平台,能够根据设计图直接生成源代码,支持多种客户端和技术栈

正在加载, 请稍后...
滑动查看更多
  • 提交了问题 2020-03-23

    oss 上传图片成功能够put,但视频put失败返回403

正在加载, 请稍后...
滑动查看更多
正在加载, 请稍后...
暂无更多信息