达摩院

首页 标签 达摩院
# 达摩院 #
关注
1640内容
VideoLLaMA3:阿里达摩院开源专注于视觉理解的多模态基础模型,具备多语言视频理解能力
VideoLLaMA3 是阿里巴巴开源的多模态基础模型,专注于图像和视频理解,支持多语言生成、视频内容分析和视觉问答任务,适用于多种应用场景。
SHMT:体验 AI 虚拟化妆!阿里巴巴达摩院推出自监督化妆转移技术
SHMT 是阿里达摩院与武汉理工等机构联合研发的自监督化妆转移技术,支持高效妆容迁移与动态对齐,适用于图像处理、虚拟试妆等多个领域。
VideoRefer:阿里达摩院开源视频对象感知与推理框架,可集成 VLLM 提升其空间和时间理解能力
VideoRefer 是浙江大学与阿里达摩学院联合推出的视频对象感知与推理技术,支持细粒度视频对象理解、复杂关系分析及多模态交互,适用于视频剪辑、教育、安防等多个领域。
|
3月前
|
通向赛博未来:EchoMimicV2 半身数字人生成
EchoMimicV2 是蚂蚁集团支付宝终端算法数据技术团队的一项数字人技术开源项目。
ClearerVoice-Studio:阿里通义开源的语音处理框架,提供语音增强、分离和说话人提取等功能
ClearerVoice-Studio 是阿里巴巴达摩院通义实验室开源的语音处理框架,集成了语音增强、分离和音视频说话人提取等功能。该框架基于复数域深度学习算法,能够有效消除背景噪声,保留语音清晰度,并提供先进的预训练模型和训练脚本,支持研究人员和开发者进行语音处理任务。
MVGenMaster:复旦联合阿里等实验室推出的多视图扩散模型
MVGenMaster是由复旦大学、阿里巴巴达摩院和湖潘实验室联合推出的多视图扩散模型,专注于新视角合成(NVS)任务。该模型通过整合3D先验信息,显著提升了NVS的泛化和3D一致性,并能从单一图像生成多达100个新视图。此外,研究团队还推出了包含160万场景的大型多视图图像数据集MvD-1M,以支持模型的训练和优化。
免费试用