全球名校AI课程库(13)| CMU卡内基梅隆 · 多模态机器学习课程『Multimodal Machine Learning』

简介: 课程以多模态(MMML)为主题,讲解基本概念、多种数据形态联合建模方法,并回顾近期MMML概率模型和计算算法的论文,讨论当前面临的挑战。
11-777; Multimodal Machine Learning; 多模态机器学习
🏆 课程学习中心 | 🚧 其他名校AI课程合辑 | 🌍 课程主页 | 📺 中英字幕视频 | 🚀 项目代码解析


课程介绍

目前在工业界的实际应用场景中,有大量不同形态数据存在的场景,对这些数据联合应用与建模驱动业务,是研究界和工业界都异常关心的主题。多模式机器学习 (MMML) 是一个充满活力的多学科研究领域,它通过集成和建模多种交流模式(包括语言、声学和视觉信息)来解决人工智能的一些目标。

11-777; Multimodal Machine Learning; 多模态机器学习

CMU 11-777 是全球顶校卡内基梅隆开设的AI专项课程,课程以多模态(MMML)为主题,讲解基本数学概念、文本与图像等多种数据形态联合应用&建模的前沿知识与方法,并回顾最近描述 MMML 的最先进的概率模型和计算算法的论文,并讨论当前和即将面临的挑战。通过本课程的学习,大家可以了解到目前前沿研究下对多模态处理的方法。

11-777; Multimodal Machine Learning; 多模态机器学习

课程讲师 Louis-Philippe Morency,CMU 语言技术学院的终身教授,领导多模式通信和机器学习实验室 (MultiComp Lab),研究重点是建立计算基础使计算机能够分析、识别和预测社交互动中微妙的人类交流行为,核心就是应对多模态机器学习面临的技术挑战。


课程主题

本课程将介绍与多模态机器学习的主要概念,并将讨论近期的诸多应用。课程在官网发布了详细主题,ShowMeAI 对其进行了翻译。

  • Multimodal applications and datasets(数据集
  • Basic concepts: neural networks(基本概念:神经网络
  • Basic concepts: network optimization(基本概念:优化
  • Visual unimodal representations(CNN 和视觉表示
  • Language unimodal representations(语言表示
  • Multimodal representation learning(多模态表示
  • Coordinated representations(协调表示
  • Multimodal alignment(多模式对齐
  • Alignment and representation(对齐和表示
  • Alignment and translation(对齐和平移 (映射)
  • Probabilistic graphical models(生成模型
  • Discriminative graphical models(判别式图模型
  • Deep Generative Models(深度生成模型
  • Reinforcement learning(强化学习
  • Multimodal RL(多模态强化学习
  • Fusion and co-learning(融合、协同学习和新趋势
  • New research directions(新的研究方向
  • Embodied Language Grounding
  • Multimodal Human-inspired Language Learning(受人类启发的多模态语言学习
  • Learning to connect text and images(连接文本和图像
  • Bias and fairness(偏见和公平


课程资料 | 下载

11-777; Multimodal Machine Learning; 多模态机器学习

扫描上方图片二维码,关注公众号并回复关键字 🎯『11-777』,就可以获取整理完整的资料合辑啦!当然也可以点击 🎯 这里 查看更多课程的资料获取方式!

11-777; Multimodal Machine Learning; 多模态机器学习

ShowMeAI 对课程资料进行了梳理,整理成这份完备且清晰的资料包:

  • 📚 课件。PDF文件。覆盖Lecture 1~14 所有内容(说明:L6、L11、L13是break)

课程视频 | B站

🌍 B站 | 【双语字幕+资料下载】CMU 11-777 | 多模态机器学习(2020·完整版)

ShowMeAI 将视频上传至B站,并增加了中英双语字幕,以提供更加友好的学习体验。点击页面视频,可以进行预览。推荐前往 👆 B站 观看完整课程视频哦!


全球名校AI课程合辑

作者ShowMeAI内容团队
阅读原文https://www.showmeai.tech/article-detail/365

e9190f41b8de4af38c8a1a0c96f0513b~tplv-k3u1fbpfcp-zoom-1.image

目录
相关文章
|
1月前
|
人工智能 自然语言处理 IDE
模型微调不再被代码难住!PAI和Qwen3-Coder加速AI开发新体验
通义千问 AI 编程大模型 Qwen3-Coder 正式开源,阿里云人工智能平台 PAI 支持云上一键部署 Qwen3-Coder 模型,并可在交互式建模环境中使用 Qwen3-Coder 模型。
460 109
|
5月前
|
机器学习/深度学习 人工智能 供应链
从概念到商业价值:AI、机器学习与深度学习全景指南
在这个科技飞速发展的时代🚀,人工智能正以惊人的速度渗透到我们的生活和工作中👀。但面对铺天盖地的AI术语和概念,很多人感到困惑不已😣。"AI"、"机器学习"、"深度学习"和"神经网络"到底有什么区别?它们如何相互关联?如何利用这些技术提升工作效率和创造价值?
|
3月前
|
人工智能 开发者
AI-Compass宝藏资源库:构建最全面的AI学习
AI-Compass宝藏资源库:构建最全面的AI学习
|
4月前
|
人工智能 监控 测试技术
云上AI推理平台全掌握 (1):PAI-EAS LLM服务一键压测
在AI技术飞速发展的今天,大语言模型(LLM)、多模态模型等前沿技术正深刻改变行业格局。推理服务是大模型从“实验室突破”走向“产业级应用”的必要环节,需直面高并发流量洪峰、低延时响应诉求、异构硬件优化适配、成本精准控制等复杂挑战。 阿里云人工智能平台 PAI 致力于为用户提供全栈式、高可用的推理服务能力。在本系列技术专题中,我们将围绕分布式推理架构、Serverless 弹性资源全球调度、压测调优和服务可观测等关键技术方向,展现 PAI 平台在推理服务侧的产品能力,助力企业和开发者在 AI 时代抢占先机,让我们一起探索云上 AI 推理的无限可能,释放大模型的真正价值!
|
4月前
|
机器学习/深度学习 PyTorch API
昇腾AI4S图机器学习:DGL消息传递接口的PyG替换
DGL (Deep Graph Learning) 和 PyG (Pytorch Geometric) 是两个主流的图神经网络库,它们在API设计和底层实现上有一定差异,在不同场景下,研究人员会使用不同的依赖库,昇腾NPU对PyG图机器学习库的支持亲和度更高,因此有些时候需要做DGL接口的PyG替换。
|
4月前
|
机器学习/深度学习 PyTorch API
昇腾AI4S图机器学习:DGL图构建接口的PyG替换
本文探讨了在图神经网络中将DGL接口替换为PyG实现的方法,重点以RFdiffusion蛋白质设计模型中的SE3Transformer为例。SE3Transformer通过SE(3)等变性提取三维几何特征,其图构建部分依赖DGL接口。文章详细介绍了两个关键函数的替换:`make_full_graph` 和 `make_topk_graph`。前者构建完全连接图,后者生成k近邻图。通过PyG的高效实现(如`knn_graph`),我们简化了图结构创建过程,并调整边特征处理逻辑以兼容不同框架,从而更好地支持昇腾NPU等硬件环境。此方法为跨库迁移提供了实用参考。
|
5月前
|
数据可视化 Rust 机器学习/深度学习
mlop.ai 无脑使用教程 (机器学习工具 WandB/ClearML 的首个国区开源平替)
mlop.ai 是首个为国区用户优化的机器学习工具,全栈免费开源,是主流付费解决方案 ClearML/WandB 的开源平替。常规实验追踪的工具经常大幅人为降速,mlop因为底层为Rust代码,能轻松支持高频数据写入。如需更多开发者帮助或企业支持,敬请联系cn@mlop.ai
302 12
mlop.ai 无脑使用教程 (机器学习工具 WandB/ClearML 的首个国区开源平替)
|
5月前
|
SQL 人工智能 数据库
SQL Server 2025 - 从本地到云端的 AI 就绪企业数据库
SQL Server 2025 - 从本地到云端的 AI 就绪企业数据库
377 0
SQL Server 2025 - 从本地到云端的 AI 就绪企业数据库
|
机器学习/深度学习 人工智能 算法
让机器读懂视频:亿级淘宝视频背后的多模态AI算法揭秘 | 开发者必读(142期)
在移动互联网行业整体增速放缓的大背景下,短视频行业异军突起,成为“行业黑洞”抢夺用户时间,尽管移动互联网人口红利见顶,新的增长点难以寻觅,但中国短视频人均使用时长及头部短视频平台日均活跃用户均持续增常,在淘宝,短视频业务一直以来都是非常重要的业务,让我们一起揭秘亿级淘宝视频背后的多模态AI算法…

热门文章

最新文章