全球名校AI课程库(13)| CMU卡内基梅隆 · 多模态机器学习课程『Multimodal Machine Learning』

简介: 课程以多模态(MMML)为主题,讲解基本概念、多种数据形态联合建模方法,并回顾近期MMML概率模型和计算算法的论文,讨论当前面临的挑战。
11-777; Multimodal Machine Learning; 多模态机器学习
🏆 课程学习中心 | 🚧 其他名校AI课程合辑 | 🌍 课程主页 | 📺 中英字幕视频 | 🚀 项目代码解析


课程介绍

目前在工业界的实际应用场景中,有大量不同形态数据存在的场景,对这些数据联合应用与建模驱动业务,是研究界和工业界都异常关心的主题。多模式机器学习 (MMML) 是一个充满活力的多学科研究领域,它通过集成和建模多种交流模式(包括语言、声学和视觉信息)来解决人工智能的一些目标。

11-777; Multimodal Machine Learning; 多模态机器学习

CMU 11-777 是全球顶校卡内基梅隆开设的AI专项课程,课程以多模态(MMML)为主题,讲解基本数学概念、文本与图像等多种数据形态联合应用&建模的前沿知识与方法,并回顾最近描述 MMML 的最先进的概率模型和计算算法的论文,并讨论当前和即将面临的挑战。通过本课程的学习,大家可以了解到目前前沿研究下对多模态处理的方法。

11-777; Multimodal Machine Learning; 多模态机器学习

课程讲师 Louis-Philippe Morency,CMU 语言技术学院的终身教授,领导多模式通信和机器学习实验室 (MultiComp Lab),研究重点是建立计算基础使计算机能够分析、识别和预测社交互动中微妙的人类交流行为,核心就是应对多模态机器学习面临的技术挑战。


课程主题

本课程将介绍与多模态机器学习的主要概念,并将讨论近期的诸多应用。课程在官网发布了详细主题,ShowMeAI 对其进行了翻译。

  • Multimodal applications and datasets(数据集
  • Basic concepts: neural networks(基本概念:神经网络
  • Basic concepts: network optimization(基本概念:优化
  • Visual unimodal representations(CNN 和视觉表示
  • Language unimodal representations(语言表示
  • Multimodal representation learning(多模态表示
  • Coordinated representations(协调表示
  • Multimodal alignment(多模式对齐
  • Alignment and representation(对齐和表示
  • Alignment and translation(对齐和平移 (映射)
  • Probabilistic graphical models(生成模型
  • Discriminative graphical models(判别式图模型
  • Deep Generative Models(深度生成模型
  • Reinforcement learning(强化学习
  • Multimodal RL(多模态强化学习
  • Fusion and co-learning(融合、协同学习和新趋势
  • New research directions(新的研究方向
  • Embodied Language Grounding
  • Multimodal Human-inspired Language Learning(受人类启发的多模态语言学习
  • Learning to connect text and images(连接文本和图像
  • Bias and fairness(偏见和公平


课程资料 | 下载

11-777; Multimodal Machine Learning; 多模态机器学习

扫描上方图片二维码,关注公众号并回复关键字 🎯『11-777』,就可以获取整理完整的资料合辑啦!当然也可以点击 🎯 这里 查看更多课程的资料获取方式!

11-777; Multimodal Machine Learning; 多模态机器学习

ShowMeAI 对课程资料进行了梳理,整理成这份完备且清晰的资料包:

  • 📚 课件。PDF文件。覆盖Lecture 1~14 所有内容(说明:L6、L11、L13是break)

课程视频 | B站

🌍 B站 | 【双语字幕+资料下载】CMU 11-777 | 多模态机器学习(2020·完整版)

ShowMeAI 将视频上传至B站,并增加了中英双语字幕,以提供更加友好的学习体验。点击页面视频,可以进行预览。推荐前往 👆 B站 观看完整课程视频哦!


全球名校AI课程合辑

作者ShowMeAI内容团队
阅读原文https://www.showmeai.tech/article-detail/365

e9190f41b8de4af38c8a1a0c96f0513b~tplv-k3u1fbpfcp-zoom-1.image

目录
相关文章
|
4天前
|
人工智能 文字识别 运维
AI多模态的5大核心关键技术,让高端制造实现智能化管理
结合大模型应用场景,通过AI技术解析高端制造业的复杂设备与文档数据,自动化地将大型零件、机械图纸、操作手册等文档结构化。核心技术包括版面识别、表格抽取、要素抽取和文档抽取,实现信息的系统化管理和高效查询,大幅提升设备维护和生产管理的效率。
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
医疗行业的语音识别技术解析:AI多模态能力平台的应用与架构
AI多模态能力平台通过语音识别技术,实现实时转录医患对话,自动生成结构化数据,提高医疗效率。平台具备强大的环境降噪、语音分离及自然语言处理能力,支持与医院系统无缝集成,广泛应用于门诊记录、多学科会诊和急诊场景,显著提升工作效率和数据准确性。
|
2月前
|
人工智能 JSON 数据格式
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
【9月更文挑战第6天】RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
RAG+Agent人工智能平台:RAGflow实现GraphRA知识库问答,打造极致多模态问答与AI编排流体验
|
2月前
|
人工智能
防AI换脸视频诈骗,中电金信联合复旦提出多模态鉴伪法,还入选顶会ACM MM
【9月更文挑战第26天】中电金信与复旦大学合作,提出一种基于身份信息增强的多媒体伪造检测方法,并入选ACM MM国际会议。该方法利用身份信息作为检测线索,构建了含54位名人324个视频的多模态伪造数据集IDForge,设计了参考辅助的多模态伪造检测网络R-MFDN,显著提升了检测性能,准确率达到92.90%。尽管如此,该方法仍存在一定局限性,如对非英语国家数据及无明确身份信息的视频检测效果可能受限。
59 4
|
1月前
|
机器学习/深度学习 存储 算法
基于机器学习的地震预测(Earthquake Prediction with Machine Learning)(下)
基于机器学习的地震预测(Earthquake Prediction with Machine Learning)
26 0
|
1月前
|
机器学习/深度学习 存储 数据可视化
基于机器学习的地震预测(Earthquake Prediction with Machine Learning)(上)
基于机器学习的地震预测(Earthquake Prediction with Machine Learning)
37 0
|
2月前
|
人工智能 测试技术
语言图像模型大一统!Meta将Transformer和Diffusion融合,多模态AI王者登场
【9月更文挑战第20天】Meta研究人员提出了一种名为Transfusion的创新方法,通过融合Transformer和Diffusion模型,实现了能同时处理文本和图像数据的多模态模型。此模型结合了语言模型的预测能力和Diffusion模型的生成能力,能够在单一架构中处理混合模态数据,有效学习文本与图像间的复杂关系,提升跨模态理解和生成效果。经过大规模预训练,Transfusion模型在多种基准测试中表现出色,尤其在图像压缩和模态特定编码方面具有优势。然而,其训练所需的大量计算资源和数据、以及潜在的伦理和隐私问题仍需关注。
70 7
|
3月前
|
人工智能 文字识别 算法
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
X-AnyLabeling是一款强大的辅助标注工具,集成了AI推理引擎和丰富功能,为图像数据工程师提供一站式解决方案。它支持图像和视频文件的自动标注,提供了包括矩形框、多边形在内的七种标注样式,适应多样化的训练场景需求。X-AnyLabeling内置了多种SOTA级AI模型,如YOLO、SAM系列等,并支持GPU加速和多种数据集格式的导入导出,确保高效的数据处理。此外,它还具备良好的跨平台兼容性,可在多种操作系统上运行,并提供详尽的帮助文档和社区支持,帮助用户轻松上手并解决使用过程中遇到的问题。
274 2
打造全场景、跨领域、多模态的AI工作流 | 开源图像标注工具 X-AnyLabeling v2.4.0 正式发布!
|
3月前
|
机器学习/深度学习 存储 Linux
【机器学习 Azure Machine Learning】使用VS Code登录到Linux VM上 (Remote-SSH), 及可直接通过VS Code编辑VM中的文件
【机器学习 Azure Machine Learning】使用VS Code登录到Linux VM上 (Remote-SSH), 及可直接通过VS Code编辑VM中的文件
|
3月前
|
机器学习/深度学习 Ubuntu Linux
【机器学习 Azure Machine Learning】使用Aure虚拟机搭建Jupyter notebook环境,为Machine Learning做准备(Ubuntu 18.04,Linux)
【机器学习 Azure Machine Learning】使用Aure虚拟机搭建Jupyter notebook环境,为Machine Learning做准备(Ubuntu 18.04,Linux)

热门文章

最新文章