多媒体信息处理学习笔记-1Introduction

简介: 多媒体信息处理学习笔记-1Introduction

Chap 1. Introduction


数据摩尔定律:人类每 18 个月产生的信息量,是人类之前全部总和!

2017 年已达 21.6ZB21.6ZB,2025 年将达到 163ZB

(1ZB = 1 百万 PB = 10 亿TB = 10^21 字节)


 CCITT对媒体的定义

 感知媒介 表达媒介 演示媒体 存储介质 传输介质


 感知媒介

 直接作用于人的感官,产生一种感觉

 视觉、听觉、触觉、味觉、嗅觉

 表达媒介

 一种用于处理和传输感知媒体的构建媒体

 各种编码方法

 表达媒介

 根据时间维度进行分类

 离散媒体。图形、图像、文本

 连续的媒体。声音、视频、动画

 根据空间维度进行分类 1D:单通道音乐信号

 二维:立体、文本、图形 3D:视频,3D图形

 根据生成的属性进行分类 自然介质与合成介质

 演示媒体

 一种在感知媒体和用于通信的电信号之间进行转换的媒体类型。

 输入。键盘、相机、麦克风

 输出。显示器、扬声器、打印机

 存储介质

 用于存储数据以方便计算处理,主要指与计算机有关的外部存储设备。

 硬盘,磁盘,CD

 传输介质

 用来将媒体从一个地方转移到另一个地方的物理载体

 双绞线,同轴电缆,光纤


 什么是多媒体?

 一种新的信息载体,将各种(但相关的)媒体整合在一起,以满足存储、处理和传输的要求。

 文本、声音、图形、图像、动画、视频


 什么是多媒体技术?

 多媒体技术是由计算机平台、通信网络、人机界面和相应的媒体数据系统技术组成。

 改进信息表述、技术整合和实时互动


Relationship between mediums

文本检索

 通过将文本记录(文档)与用户查询相匹配来查找符合给定标准的信息,而专家系统则是通过推断逻辑知识数据库来回答问题。

 文件数据库

 分类算法

 访问数据库的用户接口

 一个文本检索系统有两个主要任务

 查找与用户查询相关的文件

 使用PageRank等算法评估匹配结果,并根据相关性对其进行排序


图像检索

 从大型数字图像数据库中浏览、搜索和检索图像

 传统方法利用关键词或描述

对图像

 费时、费力、费钱

 基于内容的图像检索

 旨在避免使用文本描述,而是根据图像内容(纹理、颜色、形状等)与用户提供的查询图像或用户指定的图像特征的相似性进行检索。


视频 检索

 浏览视频内容的互动过程,以满足一些信息需求,或互动地检查视频内容是否相关。

 通常建立在低级别的视频内容分析上,如镜头转换检测、关键帧提取、语义概念检测,并创建视频文件或视频档案图像或用户指定的图像特征的结构化内容概述


语音检索

 一个基于内容的语音记录检索系统接受模糊的查询,它执行了通过最佳匹配搜索,找到可能与查询相关的语音记录。

 这些领域包括语音识别、说话人识别和事件检测。

 事件检测:根据音频类型(沉默、男性讲话、女性讲话、噪音等),将音频流分为若干段。

 压力和情绪分类:试图辨别给定语音信号的压力水平或情绪标签

 发言人日记:根据不同的发言人将语音音频分为不同的片段;回答 "谁在什么时候说话 "的问题。

 发言人识别:在音频信号中识别特定的发言者;回答 "什么是 "的问题。

'‘说话的人的身份?

 语音识别:识别正在进行的内容沟通了;回答了’‘对方在说什么’‘的问题。

 多语言音频分析:包括多语言语音识别和自动语言识别。识别;回答’‘说的是什么语言’'的问题。

 其应用非常广泛,涵盖了不同的领域,如人机交互、自动转录和生物识别认证。

 与其他多媒体分析系统串联使用,实现对一个共同问题的多模式分析方法。


未来的研究

 多模态检索技术 有效结合各种功能 视频功能+音频功能

 从低级别的介绍到高级别的概念

 高维索引技术

 人机交互技术

 业绩评估

 多媒体信息安全


Framework of Multimedia Information Retrieval

目录
相关文章
|
30天前
|
人工智能 文字识别 计算机视觉
【AAAI 2024】M2Doc:文档版面分析的可插拔多模态融合方法
M2Doc是一种创新的多模态融合方法,设计用于增强文档版面分析任务中的纯视觉目标检测器。该方法包括Early-Fusion和Late-Fusion模块,前者通过门控机制融合视觉和文本特征,后者则在框级别合并这两种特征。M2Doc易于集成到各种目标检测器,实验证明它能显著提升DocLayNet和M6Doc数据集上的性能,特别是与DINO结合时,在多个数据集上达到SOTA结果。此外,研究表明M2Doc对于增强复杂逻辑版面分析任务中的文本理解和语义关联特别有效。
|
30天前
|
存储 编解码 算法
【软件设计师备考 专题 】媒体系统基础知识,多媒体设备的性能特性,常用多媒体文件格式
【软件设计师备考 专题 】媒体系统基础知识,多媒体设备的性能特性,常用多媒体文件格式
84 0
|
11天前
|
语音技术 开发者
ChatTTS:专为对话场景设计的文本转语音模型,底模开源!
最近,开源社区杀出一匹文本转语音领域的黑马——ChatTTS,在Github上仅4天斩获11.2k star。
ChatTTS:专为对话场景设计的文本转语音模型,底模开源!
|
9月前
|
机器学习/深度学习 达摩院 数据挖掘
ICASSP2023论文代码开源|TOLD能对混叠语音建模的说话人日志框架
ICASSP2023论文代码开源|TOLD能对混叠语音建模的说话人日志框架
149 1
|
10月前
【论文速递】ACM MM 2022 - 基于统一对比学习框架的新闻多媒体事件抽取
从新闻中提取事件在下游应用程序中有很多好处。然而,今天的事件提取(EE)系统通常专注于单一的模态——无论是文本还是图像
90 0
|
11月前
|
SQL XML 自然语言处理
从零开始构建一个电影知识图谱,实现KBQA智能问答[上篇]:本体建模、RDF、D2RQ、SPARQL endpoint与两种交互方式详细教学
从零开始构建一个电影知识图谱,实现KBQA智能问答[上篇]:本体建模、RDF、D2RQ、SPARQL endpoint与两种交互方式详细教学
从零开始构建一个电影知识图谱,实现KBQA智能问答[上篇]:本体建模、RDF、D2RQ、SPARQL endpoint与两种交互方式详细教学
|
机器学习/深度学习 并行计算 算法
ICASSP 2023论文模型开源|语音分离Mossformer
人类能在复杂的多人说话环境中轻易地分离干扰声音,选择性聆听感兴趣的主讲人说话。但这对机器却不容易,如何构建一个能够媲美人类听觉系统的自动化系统颇具挑战性。 本文将详细解读ICASSP2023本届会议收录的单通道语音分离模型Mossformer论文,以及如何基于开发者自有数据进行该模型的调优训练。
409 0
|
机器学习/深度学习 存储 传感器
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(中篇)
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(中篇)
71 0
|
存储 算法 数据挖掘
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(上篇)
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(上篇)
87 0
|
机器学习/深度学习 存储 自然语言处理
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)
93 0
多媒体信息处理学习笔记-Chap 5. Audio Retrieval(下篇)