M-PEG7 | 学习笔记

简介: 快速学习 M-PEG7,介绍了 M-PEG7系统机制, 以及在实际应用过程中如何使用。

开发者学堂课程【高校精品课-华中科技大学 -智能媒体计算M-PEG7】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/811/detail/15711


M-PEG7


mpeg seven 就是 MPEG-7,什么是 MPEG-7,mpeg-7的名称叫做多媒体内容描述接口,它不是 mpeg一二四的延进,就是一二四是什么都是做压缩的,mpeg-1,VCD 标准 mpeg-2,DVD 标准数字电视的标准。

现在整个的它是极低速率的编码标准引入了面向对象编码可以进行内容的编排等等。MPEG-7是对多媒体内容的描述提供一个接口,也就是对内容的描述进行标准化。

中文叫多媒体内容描述接口英文叫

Multimedia Content Description Interface,相关的标准的一些介绍一些草案等等

image.png

可以这个网址里面去找到,标准它的这个编码是 ISO/IEC15938,这个标准在2001年发布,目前应该说还在不断的往演进,每年都有一个新的标准提案出来,它是一个是用来描述这个多媒体里面的内容数据的标准,这个内容数据很重要它可以用很多的系统里面对理解这些内容的信息提供了可能,比如说可以在搜索引擎里边,图像检索里边等等都需要描述信息

为什么需要 MPEG-7,M- PEG 组织一二次压缩,每十年翻一倍,做描述的主要原因是整个的数字的音视频信息它的数据量急剧的增加而需求是希望能够快速的找到这些信息而且现在随着这种获取设备,尤其是智能手机的出现这些内容它的获取越来越容易

比如拍照、拍视频、录音、录像等等,都是可以随手可及的,这种随手可及的设备都使得这样的数据每两年翻一倍,它的压缩格式,它的种类等等越来越多。

image.png

如何来使用这些数据就造成了很大的困难,就是我们去怎么去找内容,就是图片里面是描述的什么,我视频里面它的内容是什么,包括我三维模型里面等等。

image.png

快速的搜索内容就成为一个很大的需求。叫基于内容的多媒体搜索,前面讲过基于内容的图像搜索,就是根据图像的特征去在库里面,或者在互联网上找到相关内容,为了支持这种基于内容的图像检索或者多媒体检索,需要提取这些文本、视频、音频,以及像手绘图等等各种各样的特征,而这些特征在原来的时候,像原来的时候,比如从这个读大学的时候开始做相关研究,尤其是读博士的时候,会发现用机器视觉写的算法题的特征,每个人提的特征都是不一样的你有你的提法,我有我的提法,这样费了很大的劲提出来这些特征这些描述怎样无法被其它的应用所使用。不同人提的不能做贡献,不能被复用,很难的去支持这种快速准确地访问,个性化的这种管理,以及基于内容的检索,说这么大的数据量,如果没有标准化描述去做一个系统就重新提取这些描述的特征,这个困难就太大。

在这种情况下 MPEG-7 应运而生,它的目的就把内容的描述的方法对他进行标准,比如说提出了颜色特征,这个颜色是什么样的特征,这个特征应该用什么样的语言,什么样的结构去描述, MPEG-7 定死了,这就使得快速和有效的这种内容的搜索或者是识别等等,或者过滤等等成为可能。也就是说做这种用的人,专注于如何把应用做好,而提特征的人按照标准,用算法把它提得又快又好按照标准来描述,把它提得又快又好。

按标准来描述,描述好以后给应用去做。同时它试图在不同的层级,不同的方面来描述多媒体信息。比如说 low-level features,最低级的特征。比如说颜色形状纹理等等,包括音频这个里面各种像素级的,样本集的这种特征可以提出来,还有一些结构的信息,像视频里面的层次化的结构什么镜头场景,事件。

还有一些语义方面的,模型方面的以及后面还有一些像专辑,有关创作的信息,通常把这些叫做源数据,这些不同的方面都希望把它能够进行标准化的描述,目前 MPEG涉及到音视频的类型包括像 Audio,speech 像音频,语音。

专门的语音它是有特定的语音识别,里面需要很多声音有关的一些特征,包括运动的视频,静态的图像,还有二维图形学里面的模型,三维的模型以及跟这个同一个场景里面不同对象的这种关系一个描述信息,它也涵盖在里边。

它的范围来看这个图:

image.png

中间那个绿色的圈是 MPEG-7它负责的范围,左边是描述的提取,是如何生成这样的描述,其实就是特征提取,右边是这些描述信息的使用。

它左边怎么去生成,怎么去提取这个特征 M-PEG7不管,怎么使用这个描述也不管,MPEG-7管特征提取出来,按照这个方法去进行描述格式等等它去给它标准化。

这样就使得这些描述信息它的互操作性提高了。做特征提取的,比如说音频处理的专家,信号处理的专家我们的图像处理的专家或者是人工智能机器学习的专家,把它的特征提的质量越高。后面比如说做其它应用的就不管特征提取这一块儿就是本来属于不同的领域的

或者同一个应用不同阶段的事情,原来是要做一个应用就从头到尾现在关注自己的重点。

image.png

左边特征提取,右边可以搜索引擎,中间 MPEG-7。把它标准化,怎么对它进行标准化,MPEG-7 引入描述语言,叫 DDL ,就是描述的定义语言它是用什么是用这个 XML 做的扩展标题语言,设计这个 DDL ,这个描述语言可以把任何一个特征都用它来描述出来的也叫 descript 。

比如说颜色描述图,直方图是描述图。同一幅图像里面可能有颜色特征,形状特征,里面有多个对象,彼此这些描述符之间的关系可以用一个描述的策略,把它整合在一起。这就是这个特征,比如说描述语言,这里面提出了不同的这种描述符,就通过策略把它对应起来,最后生成的一个 XML 的文件,这个文件呢还可以按照 MPEG-7标准进行编码输出。

image.png

好处:

无论是是音频视频图像三维模型最终的统一成了xml其实变成了一个结构化的文本数据,这样用起来,就想到 XML,html 它里面有很多的这种标签对,每个标签里边有中间这个标签的值。整个 MPEG-7的标准化的接口,左边内容的描述生成描述符可以进行编码,使用的时候进行解码就可以了。那么这是一个标准化的 mPEG-7的使用的流程。

image.png

特征提取;

比如说这个视频通过这种特征的提取它的音频视频,那么以及它文本的信息。就通过 MPEG-7 对比这些音视频的特征进行描述,最后 XML 进行保存。

使用的时候,做过滤也好,浏览也好,查询也好都可以直接使用这个,不必要把原始的视频处理数据拿过来再处理一遍。

image.png

同样的看左边特征提取,后边是做搜索引擎的,中间这两个不相关的,两个应用领域不同的专家通过 MPEG-7。  怎么样进行,由于这个整个的交互,这个接口 MPEG-7 是标准的。所以它们两个彼此怎样是不需要沟通的,这样就降低了成本。

整个 IMPEG-7 的标准其实是有十几个部分:

那么主要的部分包括第一部分 systems 就是系统,第二部份,description definition language 是描述的定义语言。

第三部分是 Visual ,主要是处理视觉的特征的表述,比如像颜色,形状,纹理等等,包括运动这里面全都有。第四部分音频,各种特征如何进行描述,名称是什么,有哪些个描述符组成全都标准化了。

第五部分,描述的策略就是多个描述符之间如何进行组合。

第六部分,参考的软件。

第七部分,第七部分一致性的测试。

第八部分就是的这种描述的提取和使用,第九部分profile,以及他的levels。

第十部分,Schema 的 Definishion

MPEG 系统这个部分它定义了它整个的这个终端的这个 architecture,以及它标准化的接口,尤其是在使用它的时候,要按照它这个东西进行设计,按照它的接口规范调用相应都接口,同时描述符合描述策略,他怎么来存取,怎么来访问以及传输,这里面给出了形式化的规定。还有提供了一些工具怎么来处理这个内容和描述之间的这种对应关系,就是一致性这一部分讲了。

XM 参考软件里面实际上有一些开源的代码,就是把已有的一些描述符的提取等等,包括描述符怎么去生成都有了,感兴趣的可以把下载这个软件去提取,这些算法不是最优的,但是它可以实现,通常要真正实现这个算法,优化法可以在这个基础上进一步去提升它的性。

整个 MPEG-7 这一块儿重点讲六方面内容,比如它的基本组件,内容的描述,音视频的描述符,描述方案,多媒体的描述架构,以及其它的部分。

这个PPT以及相关的这些参考的文档都已经整理好了,感兴趣的就去继续看这个 PPT,在线呢也会就是有一些问题留下来,有问题也可以给我留言,这样提高效率,否则标准的讲解是非常非常枯燥的,因为它都是一些规定的一些语言。想进一步处理视觉的去做搜索的,做视频摘要对特征这一块儿需求量很大,究竟我们可以用什么样的特征,建议把第三部分和第四部分好好阅读一下。

标准这一块有一个 MPEG- 7这样的标准可以使用。这个标准如果是真正贯彻下去之后,在未来检索也好,过滤也好,等等多媒体的各类的应用开发起来会越来越容易,就是 MPEG-7的简单介绍。

相关文章
|
Java 应用服务中间件 数据库
RocketBot 的使用 | 学习笔记
快速学习 RocketBot 的使用
RocketBot 的使用 | 学习笔记
|
5月前
|
数据采集 数据可视化 数据挖掘
学习笔记pirate
- 使用Python的`sklearn`进行数据预处理,包括AdaBoost回归器的网格搜索调优,处理时间序列数据,并执行数据可视化。 - 应用`transformers`库对预训练的语言模型进行微调,针对RTE、MRPC和SST-2任务进行文本分类,使用PEFT(Pointer Enhanced Fine-Tuning)模型。 - 进行图像分割任务,包括图像预处理、定义数据集、训练DeepLabV3 ResNet50模型。
|
自然语言处理 流计算 开发者
termQuery | 学习笔记
快速学习 termQuery
|
安全 Java 程序员
Potainer 使用|学习笔记
快速学习 Potainer 使用
Potainer 使用|学习笔记
|
人工智能 开发者
一点一世界 | 学习笔记
快速学习一点一世界
一点一世界 | 学习笔记
|
分布式计算 流计算 Spark
wildcardQuery | 学习笔记
快速学习 wildcardQuery
wildcardQuery | 学习笔记
|
存储 Java 开发者
BinaryTree|学习笔记
快速学习BinaryTree
BinaryTree|学习笔记
|
机器学习/深度学习 算法 开发者
总结与回顾| 学习笔记
快速学习总结与回顾。
|
XML 设计模式 JavaScript
回顾 | 学习笔记
快速学习回顾,介绍了回顾系统机制, 以及在实际应用过程中如何使用。
|
存储 开发者 Python