多媒体搜索现状(下)

多媒体搜索现状(下) | 学习笔记

2022-11-21 188

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习多媒体搜索现状(下)，介绍了多媒体搜索现状(下)系统机制，以及在实际应用过程中如何使用。

开发者学堂课程【高校精品课-华中科技大学 -智能媒体计算：多媒体搜索现状(下)】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/811/detail/15696

内容介绍

一．音频搜索

二．视频搜索

三．语义鸿沟

一．音频搜索

基于文本

文本搜索

标题

艺术家

专辑

类型

文本是最容易的，因为大家只要理解文本，文本很抽象，但它处理起来容易。可以基于歌的名称来进行搜索，可以找是谁演唱的，也就是歌手的名称，还可以通过专辑、类型；比如是民族唱法、还是美声唱法、还是通俗唱法。

举例

iTunes

比如苹果的 itunes 和苹果的管理软件，它有很好的搜索性质功能。主要是通过文本搜索，就是早期的 ipod 的功能， iphone 也有这个功能，音乐进去以后进行处理。

比如现在百度音乐，现在叫做千千音乐，也可以基于文本的搜索。

再比如说 QQ 音乐：

但是光有文本其实是不够的。不知道大家有没有过这样一种经历，同学们一起去卡拉OK 唱歌，长时间不唱以后记不得是谁唱的，也不记得歌名，怎么办？通常如果记得这首歌的旋律就哼唱一句，有的同学就会知道唱的是什么。

音乐搜索能不能不基于文本，而基于哼唱的搜索呢？比如放的部分不是典型或者只给了旋律没有歌词，对于一般不经常听歌的人，通过这种方式是很难听出来的。有个音乐节目的主持人去参加听歌识曲的节目，听得越多越熟悉，他脑子里的曲库很丰富，可以很轻易的猜出来。这就是典型的基于哼唱的搜索。要从音频里面去提取音频的特征，比如说 MFCC 等等，去找与这个特征类似的歌曲。

这就类似于图像里面的以图找图，这是通过一个片段的哼唱去找歌曲。这个难度是很大的，无论是百度音乐还是 QQ 音乐，历史上多次上线这个功能又多次下线，目前已经可以用了，但是它的准确性依然不高。

二．视频搜索

怎么视频搜索呢？

① 搜索整段视频

比如找电影、电视剧、找足球比赛等，使用视频的相关的文字去找。通过视频标注的一些题目、分类等，或者是介绍这个视频主题的文字。用的比较多有谷歌、Youtube、爱奇艺、优酷：

例如在爱奇艺里找《大国崛起》：

在优酷里找：

这些都是整段的视频。

② 视频片段

如何找电视剧里面的某一个片段？比如泰坦尼克号里最经典的浪漫的镜头、足球比赛里面的进球的片段。不是整段视频，而是这个视频里面的与某个对象有关的一个片段。这个难度非常大，是基于内容的视频搜索。

20年前大家先从上课视频研究。老师讲课学生在下面听，实际上有两个场景，一个是老师上课，一个是学生听课。老师的场景里面主要的镜头是老师讲课的镜头，还有PPT 展示的镜头，相对简单，把它先分割成一个一个的片段，涉及到视频的分割技术，后面会详细讲解。

③ 新闻节目

新闻视频的处理是比较简单的。新闻一开始会播放主题音乐，比如央视七点的新闻联播，播放主题音乐之后有两个播音员同时出来，先播送新闻提要，然后播报一条一条的新闻。

播音员出来通常是一条新闻，有的时候播音员不出来也是一条新闻，后面发现这个两条新闻之间有一个特别短的静音区 silence，在这个非常短的没有声音的片段，加一些其他的领域知识，就把半个小时的新闻节目自动分割成一条一条新闻，每一条新闻由主持人或者播音员的报道以及现场报道的片段组成。分解开后才可能实现逐条的新闻节目的搜索。

④ 新闻摘要

IBM 公司等很多公司做过视频摘要，新闻摘要或电影摘要。这是他们的界面，不像文本搜索只有一个框就出结果了，要实现的有很多的功能性的，这其实跟垂直搜索的功能性要求更高是一样的。

以上就是视频搜索。

基于内容的多媒体搜索

现在这种图像和视频的搜索还难以满足人们实际的需要。人的需求是面对着多媒体的音频、视频图像，希望快速准确的找到想找的内容，就像文本搜索一样；希望进行个性化的内容的创作和管理；希望进行自己的资料整理；希望基于内容的检索。

比如要找进球，要找卡卡的进球，要找浪漫的镜头，要找某某老师上某某课程的镜头，要的是这些内容。或者要找某一首歌曲，想要听起来很有激情的歌曲，这种描述和理解机器如何去实现？

查询方式上希望有文本的查询，可以通过以图找图，音频片段，还可以通过手绘图，比如一些形状能否实现，多种方式来辅助的这种搜索。这些内容是多媒体搜索里面的基于内容的多媒体搜索，这是多媒体领域一个非常重要的研究方向，感兴趣的同学可以在这个方向做相关研究。

基于内容的视频探索

举个例子，原始视频图像首先要进行低级特征的提取，颜色、形状、纹理、运动、音调、响度，包括各种频域特征，比如音色、旋律，这都是低级特征，有的是中高级特征。再结合一些领域知识，就把它通过机器学习人工智能的技术变成人所能理解的过程。

在这个基于内容的视频搜索里面，需要用到图像处理、音频处理来提特征，通过人工智能去建模型，做识别，因此它是一个跨学科的，很难的一个技术。

因此基于内容的搜索还远未达到可以使用的程度，主要的原因实际上是人所能理解的这是高层的语义，这些文本信息，比如进球、浪漫，人类一看就知道，但是机器所能理解的是0、1的二进制的字符的组合。机器理解的是低级特征，而人理解的是高级语义。低级特征和高级语义之间存在着一个巨大的鸿沟。

三．语义鸿沟

这两张图片在颜色、形状上没有很多相同的地方，但却是相同的概念，一个是约翰的汽车，一个是马克的汽车，让计算机识别出都是汽车。汽车都有四个轮子，左边看不到轮子，右面看不到四个。都有方向盘，两个图片里面都没有方向盘。该怎么去识别？

左边是小丑的鼻子，右边是红色的太阳。在像素的颜色值、形状上，这两个非常接近。这就是典型的语义鸿沟。

用户鸿沟

在进行多媒体内容搜索的时候，经常会面临一些图像和视频不知道如何去描述的问题。比如上图这张图片，输入火、爆炸还是烟呢？

很多情况下，很难用语义、文本去准确的描述一个图像，这就是用户鸿沟的问题。因此，我们希望能够通过现在的深度学习人工智能的技术，怎么样来把鸿沟架起一座桥梁。填平这个鸿沟是很难的，一个个模型，一个个算法，就像是在峡谷上做了桥梁，以此来实现桥两边一低级和高级之间的联系，这就是多媒体搜索的现状。要想实现预定的目标，就需要对多媒体的内容进行深入的分析和处理。

多媒体搜索现状(下) | 学习笔记