开发者学堂课程【高校精品课-华中科技大学 -智能媒体计算:多媒体搜索现状(下)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/811/detail/15696
多媒体搜索现状(下)
内容介绍
一.音频搜索
二.视频搜索
三.语义鸿沟
一.音频搜索
基于文本
文本搜索
标题
艺术家
专辑
类型
文本是最容易的,因为大家只要理解文本,文本很抽象,但它处理起来容易。可以基于歌的名称来进行搜索,可以找是谁演唱的,也就是歌手的名称,还可以通过专辑、类型;比如是民族唱法、还是美声唱法、还是通俗唱法。
举例
iTunes
比如苹果的 itunes 和苹果的管理软件,它有很好的搜索性质功能。主要是通过文本搜索,就是早期的 ipod 的功能, iphone 也有这个功能,音乐进去以后进行处理。
比如现在百度音乐,现在叫做千千音乐,也可以基于文本的搜索。
再比如说 QQ 音乐:
但是光有文本其实是不够的。不知道大家有没有过这样一种经历,同学们一起去卡拉OK 唱歌,长时间不唱以后记不得是谁唱的,也不记得歌名,怎么办?通常如果记得这首歌的旋律就哼唱一句,有的同学就会知道唱的是什么。
音乐搜索能不能不基于文本,而基于哼唱的搜索呢?比如放的部分不是典型或者只给了旋律没有歌词,对于一般不经常听歌的人,通过这种方式是很难听出来的。有个音乐节目的主持人去参加听歌识曲的节目,听得越多越熟悉,他脑子里的曲库很丰富,可以很轻易的猜出来。这就是典型的基于哼唱的搜索。要从音频里面去提取音频的特征,比如说 MFCC 等等,去找与这个特征类似的歌曲。
这就类似于图像里面的以图找图,这是通过一个片段的哼唱去找歌曲。这个难度是很大的,无论是百度音乐还是 QQ 音乐,历史上多次上线这个功能又多次下线,目前已经可以用了,但是它的准确性依然不高。
二.视频搜索
怎么视频搜索呢?
① 搜索整段视频
比如找电影、电视剧、找足球比赛等,使用视频的相关的文字去找。通过视频标注的一些题目、分类等,或者是介绍这个视频主题的文字。用的比较多有谷歌、Youtube、爱奇艺、优酷:
例如在爱奇艺里找《大国崛起》:
在优酷里找:
这些都是整段的视频。
② 视频片段
如何找电视剧里面的某一个片段?比如泰坦尼克号里最经典的浪漫的镜头、足球比赛里面的进球的片段。不是整段视频,而是这个视频里面的与某个对象有关的一个片段。这个难度非常大,是基于内容的视频搜索。
20年前大家先从上课视频研究。老师讲课学生在下面听,实际上有两个场景,一个是老师上课,一个是学生听课。老师的场景里面主要的镜头是老师讲课的镜头,还有PPT 展示的镜头,相对简单,把它先分割成一个一个的片段,涉及到视频的分割技术,后面会详细讲解。
③ 新闻节目
新闻视频的处理是比较简单的。新闻一开始会播放主题音乐,比如央视七点的新闻联播,播放主题音乐之后有两个播音员同时出来,先播送新闻提要,然后播报一条一条的新闻。
播音员出来通常是一条新闻,有的时候播音员不出来也是一条新闻,后面发现这个两条新闻之间有一个特别短的静音区 silence,在这个非常短的没有声音的片段,加一些其他的领域知识,就把半个小时的新闻节目自动分割成一条一条新闻,每一条新闻由主持人或者播音员的报道以及现场报道的片段组成。分解开后才可能实现逐条的新闻节目的搜索。
④ 新闻摘要
IBM 公司等很多公司做过视频摘要,新闻摘要或电影摘要。这是他们的界面,不像文本搜索只有一个框就出结果了,要实现的有很多的功能性的,这其实跟垂直搜索的功能性要求更高是一样的。
以上就是视频搜索。
基于内容的多媒体搜索
现在这种图像和视频的搜索还难以满足人们实际的需要。人的需求是面对着多媒体的音频、视频图像,希望快速准确的找到想找的内容,就像文本搜索一样;希望进行个性化的内容的创作和管理;希望进行自己的资料整理;希望基于内容的检索。
比如要找进球,要找卡卡的进球,要找浪漫的镜头,要找某某老师上某某课程的镜头,要的是这些内容。或者要找某一首歌曲,想要听起来很有激情的歌曲,这种描述和理解机器如何去实现?
查询方式上希望有文本的查询,可以通过以图找图,音频片段,还可以通过手绘图,比如一些形状能否实现,多种方式来辅助的这种搜索。这些内容是多媒体搜索里面的基于内容的多媒体搜索,这是多媒体领域一个非常重要的研究方向,感兴趣的同学可以在这个方向做相关研究。
基于内容的视频探索
举个例子,原始视频图像首先要进行低级特征的提取,颜色、形状、纹理、运动、音调、响度,包括各种频域特征,比如音色、旋律,这都是低级特征,有的是中高级特征。再结合一些领域知识,就把它通过机器学习人工智能的技术变成人所能理解的过程。
在这个基于内容的视频搜索里面,需要用到图像处理、音频处理来提特征,通过人工智能去建模型,做识别,因此它是一个跨学科的,很难的一个技术。
因此基于内容的搜索还远未达到可以使用的程度,主要的原因实际上是人所能理解的这是高层的语义,这些文本信息,比如进球、浪漫,人类一看就知道,但是机器所能理解的是0、1的二进制的字符的组合。机器理解的是低级特征,而人理解的是高级语义。低级特征和高级语义之间存在着一个巨大的鸿沟。
三.语义鸿沟
这两张图片在颜色、形状上没有很多相同的地方,但却是相同的概念,一个是约翰的汽车,一个是马克的汽车,让计算机识别出都是汽车。汽车都有四个轮子,左边看不到轮子,右面看不到四个。都有方向盘,两个图片里面都没有方向盘。该怎么去识别?
左边是小丑的鼻子,右边是红色的太阳。在像素的颜色值、形状上,这两个非常接近。这就是典型的语义鸿沟。
用户鸿沟
在进行多媒体内容搜索的时候,经常会面临一些图像和视频不知道如何去描述的问题。比如上图这张图片,输入火、爆炸还是烟呢?
很多情况下,很难用语义、文本去准确的描述一个图像,这就是用户鸿沟的问题。因此,我们希望能够通过现在的深度学习人工智能的技术,怎么样来把鸿沟架起一座桥梁。填平这个鸿沟是很难的,一个个模型,一个个算法,就像是在峡谷上做了桥梁,以此来实现桥两边一低级和高级之间的联系,这就是多媒体搜索的现状。要想实现预定的目标,就需要对多媒体的内容进行深入的分析和处理。