多媒体搜索现状(下) | 学习笔记

简介: 快速学习多媒体搜索现状(下),介绍了多媒体搜索现状(下)系统机制, 以及在实际应用过程中如何使用。

开发者学堂课程【高校精品课-华中科技大学 -智能媒体计算多媒体搜索现状(下)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/811/detail/15696


多媒体搜索现状(下)


内容介绍

一.音频搜索

二.视频搜索

三.语义鸿沟


一.音频搜索

基于文本

文本搜索

标题

艺术家

专辑

类型

文本是最容易的,因为大家只要理解文本,文本很抽象,但它处理起来容易。可以基于歌的名称来进行搜索,可以找是谁演唱的,也就是歌手的名称,还可以通过专辑、类型;比如是民族唱法、还是美声唱法、还是通俗唱法。

举例

iTunes

image.png

比如苹果的 itunes 和苹果的管理软件,它有很好的搜索性质功能。主要是通过文本搜索,就是早期的 ipod 的功能, iphone 也有这个功能,音乐进去以后进行处理。

比如现在百度音乐,现在叫做千千音乐,也可以基于文本的搜索。

image.png

再比如说 QQ 音乐:

image.png

但是光有文本其实是不够的。不知道大家有没有过这样一种经历,同学们一起去卡拉OK 唱歌,长时间不唱以后记不得是谁唱的,也不记得歌名,怎么办?通常如果记得这首歌的旋律就哼唱一句,有的同学就会知道唱的是什么。

音乐搜索能不能不基于文本,而基于哼唱的搜索呢?比如放的部分不是典型或者只给了旋律没有歌词,对于一般不经常听歌的人,通过这种方式是很难听出来的。有个音乐节目的主持人去参加听歌识曲的节目,听得越多越熟悉,他脑子里的曲库很丰富,可以很轻易的猜出来。这就是典型的基于哼唱的搜索。要从音频里面去提取音频的特征,比如说 MFCC 等等,去找与这个特征类似的歌曲。

这就类似于图像里面的以图找图,这是通过一个片段的哼唱去找歌曲。这个难度是很大的,无论是百度音乐还是 QQ 音乐,历史上多次上线这个功能又多次下线,目前已经可以用了,但是它的准确性依然不高。

 

二.视频搜索

怎么视频搜索呢?

搜索整段视频

比如找电影、电视剧、找足球比赛等,使用视频的相关的文字去找。通过视频标注的一些题目、分类等,或者是介绍这个视频主题的文字。用的比较多有谷歌、Youtube、爱奇艺、优酷:

image.png

例如在爱奇艺里找《大国崛起》:

image.png

在优酷里找:

image.png

这些都是整段的视频。

视频片段

如何找电视剧里面的某一个片段?比如泰坦尼克号里最经典的浪漫的镜头、足球比赛里面的进球的片段。不是整段视频,而是这个视频里面的与某个对象有关的一个片段。这个难度非常大,是基于内容的视频搜索。

20年前大家先从上课视频研究。老师讲课学生在下面听,实际上有两个场景,一个是老师上课,一个是学生听课。老师的场景里面主要的镜头是老师讲课的镜头,还有PPT 展示的镜头,相对简单,把它先分割成一个一个的片段,涉及到视频的分割技术,后面会详细讲解。

image.png

新闻节目

新闻视频的处理是比较简单的。新闻一开始会播放主题音乐,比如央视七点的新闻联播,播放主题音乐之后有两个播音员同时出来,先播送新闻提要,然后播报一条一条的新闻。

播音员出来通常是一条新闻,有的时候播音员不出来也是一条新闻,后面发现这个两条新闻之间有一个特别短的静音区 silence,在这个非常短的没有声音的片段,加一些其他的领域知识,就把半个小时的新闻节目自动分割成一条一条新闻,每一条新闻由主持人或者播音员的报道以及现场报道的片段组成。分解开后才可能实现逐条的新闻节目的搜索。

新闻摘要

IBM 公司等很多公司做过视频摘要,新闻摘要或电影摘要。这是他们的界面,不像文本搜索只有一个框就出结果了,要实现的有很多的功能性的,这其实跟垂直搜索的功能性要求更高是一样的。

image.png

以上就是视频搜索。

基于内容的多媒体搜索

image.png

现在这种图像和视频的搜索还难以满足人们实际的需要。人的需求是面对着多媒体的音频、视频图像,希望快速准确的找到想找的内容,就像文本搜索一样;希望进行个性化的内容的创作和管理;希望进行自己的资料整理;希望基于内容的检索。

比如要找进球,要找卡卡的进球,要找浪漫的镜头,要找某某老师上某某课程的镜头,要的是这些内容。或者要找某一首歌曲,想要听起来很有激情的歌曲,这种描述和理解机器如何去实现?

查询方式上希望有文本的查询,可以通过以图找图,音频片段,还可以通过手绘图,比如一些形状能否实现,多种方式来辅助的这种搜索。这些内容是多媒体搜索里面的基于内容的多媒体搜索,这是多媒体领域一个非常重要的研究方向,感兴趣的同学可以在这个方向做相关研究。

基于内容的视频探索

image.png

举个例子,原始视频图像首先要进行低级特征的提取,颜色、形状、纹理、运动、音调、响度,包括各种频域特征,比如音色、旋律,这都是低级特征,有的是中高级特征。再结合一些领域知识,就把它通过机器学习人工智能的技术变成人所能理解的过程。

在这个基于内容的视频搜索里面,需要用到图像处理、音频处理来提特征,通过人工智能去建模型,做识别,因此它是一个跨学科的,很难的一个技术。

因此基于内容的搜索还远未达到可以使用的程度,主要的原因实际上是人所能理解的这是高层的语义,这些文本信息,比如进球、浪漫,人类一看就知道,但是机器所能理解的是0、1的二进制的字符的组合。机器理解的是低级特征,而人理解的是高级语义。低级特征和高级语义之间存在着一个巨大的鸿沟。


三.语义鸿沟

image.png

这两张图片在颜色、形状上没有很多相同的地方,但却是相同的概念,一个是约翰的汽车,一个是马克的汽车,让计算机识别出都是汽车。汽车都有四个轮子,左边看不到轮子,右面看不到四个。都有方向盘,两个图片里面都没有方向盘。该怎么去识别?

image.png

左边是小丑的鼻子,右边是红色的太阳。在像素的颜色值、形状上,这两个非常接近。这就是典型的语义鸿沟。

用户鸿沟

image.png

在进行多媒体内容搜索的时候,经常会面临一些图像和视频不知道如何去描述的问题。比如上图这张图片,输入火、爆炸还是烟呢?

很多情况下,很难用语义、文本去准确的描述一个图像,这就是用户鸿沟的问题。因此,我们希望能够通过现在的深度学习人工智能的技术,怎么样来把鸿沟架起一座桥梁。填平这个鸿沟是很难的,一个个模型,一个个算法,就像是在峡谷上做了桥梁,以此来实现桥两边一低级和高级之间的联系,这就是多媒体搜索的现状。要想实现预定的目标,就需要对多媒体的内容进行深入的分析和处理。

相关文章
|
21天前
|
人工智能 关系型数据库 数据库
Perplexideez:开源本地 AI 搜索助手,智能搜索信息来源追溯
Perplexideez 是一款开源的本地 AI 搜索助手,旨在通过智能搜索和信息来源追溯功能,提升用户的搜索体验。它支持多用户、单点登录(SSO),并提供美观的搜索结果展示。Perplexideez 基于 Postgres 数据库,集成了 Ollama 或 OpenAI 兼容的端点,使用 SearXNG 实例进行网络搜索。
69 14
Perplexideez:开源本地 AI 搜索助手,智能搜索信息来源追溯
|
搜索推荐 算法 知识图谱
搜索场景下的智能推荐演变之路
本文中,阿里巴巴高级算法专家王悦就为大家分享了搜索场景下的智能推荐演变之路。
|
4月前
|
数据采集 人工智能 自然语言处理
阿里云Elasticsearch AI语义搜索:解锁未来搜索新纪元,精准洞察数据背后的故事!
【8月更文挑战第2天】阿里云Elasticsearch AI场景语义搜索最佳实践
232 5
|
4月前
|
人工智能 安全
新必应打造问题之搜索体验的创新的实现如何解决
新必应打造问题之搜索体验的创新的实现如何解决
33 0
|
机器学习/深度学习 搜索推荐 算法
搜索场景下的智能推荐演变之路:从基础到个性化
本篇详细介绍了搜索场景下智能推荐技术的演变历程,从基础的协同过滤算法到个性化推荐的深度学习实现。通过代码示例,读者可以了解不同阶段推荐算法的原理和实际应用,以及如何评估推荐效果。文章旨在帮助读者深入理解智能推荐的发展趋势,为构建更智能、个性化的推荐系统提供有益的指导。
2146 0
|
存储 移动开发 自然语言处理
|
容灾 算法 数据可视化
闲鱼技术2022年度白皮书-服务端主题-电商搜索里都有啥?详解闲鱼搜索系统(中)
闲鱼技术2022年度白皮书-服务端主题-电商搜索里都有啥?详解闲鱼搜索系统
304 0
|
搜索推荐 UED 索引
闲鱼技术2022年度白皮书-服务端主题-电商搜索里都有啥?详解闲鱼搜索系统(下)
闲鱼技术2022年度白皮书-服务端主题-电商搜索里都有啥?详解闲鱼搜索系统
283 0
|
机器学习/深度学习 算法 搜索推荐
多媒体搜索现状(上) | 学习笔记
快速学习多媒体搜索现状(上),介绍了多媒体搜索现状(上)系统机制, 以及在实际应用过程中如何使用。
多媒体搜索现状(上) | 学习笔记
|
机器学习/深度学习 自然语言处理 达摩院
跨境电商多语言搜索最佳实践
本文详细介绍智能开放搜索OpenSearch行业版在跨境电商领域的智能搜索应用。
1459 0