视频场景分割与语义分段(上)| 学习笔记

简介: 快速学习视频场景分割与语义分段(上),介绍了视频场景分割与语义分段(上)系统机制, 以及在实际应用过程中如何使用。

开发者学堂课程【高校精品课-华中科技大学 -智能媒体计算视频场景分割与语义分段(上)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/811/detail/15702


视频场景分割与语义分段(上)


内容介绍:

一、 什么是视频聚类

二、 聚类的基本概念

三、 聚类方法分类

四、 K-均值法

五、 层次聚类法


前面的课,我们已经把一段连续的视频分成了一个一个的镜头,并且在每个镜头里边,选取了特定数量的关键帧,那么今天课的内容是我们怎么样把语义上相关的多个镜头能够把它聚类成场景,那什么是视频聚类?


一、什么是视频聚类

它是指把相似的原始视频数据,按照确定的相似度的度量准则来进行聚类,聚类的输入是镜头,那么它形成一个更高层次的视频语义的层次,比如说场景,故事单元或者情节等等。它可以便于对视频进行组织浏览,建立索引、查询或者摘要等。

视频聚类是基于内容的检索的基础,尤其是高层语义的这种检索,就用到了视频聚类,它也是我们视频理解的一个关键。


二、聚类的基本概念

聚类是机器学习一个非常简单的算法,英文叫 Cluster,它是指将数据对象分成多个类或者多个簇,在同一个这个簇中,对象具有较高的相似度,而不同簇中对象差别很大,就是它的相似度很小,这类分析方法,是一种无监督的学习方法,它可以将一些未知的模式分成若干类,从而可以把一些将未知模式通过一个无监督的、反复的一个迭代,就可以把它本身里边有的一些规则、一些类别自动地分出来。

根据特征向量的差别,或者是特征差的这个距离,在一定的误差范围内,我们就把它认为是在同一个簇内,如果大于某一个阈值,就认为它是不同的聚类,这就是它的判定的依据。


三、聚类方法分类

根据的聚类方法不同,可以分成这样几个,比如说基于划分的方法,基于层次的方法,密度的方法,网络的方法,以及特定模型的方法。这个大家感兴趣的可以去了解我们机器学习里面这一个算法。


四、K-均值法

它是指一种基于划分的方法,基本的原理是:给定一个 N 个对象组成的这种数据集合或者是数据库,构建数据的  K  个划分,每个划分表示一个聚类里面的簇,并且 K 小于等于 N, N 个数据最多分成N 个簇,每一个数据自己是一组,这是上限,然后将数据划分成 K 个组,同时满足的条件是什么?每个组至少要有一个对象,不能有个组是空的,每个对象只能属于并且必须属于一个组,不能有一个没分,有的元素既不属于这个 K 个的任何一个,这就没有全部分完。

image.png

它是以K作为参数,把 N 个对象分成 K 个簇,使这个每一个簇内具有较高的相似度,而簇间的这个相似度较低。

步骤是随机的选取 K 个对象,每个对象就代表簇里面它的均值叫做簇中心,剩余的N减K对象就根据这个对象与其各个簇中心的距离,将它赋予最近的簇,剩下的N减K的元素中的每一个都跟那个 K 个这个中心值去求差值,距离哪个差值最小,就把这个元素放到簇里去,原来是一个,现在可能又进来一个,就要计算新的均值,计算均值以后,再把那所有的元素,剩下的每一个对象都与 K 的中心值求距离,然后再去找到最小的距离。比如本来某一个像素属于第二组,来了一个对象以后,它的均值发生改变了,再求差的时候可能离它最近的不是它这一组,可能是隔壁的第三组,或者是第五组,这个时候簇内的元素就发生了改变,循环往复,继续计算,直到对象不再动了,我们就叫做它已经收敛了为止。

此时我们就把 N 个对象,把它稳定地分到了 K 的值。特点是事先给一个 K 值,就是说明到底分出多少类,但是对于大多数视频来讲,我们并不知道里面有多少个场景,除非你提前是知道的,那么你 K 就知道,如果不知道,那我们就无法拥有 K 均值了。我们前面讲搜索的时候说过 K 要么提前知道它的值,要么 K 如果取得足够大,那么K多一点少一点都无所谓,比如说在进行图像分类的时候,也用 K 均值法,那 K 就只取个大点,比如十万二十万,此时是200001还是200008,都无所谓。

如何巧妙的使用 K 均值法来聚类对于我们的视频内容是很重要的,它有很好的方法,尤其是我们在特征聚类的时候,有的时候也用 K 均值法。


五、层次聚类法

就是对给定的数据对象集合进行分层的计算,根据层次的分解是如何形成的,我们可以分成凝聚和什么和分裂,如果是你从一个完整的把它分成分细,那说明是分裂的,如果是从细小的把它聚集成一个大的结合,那就是凝聚。

1、凝聚的方式

是自底向上的,将每个对象一开始都分成一个簇,然后合并原子簇越来越大的簇,直到所有的对象都在一个簇中,合并的依据是它们的距离,就把距离近的进行合并,比如说我们一开始有  ABCD 五个元素,那我们第一步就找近的,比如说 ab 挨着近,就放这一组,第二步把其他的 de 分成一组再合并,c 和 de 还可以合并直到这个两个集合之间的差值已经足够大了为止。这是凝聚的方法,它的终极目标可以合并成一个,而我们真正用的时候要么是全部分,各分各的,要么是聚成中间某一个层次。

image.png

2、分裂的方式

它是自底向下与凝聚的层次聚类恰恰相反,先将所有的对象置于一个簇中,然后逐渐细分成越来越小的簇,直到每个对象成为一个簇,或者达到某一个终止的条件为止。例如达到希望的数目就停或者两个最近簇之间的这种差值已经超过了某个阈值。

例如:第一步,全都是在一个簇里面进行分列,把 abcde 先分成两个 ab 和 de,接着把ab再分成两个 a 和 b,把 cde 分成 c 和 de 下面再继续分,以此类推,分裂的方式,逐渐分析。

image.png

我们的视频聚类里面,如果说你是从镜头开始分的,镜头已经切分好了,那我们一定是采用凝聚的方式,先有 abcde;如果镜头没有切分,反向去找场景的话,那一定是分裂的方式。

相关文章
|
机器学习/深度学习 监控 TensorFlow
数据分割
在机器学习和数据分析中,数据分割是指将可用数据集划分为训练集、验证集和测试集等子集的过程。这种分割的目的是为了评估和验证机器学习模型的性能,并对其进行调优和泛化能力的评估。下面我将解释为什么要进行数据分割,以及如何进行数据分割,并提供一个简单的示例。
367 0
|
8月前
|
计算机视觉
论文介绍:像素级分类并非语义分割的唯一选择
【5月更文挑战第24天】论文《像素级分类并非语义分割的唯一选择》提出了MaskFormer模型,该模型通过掩模分类简化语义与实例级分割任务,无需修改模型结构、损失函数或训练过程。在ADE20K和COCO数据集上取得优异性能,显示处理大量类别时的优势。MaskFormer结合像素级、Transformer和分割模块,提高效率和泛化能力。掩模分类方法对比边界框匹配更具效率,且MaskFormer的掩模头设计降低计算成本。该方法为语义分割提供新思路,但实际应用与小物体处理仍有待检验。[链接](https://arxiv.org/abs/2107.06278)
71 3
|
7月前
|
机器学习/深度学习 监控 算法
傻傻分不清目标检测、语义分割和实例分割,看这篇就够了
傻傻分不清目标检测、语义分割和实例分割,看这篇就够了
509 0
|
8月前
|
机器学习/深度学习 算法 数据安全/隐私保护
基于有序抖动块截断编码的水印嵌入和提取算法matlab仿真
这是一个关于数字图像水印嵌入的算法介绍。使用MATLAB2022a,该算法基于DOTC,结合抖动和量化误差隐藏,确保水印的鲁棒性和隐蔽性。图像被分为N*N块,根据水印信号进行二值化处理,通过调整重建电平的奇偶性嵌入水印。水印提取是嵌入过程的逆操作,通过重建电平恢复隐藏的水印比特。提供的代码片段展示了从块处理、水印嵌入到噪声攻击模拟及水印提取的过程,还包括PSNR和NC的计算,用于评估水印在不同噪声水平下的性能。
|
存储 编解码 对象存储
将图像标记器多边形转换为标记的块图像以进行语义分割
将存储在对象中的多边形标签转换为适用于语义分割工作流的标记阻止图像。 可以使用计算机视觉工具箱中的图像标记器应用来标记太大而无法放入内存和多分辨率图像的图像。有关详细信息,请参阅在图像标记器(计算机视觉工具箱)中标记大图像。图像标记器应用不支持对被阻止的图像进行像素标记。您只能使用 ROI 形状(如多边形、矩形和线条)创建标签。此示例演示如何使用函数将多边形 ROI 转换为像素标记的块图像,以进行语义分割工作流。
81 0
将图像标记器多边形转换为标记的块图像以进行语义分割
|
机器学习/深度学习 编解码 人工智能
关于语义分割的亿点思考
关于语义分割的亿点思考
257 0
|
人工智能 计算机视觉
分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型
分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型
257 0
|
机器学习/深度学习 存储 编解码
单GPU每秒76帧,重叠对象也能完美分割,多模态Transformer用于视频分割效果惊艳
单GPU每秒76帧,重叠对象也能完美分割,多模态Transformer用于视频分割效果惊艳
117 0
|
机器学习/深度学习 计算机视觉
基于自正则原型网络的小样本语义分割
基于自正则原型网络的小样本语义分割
195 0
基于自正则原型网络的小样本语义分割
|
机器学习/深度学习 编解码 算法
语义分割项目详解
语义分割项目详解
368 0
语义分割项目详解