前述中提到的最“像”或匹配问题在本质上是一个相似度度量 (similarity measurement) 问题。在解决相似度问题的时候,我们需要一个衡量机制,来计算两个相比较的个体的相似度。在跟踪问题中,被比较的个体通常是候选框和前一帧的预测结果(或者是ground truth),而衡量机制可以被抽象成距离 (distance)。
这里的距离不仅仅是空间距离,即框与框之间在图像中相隔多少个像素,还包括两个概率分布的距离。由于空间距离相对好理解,我们在这里仅对概率分布距离稍作解释:每一帧的跟踪结果是一个预测值,即每一个候选框是目标的概率。如果综合所有候选框,就可以构成一个概率分布。从概率分布的角度理解匹配问题,跟踪问题就转换成在当前帧寻找和上一帧的候选框概率分布“最接近”的一组候选框分布,该“最接近”即是概率分布距离。
常用的空间距离有Minkowski distance(Manhattan distance和Euclidean distance是其特殊情况),常用的概率分布距离有Kullback–Leibler (KL) 散度、Bhattacharyya distance、交叉熵、以及Wasserstein distance等。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。