拉普拉斯平滑与相似性

简介:   第一次接触是在朴素贝叶斯分类里,是为了防止中间的概率为0,那么最终的概率就为0,分子加1,分母加k。   我想的是改进杰卡德系数,改进的初衷来源于这样一个想法,想用杰卡德系数来衡量项目属性相似性,不过假设有200个属性,如果a和b共同有2个,而且只有两个,c、d共同有20个而且只有20个,那么他们的杰卡德相似度最终都是1,但是这样不尽合理,为什么不是全部不合理?因为可能某个属性很重要,若这个相似那么就非常相似,比如判断男人和女人,如果胸部很大,基本就是女人了。

  第一次接触是在朴素贝叶斯分类里,是为了防止中间的概率为0,那么最终的概率就为0,分子加1,分母加k。

  我想的是改进杰卡德系数,改进的初衷来源于这样一个想法,想用杰卡德系数来衡量项目属性相似性,不过假设有200个属性,如果a和b共同有2个,而且只有两个,c、d共同有20个而且只有20个,那么他们的杰卡德相似度最终都是1,但是这样不尽合理,为什么不是全部不合理?因为可能某个属性很重要,若这个相似那么就非常相似,比如判断男人和女人,如果胸部很大,基本就是女人了。那么不合理的地方表现在哪?这些属性可能区分度不是很大,比如电影类型(爱情 、动作、喜剧),这些属性并不是互斥的,解决方法

  方法一:k=4,(2+1)/(2+4)=0.5,(20+1)/(20+4)=0.84,这样的话2个共同的那个感觉感觉太大;k=2,(2+1)/(2+2)=0.75,(20+1)/(20+2)=0.954,可以看出k值的选择很重要。

  方法二:总的来说是加上惩罚系数,

  (1)乘法

  杰卡德相似度*ItemCF相似度或者乘一个关于共同评分数目的增函数;

  (2)减法

  相似度减去关于共同评分数目的减函数。

目录
打赏
0
0
0
0
21
分享
相关文章
R语言极值推断:广义帕累托分布GPD使用极大似然估计、轮廓似然估计、Delta法
R语言极值推断:广义帕累托分布GPD使用极大似然估计、轮廓似然估计、Delta法
R语言中的多项式回归、局部回归、核平滑和平滑样条回归模型
R语言中的多项式回归、局部回归、核平滑和平滑样条回归模型
|
11月前
|
R语言自适应平滑样条回归分析
R语言自适应平滑样条回归分析
|
11月前
基于R统计软件的三次样条和平滑样条模型数据拟合及预测
基于R统计软件的三次样条和平滑样条模型数据拟合及预测
|
11月前
积分图求解Haar特征
Haar特征原理
108 0
|
11月前
[Halcon&拟合] 拟合直线边缘并计算距离
[Halcon&拟合] 拟合直线边缘并计算距离
322 0
用于非线性时间序列预测的稀疏局部线性和邻域嵌入(Matlab代码实现)
用于非线性时间序列预测的稀疏局部线性和邻域嵌入(Matlab代码实现)
191 0
用于非线性时间序列预测的稀疏局部线性和邻域嵌入(Matlab代码实现)
基于GMM的一维时序数据平滑算法
本文将介绍我们使用高斯混合模型(GMM)算法作为一维数据的平滑和去噪算法。
271 0
RegNeRF,FreeNeRF: 神经辐射场的自由频率正则化,几何正则化,外观正则化,遮挡正则化
RegNeRF,FreeNeRF: 神经辐射场的自由频率正则化,几何正则化,外观正则化,遮挡正则化
356 0
【C++】高斯金字塔和拉普拉斯金字塔原理和实现(一)
图像中各个像素与其相邻像素之间的有很强的相关性,包含的信息也十分丰富,目标的尺寸有大有小,对比度有强有弱,此时就需要一个“显微镜”或者“望远镜”-----多尺度图像技术。它可以在不同分辨率下观察目标的特征进而进行处理。
230 0
【C++】高斯金字塔和拉普拉斯金字塔原理和实现(一)