R概率分布函数使用小结

简介:
记要
今天在计算分类模型自行区间时,用到了R中正太分布的qnorm函数,这里做简单记要,作为备忘。
R中自带了很多概率分布的函数,如正太分布,二次分布,卡放分布,t分布等,这些分布的函数都有一个共性,每个分布拥有4个带有d,p,q,r前缀的函数。比如正太分布,有dnorm,pnorm,qnorm和rnorm。这几个前缀的意义如下:
  • d  Density的缩写,表示密度函数。举个例子,标准正太分布x=0对应的值可以用dnorm(0)计算
  • p  Probability的缩写,表示概率函数。举个例子,标准正太分布从负无穷大到0的概率,可以用pnorm(0)计算
  • q  Quantile的缩写,表示分位函数。举个例子,如果知道标准正太分布从负无穷大到x的概率是0.9678,想要知道这个x的值,可以通过qnorm(0.9678)计算。
  • r Random的缩写,表示随机函数。用于随机生成符合正太分布的数值,举个例子,如果想随机生成10个符合标准正太分布的函数,可以用rnorm(10)来获得。
在R命令行中输出“?pnorm”,可以了解更多详细情况。
 
心得体会
最近在学习数据挖掘中的一些分类模型,由于才入门不久,以前总认为概率在数据挖掘在没多大用处,直到昨天才知道原来挖掘模型的精度评估和比较可以 建立在统计学分析框架上。比如评估一个分类模型,计算其准确度的自行区间就是通过二项分布近似到正太分布计算。再比如,评估两个模型是否有差异,这个通过假设检验和卡放分布验证。
 
参考:《数据挖掘导论》 Pang-Ning Tan 4.6节
声明:如有转载本博文章,请注明出处。您的支持是我的动力!文章部分内容来自互联网,本人不负任何法律责任。
本文转自bourneli博客园博客,原文链接:http://www.cnblogs.com/bourneli/p/3163437.html ,如需转载请自行联系原作者
相关文章
|
5月前
|
数据可视化
R平方/相关性取决于预测变量的方差
R平方/相关性取决于预测变量的方差
|
5月前
|
数据可视化
R语言极值推断:广义帕累托分布GPD使用极大似然估计、轮廓似然估计、Delta法
R语言极值推断:广义帕累托分布GPD使用极大似然估计、轮廓似然估计、Delta法
罗尔(Rolle)、拉格朗日(Lagrange)和柯西(Cauchy)三大微分中值定理的定义
罗尔(Rolle)、拉格朗日(Lagrange)和柯西(Cauchy)三大微分中值定理的定义
罗尔(Rolle)、拉格朗日(Lagrange)和柯西(Cauchy)三大微分中值定理的定义
|
机器学习/深度学习 Linux Python
如何知道一个变量的分布是否为高斯分布?
如何知道一个变量的分布是否为高斯分布?
189 0
如何知道一个变量的分布是否为高斯分布?