机器学习数学基础五:数据科学的一些基本分布

简介: 每一次尝试都是独立的,因为前一次投掷的结果不能决定或影响当前投掷的结果。只有两个可能的结果并且重复n次的实验叫做项式。二项分布的参数是n和p,其中n是试验的总数,p是每次试验成功的概率。

一,正态分布


1871a5f57bfd40b7be09af1ec89fa5df.png

e9e0c7673ad847b89373b32f3196f8a6.png


PDF:概率密度函数


CDF:累积概率密度函数


二,二项式分布


1,二项式分布就是只有两个可能结果的分布,比如成功或失败、得到或者丢失、赢或败,每一次尝试成功和失败的概率相等。


2,每一次尝试都是独立的,因为前一次投掷的结果不能决定或影响当前投掷的结果。只有两个可能的结果并且重复n次的实验叫做项式。二项分布的参数是n和p,其中n是试验的总数,p是每次试验成功的概率。


3,在上述说明的基础上,二项式分布的属性包括: .

●每个试验都是独立的。

●在试验中只有两个可能的结果:成功或失败。

●总共进行了n次相同的试验。

●所有试验成功和失败的概率是相同的。(试验是一样的)


dc2dd02d5740464c8f65163528effda1.png


4,


●PMF(概率质量函数):是对离散随机变量的定义.是离散随机变量在各个特定取值的概率.该函数通俗来说就是对于-一个离散型概率事件来说,使用这个函数来求它的各个成功事件结果的概率.


●PDF(概率密度函数):是对连续性随机变量的定义.与PMF不同的是PDF在特定点上的值并不是该点的概率,连续随机概率事件只能求-段区域内发生事件的概率,通过对这段区间进行积分来求:通俗来说,使用这个概率密度函数将想要求概率的区间的临界点(最大值和最小值)带入求积分.就是该区间的概率.


三,泊松分布


定义:


现实生活多数服从泊松分布


当以下假设有效时,则称为泊松分布.

●任何一个成功的事件都不应该影响另一个成功的事件。

●在短时间内成功的概率必须等于在更长的间内成功的概率。

●时间间隔很小时,在给间隔时间内成功的概率趋向于零。


(1)将该时间段无限分隔成若千个小的时间段,在这个接近于零的小时间段里,该事件发生--次的概率与这个极小时间段的长度成正比。

(2)在每一个极小时间段内,该事件发生两次及以上的概率恒等于零。

(3)该事件在不同的小时间段里,发生与否相互独立。


666f02b73d00446799b746564bef507c.png


四,均匀分布


3a96ae11133f424982d8d54a53185601.png


730cdbe38af546149d109f815217157a.png


五,卡方分布


1,定义:


通俗的说就是通过小数量的样本容量去预估总体容量的分布情况

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度


d38ad6a965fc4ffd94cde1100d7f2ad0.png


六,Beta分布


beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它时以给出了所有概率出现的可能性大小.

目录
相关文章
|
1月前
|
机器学习/深度学习 测试技术
阿里云入选Gartner数据科学和机器学习平台挑战者象限
Gartner® 正式发布了《数据科学与机器学习平台魔力象限》报告(Magic Quadrant™ for Data Science and Machine Learning Platforms),阿里云成为唯一一家入选该报告的中国厂商,被评为“挑战者”(Challengers)。
|
3月前
|
机器学习/深度学习 API 网络架构
"解锁机器学习超级能力!Databricks携手Mlflow,让模型训练与部署上演智能风暴,一触即发,点燃你的数据科学梦想!"
【8月更文挑战第9天】机器学习模型的训练与部署流程复杂,涵盖数据准备、模型训练、性能评估及部署等步骤。本文详述如何借助Databricks与Mlflow的强大组合来管理这一流程。首先需在Databricks环境内安装Mlflow库。接着,利用Mlflow跟踪功能记录训练过程中的参数与性能指标。最后,通过Mlflow提供的模型服务功能,采用REST API或Docker容器等方式部署模型。这一流程充分利用了Databricks的数据处理能力和Mlflow的生命周期管理优势。
151 7
|
4月前
|
机器学习/深度学习 数据采集 存储
在机器学习和数据科学中,数据预处理是一个至关重要的步骤。数据规范化(或称为特征缩放)是预处理的一种常见技术,它可以帮助我们改进模型的性能。`sklearn.preprocessing`模块提供了多种数据规范化的方法,其中`StandardScaler`和`MinMaxScaler`是最常用的两种。
在机器学习和数据科学中,数据预处理是一个至关重要的步骤。数据规范化(或称为特征缩放)是预处理的一种常见技术,它可以帮助我们改进模型的性能。`sklearn.preprocessing`模块提供了多种数据规范化的方法,其中`StandardScaler`和`MinMaxScaler`是最常用的两种。
|
5月前
|
机器学习/深度学习
技术心得:机器学习的数学基础
技术心得:机器学习的数学基础
37 0
|
6月前
|
机器学习/深度学习 算法 数据处理
从数据科学到机器学习的过渡:技术与思维的演进
【5月更文挑战第21天】本文探讨了从数据科学到机器学习的过渡,强调了技术与思维的转变。数据科学侧重数据处理和分析,为机器学习提供基础;机器学习是数据科学的强大力量,涉及算法开发。过渡需掌握机器学习算法、编程语言(如Python)及库,转变思维方式,注重预测和优化分析。建议包括深入学习算法、实践项目、掌握编程工具和保持好奇心。这一过渡是职业发展的重要步骤。
|
5月前
|
机器学习/深度学习 算法 搜索推荐
【机器学习】近邻类模型:KNN算法在数据科学中的实践与探索
【机器学习】近邻类模型:KNN算法在数据科学中的实践与探索
101 0
|
5月前
|
机器学习/深度学习 数据采集 算法
踏上机器学习之路:探索数据科学的奥秘与魅力
踏上机器学习之路:探索数据科学的奥秘与魅力
49 0
|
6月前
|
机器学习/深度学习 数据可视化 数据挖掘
《Python 简易速速上手小册》第9章:数据科学和机器学习入门(2024 最新版)
《Python 简易速速上手小册》第9章:数据科学和机器学习入门(2024 最新版)
61 1
|
6月前
|
机器学习/深度学习 算法 Java
现代数据科学中的机器学习技术发展与应用
本文探讨了现代数据科学领域中机器学习技术的发展和应用。我们介绍了机器学习的基本概念和原理,并探讨了它在前端、后端、Java、Python、C以及数据库等多种技术领域的具体应用。通过深入剖析不同领域的案例研究,我们展示了机器学习在解决实际问题和推动技术创新方面的巨大潜力。最后,我们对未来机器学习技术的发展趋势进行了展望。
|
6月前
|
机器学习/深度学习 算法 数据可视化
Python是数据科学和机器学习
Python是数据科学和机器学习
57 1
下一篇
无影云桌面