机器学习数学基础五:数据科学的一些基本分布

简介: 每一次尝试都是独立的,因为前一次投掷的结果不能决定或影响当前投掷的结果。只有两个可能的结果并且重复n次的实验叫做项式。二项分布的参数是n和p,其中n是试验的总数,p是每次试验成功的概率。

一,正态分布


1871a5f57bfd40b7be09af1ec89fa5df.png

e9e0c7673ad847b89373b32f3196f8a6.png


PDF:概率密度函数


CDF:累积概率密度函数


二,二项式分布


1,二项式分布就是只有两个可能结果的分布,比如成功或失败、得到或者丢失、赢或败,每一次尝试成功和失败的概率相等。


2,每一次尝试都是独立的,因为前一次投掷的结果不能决定或影响当前投掷的结果。只有两个可能的结果并且重复n次的实验叫做项式。二项分布的参数是n和p,其中n是试验的总数,p是每次试验成功的概率。


3,在上述说明的基础上,二项式分布的属性包括: .

●每个试验都是独立的。

●在试验中只有两个可能的结果:成功或失败。

●总共进行了n次相同的试验。

●所有试验成功和失败的概率是相同的。(试验是一样的)


dc2dd02d5740464c8f65163528effda1.png


4,


●PMF(概率质量函数):是对离散随机变量的定义.是离散随机变量在各个特定取值的概率.该函数通俗来说就是对于-一个离散型概率事件来说,使用这个函数来求它的各个成功事件结果的概率.


●PDF(概率密度函数):是对连续性随机变量的定义.与PMF不同的是PDF在特定点上的值并不是该点的概率,连续随机概率事件只能求-段区域内发生事件的概率,通过对这段区间进行积分来求:通俗来说,使用这个概率密度函数将想要求概率的区间的临界点(最大值和最小值)带入求积分.就是该区间的概率.


三,泊松分布


定义:


现实生活多数服从泊松分布


当以下假设有效时,则称为泊松分布.

●任何一个成功的事件都不应该影响另一个成功的事件。

●在短时间内成功的概率必须等于在更长的间内成功的概率。

●时间间隔很小时,在给间隔时间内成功的概率趋向于零。


(1)将该时间段无限分隔成若千个小的时间段,在这个接近于零的小时间段里,该事件发生--次的概率与这个极小时间段的长度成正比。

(2)在每一个极小时间段内,该事件发生两次及以上的概率恒等于零。

(3)该事件在不同的小时间段里,发生与否相互独立。


666f02b73d00446799b746564bef507c.png


四,均匀分布


3a96ae11133f424982d8d54a53185601.png


730cdbe38af546149d109f815217157a.png


五,卡方分布


1,定义:


通俗的说就是通过小数量的样本容量去预估总体容量的分布情况

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度


d38ad6a965fc4ffd94cde1100d7f2ad0.png


六,Beta分布


beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它时以给出了所有概率出现的可能性大小.

目录
相关文章
|
3月前
|
机器学习/深度学习 测试技术
阿里云入选Gartner数据科学和机器学习平台挑战者象限
Gartner® 正式发布了《数据科学与机器学习平台魔力象限》报告(Magic Quadrant™ for Data Science and Machine Learning Platforms),阿里云成为唯一一家入选该报告的中国厂商,被评为“挑战者”(Challengers)。
|
2月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
2月前
|
机器学习/深度学习 数据可视化 数据处理
掌握Python数据科学基础——从数据处理到机器学习
掌握Python数据科学基础——从数据处理到机器学习
47 0
|
5月前
|
机器学习/深度学习 API 网络架构
"解锁机器学习超级能力!Databricks携手Mlflow,让模型训练与部署上演智能风暴,一触即发,点燃你的数据科学梦想!"
【8月更文挑战第9天】机器学习模型的训练与部署流程复杂,涵盖数据准备、模型训练、性能评估及部署等步骤。本文详述如何借助Databricks与Mlflow的强大组合来管理这一流程。首先需在Databricks环境内安装Mlflow库。接着,利用Mlflow跟踪功能记录训练过程中的参数与性能指标。最后,通过Mlflow提供的模型服务功能,采用REST API或Docker容器等方式部署模型。这一流程充分利用了Databricks的数据处理能力和Mlflow的生命周期管理优势。
200 7
|
6月前
|
机器学习/深度学习 数据采集 存储
在机器学习和数据科学中,数据预处理是一个至关重要的步骤。数据规范化(或称为特征缩放)是预处理的一种常见技术,它可以帮助我们改进模型的性能。`sklearn.preprocessing`模块提供了多种数据规范化的方法,其中`StandardScaler`和`MinMaxScaler`是最常用的两种。
在机器学习和数据科学中,数据预处理是一个至关重要的步骤。数据规范化(或称为特征缩放)是预处理的一种常见技术,它可以帮助我们改进模型的性能。`sklearn.preprocessing`模块提供了多种数据规范化的方法,其中`StandardScaler`和`MinMaxScaler`是最常用的两种。
|
7月前
|
机器学习/深度学习
技术心得:机器学习的数学基础
技术心得:机器学习的数学基础
45 0
|
8月前
|
机器学习/深度学习 算法 数据处理
从数据科学到机器学习的过渡:技术与思维的演进
【5月更文挑战第21天】本文探讨了从数据科学到机器学习的过渡,强调了技术与思维的转变。数据科学侧重数据处理和分析,为机器学习提供基础;机器学习是数据科学的强大力量,涉及算法开发。过渡需掌握机器学习算法、编程语言(如Python)及库,转变思维方式,注重预测和优化分析。建议包括深入学习算法、实践项目、掌握编程工具和保持好奇心。这一过渡是职业发展的重要步骤。
|
7月前
|
机器学习/深度学习 算法 搜索推荐
【机器学习】近邻类模型:KNN算法在数据科学中的实践与探索
【机器学习】近邻类模型:KNN算法在数据科学中的实践与探索
117 0
|
7月前
|
机器学习/深度学习 数据采集 算法
踏上机器学习之路:探索数据科学的奥秘与魅力
踏上机器学习之路:探索数据科学的奥秘与魅力
53 0
|
8月前
|
机器学习/深度学习 数据可视化 数据挖掘
《Python 简易速速上手小册》第9章:数据科学和机器学习入门(2024 最新版)
《Python 简易速速上手小册》第9章:数据科学和机器学习入门(2024 最新版)
71 1