《大数据分析原理与实践》一一2.3 推断统计

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 本节书摘来自华章出版社《大数据分析原理与实践》一 书中的第2章,第2.3节,作者:王宏志 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.3 推断统计
推断统计是研究如何利用样本数据来推断总体特征的统计方法,其目的是利用问题的基本假定及包含在观测数据中的信息,做出尽量精确和可靠的结论。基本特征是其依据的条件中包含带随机性的观测数据。以随机现象为研究对象的概率论是统计推断的理论基础。它包含两个内容:参数估计,即利用样本信息推断总体特征,例如某一群人的视力构成一个总体,通常认为视力是服从正态分布的,但不知道这个总体的均值,随机抽部分人,测得视力的值,用这些数据来估计这群人的平均视力;假设检验,即利用样本信息判断对总体的假设是否成立。例如,若感兴趣的问题是“平均视力是否超过4.8”,就需要通过样本检验此命题是否成立。
2.3.1 参数估计
实际问题中,所研究的总体分布类型往往是已知的,但是要依赖于一个或者几个未知的参数。这时,求总体分布的问题就归结成了求一个或者几个未知参数的问题,这就是所谓的参数估计。
例如,一款电灯的使用寿命X是一个随机变量,我们由实际的经验知道X服从正态分布N(μ,σ2)。要想了解这款电灯的实际性能,我们就需要估计出μ和σ2值。又如,一段时间内某个商场的客流量可以用泊松分布来刻画,那么若想知道一定的时间间隔内经过的人数为k的概率,就要估计参数λ的值。
因而,在总体分布已知的情况下进行参数估计是推断统计的重要内容。有些实际问题中人们不关心总体分布的形式,而只是想知道均值、方差等某些数字特征,对这些数字特征的估计问题,也是参数估计的一部分内容。
参数估计主要有点估计和区间估计两类,我们分别讨论。
1.点估计
设参数θ是总体X的未知参数,是可以用参数X1,X2,…,Xn构成的统计量来估计θ,则称为θ的估计量。对于具体的样本X1,X2,…,Xn,估计量的值称为θ的估计值。在没有必要强调估计量或估计值时,常把两者统称为估计。点估计的目的就是寻求未知参数的估计量与估计值。
(1)点估计的两种方法
点估计主要有矩估计和极大似然估计两种。
1)先介绍矩估计。众所周知,随机变量的矩是非常简单的描述随机变量统计规律的方法,而且,随机变量的一些参数往往本身就是随机变量的矩或者某些矩的函数。于是,很自然的想法就是如果可以把未知参数θ用总体矩μk=E(Xk)(k=1,2,…,m)的函数表示为θ=h(μ1,μ2,…,μn),那么这种用样本矩的函数作为参数θ估计的方法,就是矩估计法。
矩估计法主要有两种:以样本的各阶原点矩作为总体的各阶原点矩得到估计量;以样本的各阶原点矩的连续函数作为总体的各阶原点矩的连续函数得到估计量。
下面举一个例子展示矩估计的实际应用,对某种成年植物取出多个样本,观测在一定温度内该植物花朵的直径,得出了样本的值为10、15、15、14、16。把植物花朵的直径看作随机变量,则对样本的一阶矩估计用于计算X的数学期望,即E?(X)=(10+15+15+14+16)= 14,对样本的二阶矩用于计算该植物花朵直径的方差,即=((10-14)2+(15-14)2 +(15-14)2+(14-14)2+(16-14)2)=4.4。
2)下面讨论极大似然估计。设总体X具有分布率p(x; θ)(或概率密度f?(x; θ)),其中θ为未知参数向量,其取值在Θ之中,设X1,X2,…,Xn为来自X的样本,则(X1,X2,…,Xn)的联合分布率(或联合概率密度)
(或)
称为样本的似然函数。
对样本的任何观测值(X1,X2,…,Xn),若

则称为参数θ的最大似然估计值,其中为参数θ的最大似然估计量。
若p(x; θ)或f(x; θ)关于θ可微,则参数θ的最大似然估计可以通过方程

得到。
又因为lnx为x的单调函数,因此参数θ的最大似然估计亦可通过方程

得到,后一方程的求解往往较前者方便得多。
最大似然估计法非常直观,通俗地说就是做出的估计要有利于实例的出现,举个简单的例子:
发现一组数据总体符合正态分布N(μ, σ2),这组数据来自于一种树木的高度。数据集共有1000个样本,每个样本对应一棵树的高度。现在需要我们根据这个数据集来估计参数μ和σ2。
这个实例是很有意义的,现实生活中有大量的数据都符合正态分布,我们可以很容易地将这个实例所得的结论迁移到这些场合。
首先构造似然函数

再对L取对数,并且分别对μ、σ2求偏导数,并使其都为0,即

于是可得μ的预测值为

σ2的预测值为

这正是我们十分熟悉的正态分布参数估计公式,只需要直接将样本数据代入公式即可求出μ和σ。
(2)估计量的评价标准
参数的点估计要求相当宽松,对同一参数,可用不同的方法来估计,因而得到不同的估计量,故有必要建立一些评价估计量好坏的标准。
估计量好坏的评价标准一般有三条:无偏性、有效性、相合性(一致性)。
1)若估计量的数学期望E()存在,且对于任意θ?∈?Θ,满足E()=θ,则称为参数θ的无偏估计量。
2)设与都是参数θ的无偏估计量,若对于任意θ?∈?Θ,满足D()<D(),则称较有效,其中D(θ)是θ的方差。
3)若是参数θ的估计量,若对于任意θ?∈?Θ,当n→∞时,(X1,X2,
…,Xn)以概率收敛于θ,即??ε>0,成立,则称为参数θ的相合估计量。
2.区间估计
区间估计是从点估计值和抽样标准误差(standard error)出发,按给定的概率值建立包含待估计参数的区间。其中这个给定的概率值称为置信度或置信水平,这个建立起来的包含待估计参数的区间称为置信区间。置信度是指总体参数值落在样本统计值某一区间内的概率;而置信区间是指在某一置信水平下,样本统计值与总体参数值间的误差范围。置信区间越大,置信水平越高。划定置信区间的两个数值分别称为置信下限和置信上限。
区间估计的原理是样本分布理论。即在进行区间估计值的计算及估计正确概率的解释上,是依据该样本统计量时分布规律样本分布的标准误差。也就是说,只有知道了样本统计量的分布规律和样本统计量分布的标准误差,才能计算总体参数可能落入的区间长度,才能对区间估计的概率进行解释,可见标准误差及样本分布对于总体参数的区间估计是十分重要的。
样本分布可提供概率解释,而标准误差的大小决定区间估计的长度,标准误差越小置信区间的长度越短,而估计成功的概率仍可保持较高水平。一般情况下,加大样本容量可使标准误差变小。
如上所述,区间估计存在成功估计的概率大小及估计范围大小两个问题。人们在解决实际问题时,总希望估计值的范围小一点,成功的概率大一些。但在样本容量一定的情况下,二者不可兼得。如果使估计正确的概率加大些,势必要将置信区间加长,若使正确估计的概率为1.00,即完全估计正确,则置信区间就会很长,也就等于没做估计了。这就像在百分制的测验中你估计一个人的得分可能为0~100分一样。反之,如果要使估计的区间变小,那就势必会使正确估计的概率降低。
统计分析中一般规定:正确估计的概率即置信水平为0.95或0.99,那么显著性水平则为0.05或0.01,这是依据“0.05或0.01属于小概率事件,而小概率事件在一次抽样中是不可能出现的”原理规定的。
单个正态总体参数的区间估计有以下几种情况:
1)σ2已知,求μ的置信区间。
2)σ2未知,求μ的置信区间。
两个正态总体参数的区间估计有以下几种情况:
1)已知,求μ1-μ2的置信区间。
2)求的置信区间。
以上的区间估计问题都有公式可以直接使用。
下面以“单个正态总体σ2已知,求μ的置信区间”的问题为例,给出实际的应用过程。
在这种情况下,μ的置信区间为。
为了说明上述区间估计,来看下面的例子。
在正常情况下,某个机床加工的零件的孔径X(单位:cm)服从N(μ,σ2)分布。资料显示,σ=0.048,从加工的零件中,测得孔径平均值为1.416,求μ的置信区间(置信度为0.95)。
由于X=1.416,σ=0.048,n=10,α=0.05,查数学表可知,所以置信区间为,计算得到(1.386,1.446),说明了该零件的孔径落在此区间的概率为95%。
2.3.2 假设检验
假设检验是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体分为三个步骤。第一步,根据问题的需要对所研究的总体做某种假设,记作H0;第二步,选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;第三步,由实测的样本计算出统计量的值,并根据预先给定的显著性水平进行检验,做出拒绝或接受假设H0的判断。t检验和u检验是两种最常用的假设检验方法,其适用条件见表2-4。
image

本章主要阐述t检验,其中t检验分为三种形式:单样本t检验、两个独立样本均数t检验和配对样本均数t检验(非独立两样本均数t检验)。下面分别给出三种检验形式的介绍和实例。
1.单样本t检验
单样本t检验应用的前提是只有一个总体,并且总体呈正态分布;其适用场合为检验总体均值是否与给定的值存在显著差异(不相等)。
在H0?∶?μ=μ0的假定下,可以认为样本是从已知总体中抽取的,根据t分布的原理,单样本t检验的公式为:,其中S为样本方差。需要计算t值,然后与t(α/2),(n-1) (可通过查表得到)比较大小。如果t值较小,拒绝原本假设。
以一个具体的实例来说明。通过大规模调查已知某地新生儿出生体重3.30 kg,从该地难产儿中随机抽取35名新生儿作为研究样本,平均出生体重为3.42 kg,标准差为0.40 kg,问该地难产儿出生体重是否与一般新生儿体重不同?
经过分析,已知总体均数μ0=3.30 kg,尽管知道研究样本的标准差S=0.40 kg,但总体标准差σ未知,而且n=35为小样本,故选用单样本t检验。
检验的步骤如下:
1)建立检验假设,确定检验水准。
H0?∶?μ=μ0,该地难产儿与一般新生儿平均出生体重相同;
H1?∶?μ≠μ0,该地难产儿与一般新生儿平均出生体重不同;
检验水准α=0.05,双侧检验。
2)计算检验统计量。
在μ=μ0成立的前提条件下,计算统计量为:

3)确定概率P的值,做出推断结论。
通过查表得知t0.05/2,34=2.032,因为t<t0.05/2,34,故P>0.05=α,则根据检验水准α=0.05,不拒绝H0,该差别无统计学意义,根据现有样本信息,尚不能认为该地难产儿与一般新生儿平均出生体重不同。
2.两个独立样本均数t检验
两个独立样本均数t检验的前提是两个样本所代表的总体均服从正态分布,且两个总体方差相同,而两组样本数量可以不同。其目的是考察两个总体的均值是否存在显著差异。
H0?∶?μ1-μ2=0,则不存在差异。t检验的公式为

其中,,而。
检验过程中,需要具体计算t值,和t(α/2),(n1+n2-1)比较大小。如果计算的t值小,则拒绝原本假设。
这种方法可用于判断两个样本是否来自不同总体,即是否不同:该因素作用在另一组后,判断因素是否起作用(使其不再来自原来总体)。
以一个具体的实例来说明上述过程。
25名糖尿病患者随机分成两组,甲组单纯用药物治疗,乙组采用药物治疗合并饮食疗法,两个月后测空腹血糖,见
image
表2-5,问两种疗法治疗后患者血糖值是否相同?
甲组:n1=12,
乙组:n2=13,
检验步骤如下:
1)建立检验假设,确定检验水准。
H0?:?μ1=μ2,两种疗法治疗后患者血糖值的总体均数相同;
H1?:?μ1≠μ2,两种疗法治疗后患者血糖值的总体均数不同;
α=0.05。
2)计算检验统计量。
由原始数据算得

代入公式,得

按公式计算,得

3)确定P值,做出推断结论。
查表可知:t0.05,(23)=2.069
由于t>t0.05/2,(23),P<0.05,按α=0.05的水准拒绝H0,接受H1,有统计学意义。故可认为该地两种疗法治疗糖尿病患者两个月后测得的空腹血糖值的均数不同。
3.配对样本均数t检验
配对样本均数t检验应用的前提与单样本t检验类似,只是抽样不是独立的,而是两两配对相互关联的。
配对样本需要满足两个条件:两组样本数量相同,并且两组样本的观测值是一一对应的。H0表示两总体均值不存在差异,即μ-μ0=0。
在进行配对t检验时,首先应计算各对数据间的差值d,将d作为变量计算均数,可以将该检验理解为差值样本均数与已知总体均数μd(μd=0)比较的单样本t检验,公式为

具体计算t值,和t(α/2),(n-1)比较大小。如果t值较小,拒绝原本假设。
下面通过一个具体的实例来说明。
有12名接种卡介苗的儿童。8周后用两批不同的结核菌素,一批是标准结核菌素,另一批是新制结核菌素,分别注射在儿童的前臂,两种结核菌素的皮肤侵润反应平均直径见
image
image

检验步骤如下:
1)建立检验假设,确定检验水准。
H0?:?μd=0,两种结核菌素的皮肤侵润反应总体平均直径差异为0;
H1?:?μd≠0,两种结核菌素的皮肤侵润反应总体平均直径差异不为0;
α=0.05。
2)计算检验统计量。
先计算差值d及d2,如表2-6第4、5列所示,本例 ∑d=39,∑d2=195
计算差值的标准差
计算差值均值的标准差
按公式计算,得
3)确定P值,做出推断结论。
通过查表可知:t0.05/2,(11)=2.201,因为t>t0.05/2,(11),P<0.05,按照α=0.05的水准,拒绝H0,接受H1,差异有统计学意义,可认为两种方法皮肤侵润反应结果不同。
2.3.3 假设检验的阿里云实现
本节我们通过例子展示利用阿里云平台实现假设检验功能。
1.单样本t检验
原始数据见表2-7,对单样本t检验我们只使用Data1列的数据。
用阿里云进行单样本t检验。首先进入阿里云大数据开发平台中的机器学习平台,选择相应的工作组后进入算法平台。右击“实验”标签,新建一个空白实验,在打开的“新建实
验”对话框的“名称”文本框中输入对应的名称,如图2-1所示。
在“组件”选项卡中选择相应的组件,拖动到右侧实验中,如图2-2所示。
先拖动数据源,再拖动组件,最终节点设计如图2-3所示。
单样本t检验设置如图2-4和图2-5所示。
单击“运行”,阿里云平台开始运行各实验节点。完成后,运行成功节点会出现绿色对钩标志。运行失败节点会显示红叉标志。在运行成功节点上右击,选择“查看分析报告”,如图2-6所示,能够查看运行结果数据。
image
image

image

image

image

image

单样本t检验结果如图2-7所示。

image

2.两个独立样本均数t检验
原始数据见表2-7。
用阿里云进行两个独立样本均数t检验。参考单样本t检验实现的具体流程,在左侧实验中右击,选择“新建空白实验”命令,接着设定对应的实验名称,并在组件中选择相应的组件“双样本T检验”,将其拖动到右侧实验中。
先拖动数据源,再拖动组件,最终节点设计如图2-8所示。image

双样本t检验实验的设置为:“样本1所在列”设为“fl”,“样本2所在列”设为“f2”。参数设置为:“T检验类型”设为“独立性T检验”,对立假设类型为可选项,此处设为“two.sided”,“置信度”设为“0.8”,“假设均值大小”设为“0”。“两总体方差是否相等”设为“false”。运行后,两个独立样本均数t检验的结果如图2-9所示。

图2-9 两个独立样本均数t检验的结果
3.配对样本均数t检验
原始数据见表2-7。
用阿里云进行配对样本均数t检验。首先进入阿里云大数据开发平台机器学习平台,选择相应的工作组后进入算法平台。右击“实验”标签,新建一个空白实验,输入对应的实验名称“推断统计”,在“组件”选项卡中选择相应的组件,拖动到右侧实验中。
先拖动数据源,再拖动组件,最终节点设计如图2-10所示。
两个配对样本均数t检验的参数设置为:“样本1所在列”设为“fl”,“样本2所在列”设为“f2”。“T检验类型”设为“配对性T检验”,“对立假设类型”设为“two.sided”,“置信度”设为“0.8”,“假设均值大小”设为“0”。配对样本均数t检验的结果如图2-11所示。

图2-11 配对样本均数t检验的结果
接下来的几章我们将介绍多个分析模型,包括关联分析模型、分类分析模型、聚类分析模型、结构分析模型和文本分析模型。
需要注意的是,下面几章仅在大数据分析的数学模型和基本方法层面加以讨论,并不涉及其在大数据上的具体实现算法,并给出基于阿里云平台对其进行分析的方法,具体实现算法将在后面的章节中详细讨论。
下面几章实现大数据分析的阿里云工具构建于阿里云MaxCompute、GPU等计算集群之上,汇集了分布式机器学习算法、文本处理算法、图分析算法等,可高效地完成海量、亿级维度数据的复杂计算,并且提供了一套极易操作的可视化编辑页面,大大降低了大数据分析的建模门槛,提高了建模效率,最终帮用户快速得到需要的大数据模型而无须了解其具体实现算法。
需要说明的是,大数据分析模型内容非常丰富,其范畴涵盖了统计学、数据挖掘、图论以及诸多相关领域,很难在一本书中对其进行全面阐述,本书采取广度优先的方式进行介绍,尽可能多地覆盖分析模型,供读者参考。由于篇幅所限,对于模型的性质缺少深度的介绍,对于具体模型的深度讲解可以参考相应的教材和专著,例如《复杂数据统计方法》《多元统计分析导论》和《模式分类》等。
小结
本章介绍了大数据分析模型的基本概念。2.1节让读者对于大数据分析模型有了更加清晰的认识,介绍了大数据分析模型的建立方法,以及影响大数据分析效果的众多因素。只有针对实际问题,把握住影响实际问题的关键因素,才能得到让人满意的模型。2.2节介绍了基本统计量,包括全表统计量和皮尔森相关系数。在全表统计量中,根据反映出的数据特征类型可以将基本统计量分为两类:反映数据集中趋势的和反映数据波动大小的。能够反映数据集中趋势的度量包括均值、中位数和众数;能够反映数据散布情况的数据波动大小度量包括极差和方差。皮尔森相关系数是关联关系分析问题中常用的而且很重要的统计量。2.3节讲述了推断统计的基本知识,包括参数估计和假设检验。在参数估计部分,首先介绍了点估计,主要有矩估计和极大似然估计两种;接着探讨了估计量的评价标准,包括3条:无偏性、有效性、相合性(一致性)。对于区间估计,本章给出了单个正态总体参数的区间估计和两个正态总体参数的区间估计。在假设检验部分,给出了假设检验的定义和操作步骤,并给出了t检验和u检验的区别。最后,针对t检验的三种形式(单样本t检验、两个独立样本均数t检验和配对样本均数t检验)做了详细的介绍。
习题

  1. 某厂生产日光灯管,其抽取11只灯管进行检测,灯管的使用寿命如下(单位:月):7,8,9,9,9,11,13,14,16,17,19。
    (1)写出其均值、众数、中位数。

(2)求出其极差以及方差。

  1. 某医院为调查年龄与肥胖的关系,随机选取16名患者记录(见表2-8)。
    表2-8 题2用表

年龄 23 23 27 27 39 41 47 49
体脂率 ?9.5 26.5 ?7.8 11.8 21.4 15.9 17.4 17.2
年龄 49 52 54 56 58 60 61 63
体脂率 21.3 24.6 18.8 25.4 23.2 27.4 30.1 28.2

(1)计算年龄与体脂率的均值、中位数与标准差。
(2)计算皮尔森相关系数,这两个变量是正相关还是负相关?

  1. 某名男大学生立定跳远,其5次成绩结果如下(单位:m):2.781,2.836,2.807,2.763,2.858,已知测量结果服从N(μ,σ2),求参数μ和σ2的矩估计。
  2. 设总体X服从指数分布

试利用样本x1,x2,…,xn,求参数θ的最大似然估计。

  1. 罐中有N个硬币,其中有θ个是普通的硬币(掷出正面与反面的概率各为0.5),其余N-θ个硬币两面都是正面,从罐中随机取出一个硬币,把它连掷两次,记下结果,但不去查看它属于哪一种硬币,又把硬币放回罐中,如果重复n次,若掷出0次、1次、2次正面朝下的次数分别为n0、n1、n2,请分别用矩估计法和极大似然估计法估计参数θ。
  2. 设总体X服从区间[1,θ]上的均匀分布,θ>1未知,X1,X2,…,Xn是取自X的样本:
    (1)求θ的矩估计和最大似然估计量。

(2)上述两个估计量是否为无偏估计量?若不是,请修正为无偏估计量;
(3)(2)中的两个无偏估计量哪一个更有效?

  1. 从一批加工的零件中抽取16个,测量其长度为2.14,2.10,2.13,2.15,2.13,2.12,2.13,2.10,2.15,2.14,2.10,2.13,2.11,2.14,2.11,2.12(cm)。设此零件的长度为正态分布,已知σ?=0.01cm,求总体期望μ的置信区间(置信度为0.90)。若σ未知呢?
  2. 对某农作物两个品种计算了8个地区的单位面积产量如下:
    品种A 86,87,56,93,84,93,75,79

品种B 80,79,58,91,77,82,74,66
假定两个品种的单位面积产量分别服从正态分布,且方差相等,试求平均单位面积产量之差置信度为0.95的置信区间。

  1. 两台机床加工同一种零件,分别抽取6个和9个零件,测零件长度计算得=0.245,=0.375。假定各台机床零件长度服从正态分布,试求两个总体方差比的置信区间(置信度为0.95)。
  2. 某机器制造出的肥皂厚度为5 cm,想要了解机器性能是否良好,随机抽取10块肥皂为样本,测得平均厚度为5.3 cm,标准差为0.3 cm,试以0.05的显著性水平检验机器性能良好的假设。
  3. 已知某种元件的寿命服从正态分布,要求该元件的平均寿命不低于1000小时,现从这批元件中随机抽取25件,测得平均寿命为980小时,标准差为65小时,试在显著性水平0.05下,确定这批元件是否合格。
  4. 下面给出了两个文学家马克·吐温(Mark Twain)的8篇小品文以及斯诺德格拉斯(Snodgrass)的10篇小品文中由3个字母组成的词的比例。
    马克·吐温:0.225,0.262,0.217,0.240,0.230,0.229,0.235,0.217

斯诺德格拉斯:0.209,0.205,0.196,0.210,0.202,0.207,0.224,0.223,0.220,0.201
设两组数据分别服从正态分布,且两总体方差相等,两样本相互独立,问两个作家所写的小品文中包含由3个字母组成的词的比例是否有显著性的差异(0.05)?

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
6月前
|
存储 监控 NoSQL
Redis HyperLogLog: 高效统计大数据集的神秘利器
Redis HyperLogLog: 高效统计大数据集的神秘利器
125 1
|
1月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
40 3
|
5月前
|
文字识别 算法 数据挖掘
视觉智能开放平台产品使用合集之对于统计研究和数据分析,有哪些比较好的工具推荐
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
|
6月前
|
数据可视化 前端开发 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(上)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
4月前
|
分布式计算 大数据 MaxCompute
MaxCompute产品使用合集之如何实现根据商品维度统计每件商品的断货时长的功能
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
5月前
|
机器学习/深度学习 数据可视化 算法
探索MATLAB世界:掌握基础知识与实用技能(1. MATLAB环境与基本操作 2. 数据类型与变量 3. 条件与循环,1. 数据分析与统计 2. 图像处理与计算机视觉 3. 信号处理与控制系统)
探索MATLAB世界:掌握基础知识与实用技能(1. MATLAB环境与基本操作 2. 数据类型与变量 3. 条件与循环,1. 数据分析与统计 2. 图像处理与计算机视觉 3. 信号处理与控制系统)
53 0
|
6月前
|
机器学习/深度学习 数据可视化 数据挖掘
用Python进行健康数据分析:挖掘医疗统计中的信息
【4月更文挑战第12天】Python在医疗健康数据分析中扮演重要角色,具备数据处理、机器学习、可视化及丰富生态的优势。基本流程包括数据获取、预处理、探索、模型选择与训练、评估优化及结果可视化。应用案例包括疾病预测、药物效果分析和医疗资源优化,例如使用RandomForestClassifier进行疾病预测,Logit模型分析药物效果,以及linprog优化医疗资源配置。
703 1
|
6月前
|
前端开发 数据可视化 数据挖掘
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享(下)
R语言对综合社会调查GSS数据进行自举法bootstrap统计推断、假设检验、探索性数据分析可视化|数据分享
|
6月前
|
存储 数据采集 数据挖掘
python数据分析——数据分类汇总与统计
数据分类汇总与统计是指将大量的数据按照不同的分类方式进行整理和归纳,然后对这些数据进行统计分析,以便于更好地了解数据的特点和规律。
370 1
|
6月前
|
机器学习/深度学习 算法 数据挖掘
python数据分析——数据分析的统计推断
数据分析的统计推断是科学研究中的重要环节,它通过对样本数据的分析,对总体参数进行估计,并对假设进行检验。这一过程旨在从数据中提取有意义的信息,为决策提供科学依据。 在统计推断中,我们通常会遇到两类问题:参数估计和假设检验。参数估计是通过样本数据对总体参数进行点估计或区间估计。点估计是对总体参数的具体数值进行预测,而区间估计则是给出一个包含总体参数的置信区间。这两种估计方法都基于大数定律和中心极限定理,保证了估计的准确性和可靠性。
88 0