开发者学堂课程【深入理解数据分析: 数据属性】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/561/detail/7682
数据属性
内容介绍
一、数学意义上的数据类型
二、分类型数值
三、连续型数值
四、大数定理--概念
五、数据的样本特征--数据的来源
六、实验设计获得样本数据--实验设计在不同场景应用案例
一、数学意义上的数据类型
1.整数(Integer Type)
从数学意义上讲整数指没有小数点的数。
2.浮点(Real Type)
浮点数是指有小数点的数值。
3.布尔(Boolean Type)
布尔型的数字是指0和1,yes or no,false 或 true,它是属于二维的数值。
4.字符(Character Type)
字符串型的数值在我们数据分析当中经常会用到。
5.日期/时间(Date/DateTime Type)
尤其在进行大数据分析的时候,日期和时间是我们经常会碰到一些数据类型,有些时候为了做一些分析会对时间进行调整。
二、分类型数值
1.定类数据(Nominal)
是指我的数据类型有定性的类别。例如 a、b、c、d。
2.定序数据(Ordinal)
定序是在定类的情况下有一定的顺序。
3.定距数据(Interval)
定距指有一定距离的数值。
4.定比数据(Ratio)
定比数据指他的比例是一样的。
三、连续型数值
连续型数值类型通常是指一个整数或者是非整数。
举例:这类整数通常是非整数。虽然有时记载的是整数,如身高的厘米数,但是当提高精确后,总会出现小数的。对连续型数据进行分析的方法,通常称为变量的方法。如:长度、时间、质量、OD 值、血压值等。
1.定性数据
定义:
(1)在统计学上的包括分类数据和顺序数据,是一-组表示事物性质、规定事物类别的文字表述型数据,不能将其量化,只能将其定性。
(2)分类数据:只能归于某-类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述。
(3)顺序数据:只能归于某一有序类别的非数字型数据,它也是有类别的,但这些类别是有序的。
是指对某个事物不能将其量化,只能将其定性。(定性数据可以称你是男的或女的;另外一种是你的收入是高的,中等的,低的属于定性数据)
2.定量数据
(1)定量数据说明的是现象的数量特征,是必须用数值来表现的。分为离散数据和连续数据。
(2)数值型数据,按数字尺度测量的观察值,其结果表现为具体的数值。
(3)有明确的数据来源和数据支持,比如,我国 GDP 增长率为7 %。
定量数据通常会由整数或者浮点数组成。它是一个数值的变化很多的定量数据可能是一个连续变量连续型的数值。在定量数据分析手段会用到线图或是箱型图等等。在定量数据的分析的图形化表达当中我们也会经常看到一些闪点图,比如 x、y 轴把一些定量的点画在闪点图上来对比两个变量之间的关系。
四、大数定理--概念
1.概率论历史上第一个极限定理属于伯努利,后人称之为"大数定律”。
2.概率论中讨论随机变量序列的算术平均值向随机变量各数学期望的算术平均值收敛的定律。
3.大数定律(law of large numbers) ,是一种描述当试验次数很大时所呈现的概率性质的定律。
4.这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。
5.但注意到,大数定律并不是经验规律,而是在一些附加条件上经严格证明了的定理,它是一种自然规律因而通常不叫定理而是大数"定律”。
6.通俗地说,这个定理就是,在试验不变的条件下, 重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。大数定律分为弱大数定律和强大数定律。
大数定理概念是指当你在集群或人群中,当你取的值足够大的时候,取值的平均值将无限的接近于真实的平均值。大数定理也是奠定了一个统计的基础,只要取到足够的样本数据就可以猜出整个人群或者整个群体的平均数。
五、数据的样本特征--数据的来源
1.大数据的来源
大数据有现有的数据和取样的数据。比如企业的大数据取样可能是企业本身的客户群体,客户群体可能只代表18岁到40岁的消费人群,它并不代表全国的消费人群,因此大数据的来源本身带有局限性和歪曲性。现有数据和取样数据会夹杂在大数据中,因此会给统计方面带来一些挑战。
2.采样的问题:
(1)从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法。
(2)具有经济性、时效性强、适应面广、准确性高等特点。
取样是为了节约成本。例如:研究全国人特征的时候不能取全部量,可以从全体的样本中随机取一定规模的小样本进行分析。因此有经济性,时效性特别好的特点。
3.问卷调查的数据质量问题
(1)方差:
①方差是在概率论和统计方差衡量随机变量或一组数据时离散程度度量。
②概率论中方差用来度量随机变量和其数学期望(即均值)偏离程度。
③统计中的方差是各个数据分别与其平均数之差的平方的和的平均。
④许多实际问题中,研究方差即偏离程度有着重要意义,方差是衡量源据和期望值相差的度量值。
(2)标准方差:
①各数据偏离平均数的距离(离均差)的平均数,它是离差平方和平均后的方根。
②因此,标准差也是一种平均数标准差是方差的算术平方根。
③标准差能反映一个数据集的离散程度。平均数相同的,标准差末必相同。
④一组数据中的每一个数 与这组数据的平均数的差的平方的和再除以数据的个数,取平方根即是。
六、实验设计获得样本数据--实验设计在不同场景应用案例
营销促销的 AB 实验
1.基本概念:
(1)AB 测试的基本概念就是设计两个(或更多)方案,然后通过数据收集和数据分析来找出更优化的方案
(2)在商业运营中, AB 测试可以帮助公司制定最优的市场营销策略,例如针对网页复制,促销邮件或是搜索广告等
我们把研究样本分成 AB 两组,A 和 B之间可能只有一项或者是两项的差别,当差别会不会造成一些绩效的差别,把两组分别进行衡量。根据统计的分析利用大数定理和标准方差的定理分析这两组之间是否具备一定的差别。
临床医药药效研究,实验组与控制组
2.基本概念:
样本量的估计涉及诸多参数的确定,最难得到的就是预期的或者已知的效应大小(计数资料的率差、计量资料的均数差值) ,方差(计量资料)或合并的率(计数资料各组的合并率) , 一般需通过预试验或者查阅历史资料和文献获得,不过很多时候很难得到或者可靠性较差。因此样本量估计有些时候不是想做就能做的。FDA 的规定主要是从安全性的角度出发,保证能发现多少的不良反应率;统计的计算主要是从 power 出发,保证有多少把握能做出显著来。
实验组是吃药组,控制组是不吃药组。通过两组之间的对比分析得出实验组的药效与控制组不吃药相比是否有效。在比较过程中大数定理和标准方差起到了很大的作用。