数据属性 | 学习笔记

简介: 快速学习 数据属性

开发者学堂课程【深入理解数据分析 数据属性学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/561/detail/7682


数据属性


内容介绍

一、数学意义上的数据类型

二、分类型数值

三、连续型数值

四、大数定理--概念

五、数据的样本特征--数据的来源

六、实验设计获得样本数据--实验设计在不同场景应用案例


一、数学意义上的数据类型

1.整数(Integer Type)

从数学意义上讲整数指没有小数点的数。

2.浮点(Real Type)

浮点数是指有小数点的数值。

3.布尔(Boolean Type)

布尔型的数字是指01yes or nofalse true,它是属于二维的数值。

4.字符(Character Type)

字符串型的数值在我们数据分析当中经常会用到。

5.日期/时间(Date/DateTime Type)

尤其在进行大数据分析的时候,日期和时间是我们经常会碰到一些数据类型,有些时候为了做一些分析会对时间进行调整。


二、分类型数值

1.定类数据(Nominal

是指我的数据类型有定性的类别。例如 abcd

2.定序数据(Ordinal

定序是在定类的情况下有一定的顺序。

3.定距数据(Interval

定距指有一定距离的数值。

4.定比数据(Ratio)

定比数据指他的比例是一样的。


三、连续型数值

连续型数值类型通常是指一个整数或者是非整数。

举例:这类整数通常是非整数。虽然有时记载的是整数,如身高的厘米数,但是当提高精确后,总会出现小数的。对连续型数据进行分析的方法,通常称为变量的方法。如:长度、时间、质量、OD 值、血压值等。

1.定性数据

定义:
1)在统计学上的包括分类数据和顺序数据,是一-组表示事物性质、规定事物类别的文字表述型数据,不能将其量化,只能将其定性。
2)分类数据:只能归于某-类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,用文字来表述。
3)顺序数据:只能归于某一有序类别的非数字型数据,它也是有类别的,但这些类别是有序的。

是指对某个事物不能将其量化,只能将其定性。(定性数据可以称你是男的或女的;另外一种是你的收入是高的,中等的,低的属于定性数据)

2.定量数据

1)定量数据说明的是现象的数量特征,是必须用数值来表现的。分为离散数据和连续数据。
2)数值型数据,按数字尺度测量的观察值,其结果表现为具体的数值。
3)有明确的数据来源和数据支持,比如,我国 GDP 增长率为7 %

定量数据通常会由整数或者浮点数组成。它是一个数值的变化很多的定量数据可能是一个连续变量连续型的数值。在定量数据分析手段会用到线图或是箱型图等等。在定量数据的分析的图形化表达当中我们也会经常看到一些闪点图,比如 xy 轴把一些定量的点画在闪点图上来对比两个变量之间的关系。


四、大数定理--概念

1.概率论历史上第一个极限定理属于伯努利,后人称之为"大数定律”。
2.
概率论中讨论随机变量序列的算术平均值向随机变量各数学期望的算术平均值收敛的定律。
3.
大数定律(law of large numbers) ,是一种描述当试验次数很大时所呈现的概率性质的定律。
4.
这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。

5.但注意到,大数定律并不是经验规律,而是在一些附加条件上经严格证明了的定理,它是一种自然规律因而通常不叫定理而是大数"定律”。
6.
通俗地说,这个定理就是,在试验不变的条件下, 重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。大数定律分为弱大数定律和强大数定律。

大数定理概念是指当你在集群或人群中,当你取的值足够大的时候,取值的平均值将无限的接近于真实的平均值。大数定理也是奠定了一个统计的基础,只要取到足够的样本数据就可以猜出整个人群或者整个群体的平均数。


五、数据的样本特征--数据的来源

1.大数据的来源

大数据有现有的数据和取样的数据。比如企业的大数据取样可能是企业本身的客户群体,客户群体可能只代表18岁到40岁的消费人群,它并不代表全国的消费人群,因此大数据的来源本身带有局限性和歪曲性。现有数据和取样数据会夹杂在大数据中,因此会给统计方面带来一些挑战。

2.采样的问题:

1)从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法。
2)具有经济性、时效性强、适应面广、准确性高等特点。

image.png

取样是为了节约成本。例如:研究全国人特征的时候不能取全部量,可以从全体的样本中随机取一定规模的小样本进行分析。因此有经济性,时效性特别好的特点。

3.问卷调查的数据质量问题

1)方差:

①方差是在概率论和统计方差衡量随机变量或一组数据时离散程度度量。

②概率论中方差用来度量随机变量和其数学期望(即均值)偏离程度。

③统计中的方差是各个数据分别与其平均数之差的平方的和的平均。

④许多实际问题中,研究方差即偏离程度有着重要意义,方差是衡量源据和期望值相差的度量值。

(2)标准方差:

①各数据偏离平均数的距离(离均差)的平均数,它是离差平方和平均后的方根。
②因此,标准差也是一种平均数标准差是方差的算术平方根。
③标准差能反映一个数据集的离散程度。平均数相同的,标准差末必相同。
④一组数据中的每一个数 与这组数据的平均数的差的平方的和再除以数据的个数,取平方根即是。


六、实验设计获得样本数据--实验设计在不同场景应用案例

营销促销的 AB 实验

1.基本概念:
1AB 测试的基本概念就是设计两个(或更多)方案,然后通过数据收集和数据分析来找出更优化的方案
2)在商业运营中, AB 测试可以帮助公司制定最优的市场营销策略,例如针对网页复制,促销邮件或是搜索广告等

我们把研究样本分成 AB 两组,A B之间可能只有一项或者是两项的差别,当差别会不会造成一些绩效的差别,把两组分别进行衡量。根据统计的分析利用大数定理和标准方差的定理分析这两组之间是否具备一定的差别。

临床医药药效研究,实验组与控制组

2.基本概念:

样本量的估计涉及诸多参数的确定,最难得到的就是预期的或者已知的效应大小(计数资料的率差、计量资料的均数差值) ,方差(计量资料)或合并的率(计数资料各组的合并率) , 一般需通过预试验或者查阅历史资料和文献获得,不过很多时候很难得到或者可靠性较差。因此样本量估计有些时候不是想做就能做的。FDA 的规定主要是从安全性的角度出发,保证能发现多少的不良反应率;统计的计算主要是从 power 出发,保证有多少把握能做出显著来。

实验组是吃药组,控制组是不吃药组。通过两组之间的对比分析得出实验组的药效与控制组不吃药相比是否有效。在比较过程中大数定理和标准方差起到了很大的作用。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4天前
|
XML JavaScript 前端开发
nodeType 属性
XML DOM 中的每个节点都是对象,具有方法和属性,可通过 JavaScript 掌控。关键属性有:nodeName、nodeValue 和 nodeType。nodeType 是只读,表示节点类型,如:元素(1)、属性(2)、文本(3)、注释(8)和文档(9)。
|
10月前
|
JavaScript 前端开发 API
Vue3中常用的语法详细分解(响应式数据,声明响应式数据,自定义事件,计算属性,监听器)
Vue3中常用的语法详细分解(响应式数据,声明响应式数据,自定义事件,计算属性,监听器)
178 0
|
存储 JavaScript
七个例子带你搞懂JS对象中的数据属性与访问器属性
有人会问:对象属性也分类别?!是指函数和变量的不同吗?还是分为可枚举属性或者是不可枚举属性,其实属性分为两个大类,一种为数据属性,一种为访问器属性
91 0
|
存储 负载均衡 测试技术
FlowFile 属性 | 学习笔记
快速学习 FlowFile 属性
208 0
|
Java Scala 开发者
如何定义类和属性的使用|学习笔记
快速学习如何定义类和属性的使用。
105 0
|
开发者 Python
类属性和对象属性|学习笔记
快速学习类属性和对象属性
81 0
类属性和对象属性|学习笔记
|
开发者 Python
内置属性 | 学习笔记
快速学习 内置属性
57 0
内置属性 | 学习笔记
|
存储 C# 索引
C#索引器的实现、索引器和属性的异同对比,这些技能你get到了嘛?
C#索引器的实现、索引器和属性的异同对比,这些技能你get到了嘛?
373 0
C#索引器的实现、索引器和属性的异同对比,这些技能你get到了嘛?
|
存储 数据挖掘 开发者
DataFrame 属性和方法|学习笔记
快速学习 DataFrame 属性和方法
160 0
|
开发者 Python
属性和方法|学习笔记
快速学习 属性和方法