Machine Learning-L2-数据特征

简介: Machine Learning-L2-数据特征

数据对象(样本)由属性/特征描述,属性(attribute)、特征(feature)、变量(variable)、维(dimension)一般可以互换使用。


1. 特征类型


数据属性的类型由该属性/特征可能具有的值的集合决定,可以是标称的、二元的、序数的或数值的。


标称属性、序数属性都是定性的,描述对象特征而不给出实际数量,而数值属性是定量的。


标称属性(Nominal attribute)的值是一些符号或事物的名称,每个值代表某种类别、编码后状态。如婚姻状况,单身、已婚、离异、丧偶。

二元属性(Binary attribute)是只有两个类别或状态的标称属性,如性别,男、女。

序数属性(Ordinal attribute)的可能值之间具有有意义的序(ranking),如顾客评价,0-不满意,1-一般,2-满意。

数值属性(Numeric attribute)是可度量的量,用整数或实数值表示,如温度、年龄等,可通过离散化(将值域划分为有限个有序类别)形成序数属性。


2. 特征的相关性度量


评估一个属性的值如何随另一个变化:


标称属性:使用χ 2 检验;

数值属性:使用相关系数(correlation coefficient)和协方差(covariance)。


2.1 χ 2 检验


假设标称属性A 有c 个不同值 a1, a2 , . . . , ac,B 有r 个不同值 b1, b2 , . . . , b r

A 和B 描述的数据元组可以用一个相依表显示,( A i , B j ) 表示( A = ai , B = bi) 的联合事件,每个可能的联合事件都在表中有自己的单元。


image.png

其中,o i j 是联合事件( A i , B j ) 的观察频度(实际计数),而e i j  是( A i , B j )的期望频度。


image.png

χ 2 统计检验假设A 和B是独立的。检验基于显著水平,具有自由度( r − 1 ) × ( c − 1 ) 。如果可以拒绝该假设(拒绝假设的值由χ 2分布上百分点表给出),则A和B是统计相关的。


image.png


期望频率根据两个属性的数据分布计算,如


image.png

image.png



对于自由度1,在0.001的置信水平下,拒绝假设的值是10.828。由于


image.png


可以拒绝性别与爱好独立的假设。并断言,对于给定人群,这两个属性是(强)相关的。


2.2 Pearson 系数


数值属性A 和B 的Pearson积矩系数(Pearson’s product moment coefficient)


image.png

其中,ai bi分别是元组i 在属性A 和B 上的值,A 和 B 分别是的均值:


image.png

σ Aσ b分别是A 和B 的标准差:


image.png

image.pngA B 叉积和(即对于每个元组,A的值乘以该元组B的值)。

image.png

 r A , B > 0  : A 和B 正相关,A 的值随着B 的值增加而增加。

 r A , B< 0:A 和B 负相关,A 的值随着B 的值增加而减少。

 r A , B= 0 :A 和B 不相关,A 和B相互独立。


相关性并不蕴含因果关系,即A 和B 是相关的,并不意味着A 导致B 或B 导致A 。


2.3 协方差


数值属性A 和B的协方差(covariance)


image.png

可以证明

image.png

如果A 和B 趋于一起改变,则A 和B 的协方差为正;否则为负。

如果A 和B 是相互独立的,则E ( A ⋅ B ) = E ( A ) ⋅ E ( B ) 协方差为0,不具有相关性。


2.4 相关与相互独立


  • 相关必不独立:相关是随机变量间的一种线性关系,两个随机变量发生的概率具有相互的关系,所以必不独立。
  • 相互独立必不相关:
  • 不相关并非相互独立
  • 不相关可能独立
  • 不相关可能不独立
  • 对于服从二维正态分布的随机变量:不相关等价于相互独立
相关文章
最牛逼 Java 日志框架—Log4j2,性能无敌,横扫对手
Logback 算是JAVA 里一个老牌的日志框架,从06年开始第一个版本,迭代至今也十几年了。不过logback最近一个稳定版本还停留在 2017 年,好几年都没有更新;logback的兄弟 slf4j 最近一个稳定版也是2017年,有点凉凉的意思。
|
机器学习/深度学习 人工智能 自然语言处理
自动化测试的新篇章:利用AI提升软件质量
【8月更文挑战第27天】在软件开发的海洋中,自动化测试是确保航船不偏离航线的关键罗盘。随着人工智能(AI)技术的兴起,这艘航船正乘风破浪,以前所未有的速度前进。本文将探索如何通过AI技术优化自动化测试流程,不仅提高测试的效率和覆盖范围,而且增强测试用例的智能生成和结果分析能力。我们将从AI在自动化测试中的应用入手,深入探讨其对测试准确性和效率的影响,以及面临的挑战与未来的发展方向。
【汉诺塔】经典递归问题(Java实现)图文并茂讲解
【汉诺塔】经典递归问题(Java实现)图文并茂讲解
|
弹性计算 网络协议 安全
【图文教程】阿里云服务器开放端口设置(超详细)
阿里云服务器端口怎么打开?云服务器ECS端口在安全组中开启,轻量应用服务器端口在防火墙中打开,阿里云服务器网以80端口为例,来详细说下阿里云服务器端口开放图文教程,其他的端口如8080、3306、443、1433也是同样的方法进行开启端口:
38679 2
|
4月前
|
Arthas 存储 监控
Arthas heapdump(dump java heap, 类似 jmap 命令的 heap dump 功能)
Arthas heapdump(dump java heap, 类似 jmap 命令的 heap dump 功能)
234 8
|
11月前
|
运维 自然语言处理 Cloud Native
云栖实录 | 智能运维年度重磅发布及大模型实践解读
阿里云大数据运维团队重磅发布云原生大规模集群场景的 GitOps 方案,该方案基于 OAM 云原生模型,促进研发与运维人员协作,同时兼顾变更的过程管理和终态管理,可实现变更的自动化、代码化、透明化。此外,阿里云大数据运维团队分享了大模型在大数据智能运维场景的应用实践,通过引入检索增强生成(RAG)方法和其他优化策略,大幅提高了在智能问答和智能诊断方面知识的关联性和检索精度,并基于多智能体框架建立高效的数据分析和决策支持系统。
|
9月前
|
SQL API
金融行业 · 大模型挑战赛 |用大模型理解金融市场
2024金融行业大模型挑战赛即将开启,旨在推动大型语言模型在金融领域的应用。比赛提供金融多轮问答数据集,参赛者需使用GLM-4模型API,通过SQL、API等技术解决金融问题,涵盖数据查询、统计分析及复杂问题处理。赛事分初赛、复赛和决赛,总奖金20万元。报名时间为2024年12月2日至2025年2月6日。
629 16
金融行业 · 大模型挑战赛 |用大模型理解金融市场
|
Java Maven
IntelliJ IDEA的maven如何提高下载速度
IntelliJ IDEA的maven如何提高下载速度
1019 0
|
缓存 网络协议 Unix
网络常用协议
网络常用协议
|
缓存 JavaScript API
「Vue3系列」Vue3 计算属性(computed)、监听属性(watch)
在 Vue 3 中,计算属性(Computed Properties)是一种强大的功能,它允许你声明一个依赖于其他响应式数据属性的属性,并且这个属性的值会根据其依赖的数据的变化而自动更新。计算属性是基于它们的依赖关系进行缓存的,只有在它的相关依赖发生改变时才会重新求值。
1744 0