《R语言数据挖掘:实用项目解析》——2.7 列联表、二元统计及数据正态性检验

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
简介:

本节书摘来自华章计算机《R语言数据挖掘:实用项目解析》一书中的第2章,第2.7节,作者[印度]普拉迪帕塔·米什拉(Pradeepta Mishra),译 黄芸,更多章节内容可以访问云栖社区“华章计算机”公众号查看。

2.7 列联表、二元统计及数据正态性检验

列联表是由两个或多个分类变量及每个分类所占比例构成的频率表。频率表展示的是一个分类变量,而列联表用来展示两个分类变量。

我们以Cars93数据集为例,来解读列联表、二元统计和数据正态性:

image

前面已给出过汽车的两个分类变量AirBags和Type各自的频率表:

image
image

如上面的代码所示,conTable对象保存了两个变量的交叉表。每个单元的百分比显示在下列代码中。如果需要计算行百分比或列百分比,则需要指定相应参数的值:

image

若要计算行百分比,则应将值设为1。若要计算列百分比,则应将值设为2。代码如下:

image

列联表的概览(summary)用于实现两个分类变量的独立性检验(卡方检验):

image

对所有因子的卡方独立性检验在之前讲过了。卡方近似值有可能因列联表中存在空值或少于5个值而不准确。在之前的例子中,对于汽车类型和安全气囊这两个随机变量,如果一个变量的概率分布不影响另一个变量的概率分布,则说明它们是独立的。对于卡方独立性检验的零假设是两个变量相互独立。因为此检验的p值小于0.05,我们有5%的显著性水平否定两个变量是独立的零假设。所以结论是汽车类型和安全气囊不是相互独立的,即它们相关或依赖。

如果不是两个变量,我们给列联表再加一维会怎么样?取Origin,列联表的代码会显示如下:

image

对所有因子的独立性检验结果执行summay命令可检验零假设:

image

除了之前讨论的绘图方法,R语言中还有一些数值统计检验可用于查看一个变量是否呈正态分布。有个名为norm.test的库可用于执行数据正态性检验,该库中一系列用于检验数据正态性的函数如下所示:

image
image

我们来对Cars93数据集中的Price变量进行正态检验:

image

由以上的检验得知,因所有统计检验的p值都小于0.05,可知Price变量不是正态分布。如果给二元关系再增加一个维度,即变成多元分析。我们来试着理解一下Cars93数据集中马力(horsepower)和车长(length of car)之间的关系:

image

当纳入更多变量时,这就变成多元关系了。下面给出一个Cars93数据集中多变量之间多元关系的示意图:

image
image
image

有多种方法可作为参数传递给关联绘图。它们是"circle""square""ellipse""number""shade""color"和"pie"。

相关文章
|
3月前
|
消息中间件 存储 缓存
十万订单每秒热点数据架构优化实践深度解析
【11月更文挑战第20天】随着互联网技术的飞速发展,电子商务平台在高峰时段需要处理海量订单,这对系统的性能、稳定性和扩展性提出了极高的要求。尤其是在“双十一”、“618”等大型促销活动中,每秒需要处理数万甚至数十万笔订单,这对系统的热点数据处理能力构成了严峻挑战。本文将深入探讨如何优化架构以应对每秒十万订单级别的热点数据处理,从历史背景、功能点、业务场景、底层原理以及使用Java模拟示例等多个维度进行剖析。
79 8
|
24天前
|
存储 搜索推荐 大数据
数据大爆炸:解析大数据的起源及其对未来的启示
数据大爆炸:解析大数据的起源及其对未来的启示
88 15
数据大爆炸:解析大数据的起源及其对未来的启示
|
4月前
|
人工智能 自然语言处理 前端开发
SpringBoot + 通义千问 + 自定义React组件:支持EventStream数据解析的技术实践
【10月更文挑战第7天】在现代Web开发中,集成多种技术栈以实现复杂的功能需求已成为常态。本文将详细介绍如何使用SpringBoot作为后端框架,结合阿里巴巴的通义千问(一个强大的自然语言处理服务),并通过自定义React组件来支持服务器发送事件(SSE, Server-Sent Events)的EventStream数据解析。这一组合不仅能够实现高效的实时通信,还能利用AI技术提升用户体验。
353 2
|
4天前
|
数据采集 前端开发 API
SurfGen爬虫:解析HTML与提取关键数据
SurfGen爬虫:解析HTML与提取关键数据
|
9天前
|
数据采集 监控 搜索推荐
深度解析淘宝商品详情API接口:解锁电商数据新维度,驱动业务增长
淘宝商品详情API接口,是淘宝开放平台为第三方开发者提供的一套用于获取淘宝、天猫等电商平台商品详细信息的应用程序接口。该接口涵盖了商品的基本信息(如标题、价格、图片)、属性参数、库存状况、销量评价、物流信息等,是电商企业实现商品管理、市场分析、营销策略制定等功能的得力助手。
|
1月前
|
JSON 前端开发 搜索推荐
关于商品详情 API 接口 JSON 格式返回数据解析的示例
本文介绍商品详情API接口返回的JSON数据解析。最外层为`product`对象,包含商品基本信息(如id、name、price)、分类信息(category)、图片(images)、属性(attributes)、用户评价(reviews)、库存(stock)和卖家信息(seller)。每个字段详细描述了商品的不同方面,帮助开发者准确提取和展示数据。具体结构和字段含义需结合实际业务需求和API文档理解。
|
27天前
|
JSON 缓存 API
解析电商商品详情API接口系列,json数据示例参考
电商商品详情API接口是电商平台的重要组成部分,提供了商品的详细信息,支持用户进行商品浏览和购买决策。通过合理的API设计和优化,可以提升系统性能和用户体验。希望本文的解析和示例能够为开发者提供参考,帮助构建高效、可靠的电商系统。
39 12
|
19天前
|
搜索推荐 API 开发者
深度解析:利用商品详情 API 接口实现数据获取与应用
在电商蓬勃发展的今天,数据成为驱动业务增长的核心。商品详情API接口作为连接海量商品数据的桥梁,帮助运营者、商家和开发者获取精准的商品信息(如价格、描述、图片、评价等),优化策略、提升用户体验。通过理解API概念、工作原理及不同平台特点,掌握获取权限、构建请求、处理响应和错误的方法,可以将数据应用于商品展示、数据分析、竞品分析和个性化推荐等场景,助力电商创新与发展。未来,随着技术进步,API接口将与人工智能、大数据深度融合,带来更多变革。
62 3
|
1月前
|
存储 分布式计算 Hadoop
基于Java的Hadoop文件处理系统:高效分布式数据解析与存储
本文介绍了如何借鉴Hadoop的设计思想,使用Java实现其核心功能MapReduce,解决海量数据处理问题。通过类比图书馆管理系统,详细解释了Hadoop的两大组件:HDFS(分布式文件系统)和MapReduce(分布式计算模型)。具体实现了单词统计任务,并扩展支持CSV和JSON格式的数据解析。为了提升性能,引入了Combiner减少中间数据传输,以及自定义Partitioner解决数据倾斜问题。最后总结了Hadoop在大数据处理中的重要性,鼓励Java开发者学习Hadoop以拓展技术边界。
47 7
|
3月前
|
数据采集 自然语言处理 搜索推荐
基于qwen2.5的长文本解析、数据预测与趋势分析、代码生成能力赋能esg报告分析
Qwen2.5是一款强大的生成式预训练语言模型,擅长自然语言理解和生成,支持长文本解析、数据预测、代码生成等复杂任务。Qwen-Long作为其变体,专为长上下文场景优化,适用于大型文档处理、知识图谱构建等。Qwen2.5在ESG报告解析、多Agent协作、数学模型生成等方面表现出色,提供灵活且高效的解决方案。
368 49

推荐镜像

更多