应用统计学与R语言实现学习笔记(十四)——案例与实践

简介: 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ESA_DSQ/article/details/78177826 Chapter 14 Case and Practice本篇是第十四章,内容是案例与实践。
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/ESA_DSQ/article/details/78177826

Chapter 14 Case and Practice

本篇是第十四章,内容是案例与实践。这里其实是对我公选课的作业做了个汇总。

1 描述性统计与抽样分布

1.一种袋装食品用生产线自动装填,每袋重量大约为50g,但由于某些原因,每袋重量不会恰好是50g。下面是随机抽取的100袋食品,测得的重量数据见附录。
(1)构建这些数据的频数分布表。
(2)绘制频数分布的直方图。
(3)说明数据分布的特征。

2.甲乙两个班各有40名学生,期末统计学考试成绩的分布见附录。
(1)根据上面的数据,画出两个班考试成绩的复合柱形图、环形图和图饼图。
(2)比较两个班考试成绩分布的特点。
(3)画出雷达图,比较两个班考试成绩的分布是否相似。

3.随机抽取25个网络用户,得到他们的年龄数据(单位:周岁)见附录。
(1)计算众数、中位数。
(2)根据定义公式计算四分位数。
(3)计算平均数和标准差。
(4)计算偏态系数和峰态系数。
(5)对网民年龄的分布特征进行综合分析。

4.某银行为缩短顾客到银行办理业务等待的时间,准备采用两种排队方式进行试验:一种是所有顾客都进入一个等待队列;另一种是顾客在三个业务窗口处列队三排等待。为比较哪种排队方式使顾客等待的时间更短,两种排队方式各随机抽取的9名顾客,得到第一中排队方式的平均等待时间为7.2分钟,标准差为,1.97分钟,第二种排队方式的等待时间(单位:min)见附录。
(1)画出第二种排队方式等待时间的茎叶图。
(2)计算第二种排队方式等待时间的平均数和标准差。
(3)比较两种排队方式等待时间的离散程度。
(4)如果让你选择一种排队方式,你会选择哪一种?试说明理由。

5.从均值为200、标准差为50的总体中,抽取n=100的简单随机样本,用样本均值`x估计总体均值。
a)描述重复抽样的样本均值的抽样分布。
b)不重复抽样,总体单位数分别为10000、1000时的样本均值的抽样分布。

2 参数估计与假设检验

1.某大学为了解学生每天上网的时间,在全校7500名学生中采取不重复抽样方法随机抽取36人,调查他们每天上网的时间(单位:小时) ,得到的数据见附录。求该校大学生平均上网时间的置信区间,置信概率分别为90%、95%和99%。

2.假定两个总体的标准差分别为: σ 1   =12, σ 2   =15,若要求误差范围不超过5,相应的置信水平为95%,假定 n 1 =n 2   ,估计两个总体均值之差 m 1 m 2   时所需的样本容量为多大?

3.经验表明,一个矩形的宽与长之比等于0.618的时候会给人们比较良好的感觉。某工艺品工厂生产的矩形工艺品框架的宽与长要求也按这一比例设计,假定其总体服从正态分布,现随机抽取了20个框架测得比值见附录。在显著性水平 =0.05时,能否认为该厂生产的工艺品框架宽与长的平均比例为0.618?。

4.一家大型超市连锁店上个月接到许多消费者投诉某种品牌炸土豆片中60克一袋的那种土豆片的重量不符。店方猜想引起这些投诉的原因是运输过程中沉积在食品袋底部的土豆片碎屑,但为了使顾客们对花钱买到的土豆片感到物有所值,店方仍然决定对来自于一家最大的供应商的下一批袋装炸土豆片的平均重量(克)进行检验,假设陈述如下:
H 0 :μ60  H 1 :μ<60 
如果有证据可以拒绝原假设,店方就拒收这批炸土豆片并向供应商提出投诉。
(1)与这一假设检验问题相关联的第一类错误是什么?
(2)与这一假设检验问题相关联的第二类错误是什么?
(3)你认为连锁店的顾客们会将哪类错误看得较为严重?而供应商会将哪类错误看得较为严重?

3 方差分析与回归分析

1.某家电制造公司准备购进一批5#电池,现有A、B、C三个电池生产企业愿意供货,为比较它们生产的电池质量,从每个企业各随机抽取5只电池,经试验得其寿命(单位:h)数据见附录。试分析三个企业生产的电池的平均寿命之间有无显著差异( α=0.05  )。如果有差异,用LSD方法检验哪些企业之间有差异?

2.一家超市连锁店的老板进行一项研究,确定超市所在的位置和竞争者的数量对销售额是否有显著影响。获得的月销售额数据(单位:万元)见附录。取显著性水平 α=0.01  ,检验:
(1)竞争者的数量对销售额是否有显著影响。
(2)超市的位置对销售额是否有显著影响。
(3)竞争者的数量和超市的位置对销售额是否有交互影响。

3.附录中有随机抽取的15家大型商场销售的同类产品的有关数据(单位:元)。
(1)计算y与 x 1   、y与 x 2   之间的相关系数,是否有证据表明销售价格与购进价格、销售价格与销售费用之间存在线性关系?
(2)根据上述结果,你认为用购进价格和销售费用来预测销售价格是否有用?
(3)用Excel进行回归,并检验模型的线性关系是否显著( α=0.05  )。
(4)解释判定系数 R 2   ,所得结论与问题(2)中是否一致?
(5)计算 x 1   x 2   之间的相关系数,所得结果意味着什么?
(6)模型中是否存在多重共线性?你对模型有何建议?

4.附录中有32名美士足球运动员的rating及其他相关信息。请建立一个回归模型以预测一位美士足球运动员的rating。提交报告包括:使用什么方法建立的模型,该方法的运行结果,最终模型的解释(拟合程度、预测误差)。

这一份作业汇总从最原始的描述统计、参数估计、假设检验到基础的方差分析与回归分析均有了。根据这里的习题即可对前面的内容再次熟悉。
这里就不多说了,我有一份比较完整的文档针对这份内容。这里先给出节选部分的截图。具体地址再给出。

目录
相关文章
|
2月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
9天前
|
存储 数据可视化 数据挖掘
R语言在生物信息学中的应用
【10月更文挑战第21天】生物信息学是生物学、计算机科学和信息技术相结合的交叉学科,主要研究生物大分子信息的存储、处理、分析和解释。R语言作为一种强大的统计分析工具,被广泛应用于生物信息学领域。本文将介绍R语言在生物信息学中的应用,包括基因组学、转录组学、蛋白质组学、代谢组学等方面,帮助读者了解R语言在生物信息学中的重要性和应用前景。
26 4
|
9天前
|
机器学习/深度学习 数据采集 人工智能
R语言是一种强大的编程语言,广泛应用于统计分析、数据可视化、机器学习等领域
R语言是一种广泛应用于统计分析、数据可视化及机器学习的强大编程语言。本文为初学者提供了一份使用R语言进行机器学习的入门指南,涵盖R语言简介、安装配置、基本操作、常用机器学习库介绍及实例演示,帮助读者快速掌握R语言在机器学习领域的应用。
28 3
|
9天前
|
机器学习/深度学习 并行计算 数据挖掘
R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域
【10月更文挑战第21天】R语言是一种强大的统计分析工具,广泛应用于数据分析和机器学习领域。本文将介绍R语言中的一些高级编程技巧,包括函数式编程、向量化运算、字符串处理、循环和条件语句、异常处理和性能优化等方面,以帮助读者更好地掌握R语言的编程技巧,提高数据分析的效率。
25 2
|
2月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
2月前
|
数据采集 算法 搜索推荐
R语言营销数据分析:使用R进行客户分群的实践探索
【9月更文挑战第1天】R语言以其强大的数据处理和统计分析能力,在金融数据分析、营销数据分析等多个领域发挥着重要作用。通过R语言进行客户分群,企业可以更好地理解客户需求,制定精准的营销策略,提升市场竞争力和客户满意度。未来,随着大数据和人工智能技术的不断发展,R语言在营销数据分析中的应用将更加广泛和深入。
|
2月前
|
机器学习/深度学习 算法 数据挖掘
R语言中的支持向量机(SVM)与K最近邻(KNN)算法实现与应用
【9月更文挑战第2天】无论是支持向量机还是K最近邻算法,都是机器学习中非常重要的分类算法。它们在R语言中的实现相对简单,但各有其优缺点和适用场景。在实际应用中,应根据数据的特性、任务的需求以及计算资源的限制来选择合适的算法。通过不断地实践和探索,我们可以更好地掌握这些算法并应用到实际的数据分析和机器学习任务中。
|
6月前
【R语言实战】——fGARCH包在金融时序上的模拟应用
【R语言实战】——fGARCH包在金融时序上的模拟应用
|
3月前
|
机器学习/深度学习 资源调度 算法
R语言逻辑回归与分类模型的深度探索与应用
【8月更文挑战第31天】逻辑回归作为一种经典的分类算法,在R语言中通过`glm()`函数可以轻松实现。其简单、高效且易于解释的特点,使得它在处理二分类问题时具有广泛的应用价值。然而,值得注意的是,逻辑回归在处理非线性关系或复杂交互作用时可能表现不佳,此时可能需要考虑其他更复杂的分类模型。
|
3月前
|
数据挖掘
R语言方差分析(ANOVA):理解与应用
【8月更文挑战第31天】ANOVA是一种强大的统计方法,用于比较三个或更多组之间的均值差异。在R语言中,我们可以轻松地使用`aov()`函数进行ANOVA分析,并通过后置检验(如TukeyHSD检验)来进一步分析哪些组之间存在显著差异。ANOVA在多个领域都有广泛的应用,是数据分析中不可或缺的工具之一。