选择题10道,问答题三道,分析题2道
一、选择题
1、 一下哪个属于离散变量(汽车变量)
水稻亩产量 家庭收入 商品价格 汽车产量
2、 卡方分布的样本方差分别是(2n)
n 1 2n 4n
3、 有个人买彩票,中奖概率为1/10,每次花200元,连续买5次,如果中奖则奖金为1000元,问不赔钱的概率是多少
1-(9/10)^5
4、 世界男女比例相当,黄种人比其他人种多的多,其他人种男的比女的多,以下那句是正确的 (B)
A、黄种人男人比黑种人女人多 B、黄种人女人比黑种人男人多
5、 关于聚类分析的题目,判断哪句不正确
6、 均值>中位数>众数,问这个分布偏左还是偏右
右偏
7、 随机无放回抽样跟随机有放回抽样比较,哪个方差大,还是相等
有放回的方差更大,它的概率范围更广,偏离程度更大
8、 回归分析y=a+bx,如果存在自相关,问b的值如何,是正负还是0,还有显著性如何?
b值是正负,显著性水平高
二、问答题
1、SQL语句,表A有member_id, city,表B 有 member_id, price几项,将A和B链接,且指定城市和price>10. Member_id为主键.如果不会写就给出数据分析的思想。
select * from A join B on A.member_id=B.member_id where city='北京' and price>10.
2、数据清理中,处理缺失值的方法
对于缺失值的处理,从总体上来说分为删除存在缺失值的个案和缺失值插补。
选分为三个步骤:
①为每个空值产生一套可能的插补值,这些值反映了无响应模型的不确定性;每个值都可以被用来插补数据集中的缺失值,产生若干个完整数据集合。
②每个插补数据集合都用针对完整数据集的统计方法进行统计分析。
③对来自各个插补数据集的结果,根据评分函数进行选择,产生最终的插补值。
3、回归分析中出现的多重共线性问题是什么,如何处理?
所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。
一般来说,由于经济数据的限制使得模型设计不当,导致设计矩阵中解释变量间存在普遍的相关关系。
消除多重共线性的方法:
1.增加样本容量
2.利用先验信息改变
3.删除不必要的解释变量:参数的约束形式
4.其它方法:逐步回归法,岭回归(ridge regression),主成分分析(principal components ).
这些方法spss都可以做的,你在数据分析的子菜单下可以找到相应的做法。
删除不必要的方法的时候,最好使用一下逐步回归法,这样比较科学一点。
主成分分析的方法使用比较简单科学,本人建议用该方法。
三、分析题
1、对不同价位区间的商品做活动,表A给活动出流连次数与总体浏览次数,表B给出活动商品转换率和总体商品转换率,分析现象
2、某电商推出一款新的产品,希望这个产品能大卖,让你给这个主题取个名字,如果你是数据分析师,设定哪些指标来判断,给出指标的定义和意义,至少三个。