数据分析简单题目分享（附答案）-阿里云开发者社区

数据分析简单题目分享（附答案）

2023-09-26 219

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 数据分析简单题目分享（附答案）

不用任何公开参考资料，估算今年新生儿出生数量

解答：

1）采用两层模型（人群画像人群转化）：新生儿出生数=Σ各年龄层育龄女性数量各年龄层生育比率

2）从数字到数字：如果有前几年新生儿出生数量数据，建立时间序列模型（需要考虑到二胎放开的突变事件）进行预测

3）找先兆指标，如婴儿类用品的新增活跃用户数量X表示新生儿家庭用户。Xn/新生儿n为该年新生儿家庭用户的转化率，如X2007/新生儿2007位为2007年新生儿家庭用户的转化率。该转化率会随平台发展而发展，可以根据往年数量推出今年的大致转化率，并根据今年新增新生儿家庭用户数量推出今年估计的新生儿数量。

2.观测宇宙中单位体积内星球的个数，属于什么分布：

A 学生分布：小样本量下对正态分布的均值进行估计

B 泊松分布：某段时间内，事件发生的概率。也可以认为是n很大p很小的二项分布。

C 正态分布：多组（多次独立重复实验下的随机变量的均值）

D 二项分布：多次抛硬币的独立重复试验

解答：

A 学生分布：小样本量下对正态分布的均值进行估计

B 泊松分布：某段时间内，事件发生的概率。也可以认为是n很大p很小的二项分布。

C 正态分布：多组（多次独立重复实验下的随机变量的均值）

D 二项分布：多次抛硬币的独立重复试验

把体积看成时间，那么本题符合B泊松分布。

常用降维的方法

1）PCA与因子分析

2）LDA

3）流形法：LLE（局部线性嵌入）、拉普拉斯特征映射、ISOMAP

4）自动编码机抽特征

5）SVD

6）树模型抽特征

7）embedding

4.用户刚进来APP的时候会选择属性，怎样在保证有完整用户信息的同时让用户流失减少

解答：用户刚进来APP的时候会选择属性，怎样在保证有完整用户信息的同时让用户流失减少

采用技术接受模型（TAM）来分析，影响用户接受选择属性这件事的主要因素有：

1）感知有用性：

a. 文案告知用户选择属性能给用户带来的好处

2）感知易用性：

a. 关联用户第三方账号（如微博），可以冷启动阶段匹配用户更有可能选择的属性，推荐用户选择

b. 交互性做好

3）使用者态度：用户对填写信息的态度

a. 这里需要允许用户跳过，后续再提醒用户填写

b. 告知用户填写的信息会受到很好的保护

4）行为意图：用户使用APP的目的性，难以控制

5）外部变量：如操作时间、操作环境等，这里难以控制

5.SVM的优点和缺点

1）优点：

a. 能应用于非线性可分的情况

b. 最后分类时由支持向量决定，复杂度取决于支持向量的数目而不是样本空间的维度，避免了维度灾难

c. 具有鲁棒性：因为只使用少量支持向量，抓住关键样本，剔除冗余样本

d. 高维低样本下性能好，如文本分类

2）缺点：

a. 模型训练复杂度高

b. 难以适应多分类问题

c. 核函数选择没有较好的方法论

6.简单的介绍随机森林，以及一些细节

1）随机森林原理：通过构造多个决策树，做bagging以提高泛化能力
2）随机方法包括：subsample（有放回抽样）、subfeature、低维空间投影（特征做组合，参考林轩田的《机器学习基石》）
3）有放回抽样，可以用包外样本做检验
4）也可以用OOB做特征选择，思路：
    a. 如果一个特征有效，那么这个特征引入杂质会明显影响模型效果
    b. 引入杂质会影响分布，所以更好的方式是对特征中的取值进行洗牌，然后计算前后模型的差异
    c. 但是我们不想训练两个模型，可以利用OOB进行偷懒。把OOB中的数据该特征取值洗牌，然后扔进训练好的模型中，用输出的结果进行误差检验

（参考@王玮的回答：https://www.zhihu.com/question/26225801）

6.GBDT原理介绍下

1）首先介绍Adaboost Tree，是一种boosting的树集成方法。基本思路是依次训练多棵树，每棵树训练时对分错的样本进行加权。树模型中对样本的加权实际是对样本采样几率的加权，在进行有放回抽样时，分错的样本更有可能被抽到

2）GBDT是Adaboost Tree的改进，每棵树都是CART（分类回归树），树在叶节点输出的是一个数值，分类误差就是真实值减去叶节点的输出值，得到残差。GBDT要做的就是使用梯度下降的方法减少分类误差值

在GBDT的迭代中，假设我们前一轮迭代得到的强学习器是ft−1(x), 损失函数是L(y,ft−1(x)), 我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ht(x)，让本轮的损失损失L(y,ft(x)=L(y,ft−1(x)+ht(x))最小。也就是说，本轮迭代找到决策树，要让样本的损失尽量变得更小。

GBDT的思想可以用一个通俗的例子解释，假如有个人30岁，我们首先用20岁去拟合，发现损失有10岁，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，第三轮我们用3岁拟合剩下的差距，差距就只有一岁了。如果我们的迭代轮数还没有完，可以继续迭代下面，每一轮迭代，拟合的岁数误差都会减小。

（参考：https://www.cnblogs.com/pinard/p/6140514.html）

3）得到多棵树后，根据每颗树的分类误差进行加权投票

数据分析简单题目分享（附答案）

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

数据分析简单题目分享（附答案）

热门文章

最新文章

相关电子书