数据分析简单题目分享(附答案)

简介: 数据分析简单题目分享(附答案)

不用任何公开参考资料,估算今年新生儿出生数量

解答:


1)采用两层模型(人群画像人群转化):新生儿出生数=Σ各年龄层育龄女性数量各年龄层生育比率

2)从数字到数字:如果有前几年新生儿出生数量数据,建立时间序列模型(需要考虑到二胎放开的突变事件)进行预测

3)找先兆指标,如婴儿类用品的新增活跃用户数量X表示新生儿家庭用户。Xn/新生儿n为该年新生儿家庭用户的转化率,如X2007/新生儿2007位为2007年新生儿家庭用户的转化率。该转化率会随平台发展而发展,可以根据往年数量推出今年的大致转化率,并根据今年新增新生儿家庭用户数量推出今年估计的新生儿数量。

2.观测宇宙中单位体积内星球的个数,属于什么分布:

A 学生分布:小样本量下对正态分布的均值进行估计

B 泊松分布:某段时间内,事件发生的概率。也可以认为是n很大p很小的二项分布。

C 正态分布:多组(多次独立重复实验下的随机变量的均值)

D 二项分布:多次抛硬币的独立重复试验

解答:

A 学生分布:小样本量下对正态分布的均值进行估计

B 泊松分布:某段时间内,事件发生的概率。也可以认为是n很大p很小的二项分布。

C 正态分布:多组(多次独立重复实验下的随机变量的均值)

D 二项分布:多次抛硬币的独立重复试验

把体积看成时间,那么本题符合B泊松分布。


常用降维的方法

1)PCA与因子分析

2)LDA

3)流形法:LLE(局部线性嵌入)、拉普拉斯特征映射、ISOMAP

4)自动编码机抽特征

5)SVD

6)树模型抽特征

7)embedding

4.用户刚进来APP的时候会选择属性,怎样在保证有完整用户信息的同时让用户流失减少

解答:用户刚进来APP的时候会选择属性,怎样在保证有完整用户信息的同时让用户流失减少

采用技术接受模型(TAM)来分析,影响用户接受选择属性这件事的主要因素有:

1)感知有用性:

a. 文案告知用户选择属性能给用户带来的好处

2)感知易用性:

a. 关联用户第三方账号(如微博),可以冷启动阶段匹配用户更有可能选择的属性,推荐用户选择

b. 交互性做好

3)使用者态度:用户对填写信息的态度

a. 这里需要允许用户跳过,后续再提醒用户填写

b. 告知用户填写的信息会受到很好的保护

4)行为意图:用户使用APP的目的性,难以控制

5)外部变量:如操作时间、操作环境等,这里难以控制


5.SVM的优点和缺点

1)优点:

a. 能应用于非线性可分的情况

b. 最后分类时由支持向量决定,复杂度取决于支持向量的数目而不是样本空间的维度,避免了维度灾难

c. 具有鲁棒性:因为只使用少量支持向量,抓住关键样本,剔除冗余样本

d. 高维低样本下性能好,如文本分类

2)缺点:

a. 模型训练复杂度高

b. 难以适应多分类问题

c. 核函数选择没有较好的方法论

6.简单的介绍随机森林,以及一些细节

1)随机森林原理:通过构造多个决策树,做bagging以提高泛化能力
2)随机方法包括:subsample(有放回抽样)、subfeature、低维空间投影(特征做组合,参考林轩田的《机器学习基石》)
3)有放回抽样,可以用包外样本做检验
4)也可以用OOB做特征选择,思路:
    a. 如果一个特征有效,那么这个特征引入杂质会明显影响模型效果
    b. 引入杂质会影响分布,所以更好的方式是对特征中的取值进行洗牌,然后计算前后模型的差异
    c. 但是我们不想训练两个模型,可以利用OOB进行偷懒。把OOB中的数据该特征取值洗牌,然后扔进训练好的模型中,用输出的结果进行误差检验

(参考@王玮 的回答:https://www.zhihu.com/question/26225801

6.GBDT原理介绍下

1)首先介绍Adaboost Tree,是一种boosting的树集成方法。基本思路是依次训练多棵树,每棵树训练时对分错的样本进行加权。树模型中对样本的加权实际是对样本采样几率的加权,在进行有放回抽样时,分错的样本更有可能被抽到


2)GBDT是Adaboost Tree的改进,每棵树都是CART(分类回归树),树在叶节点输出的是一个数值,分类误差就是真实值减去叶节点的输出值,得到残差。GBDT要做的就是使用梯度下降的方法减少分类误差值


在GBDT的迭代中,假设我们前一轮迭代得到的强学习器是ft−1(x), 损失函数是L(y,ft−1(x)), 我们本轮迭代的目标是找到一个CART回归树模型的弱学习器ht(x),让本轮的损失损失L(y,ft(x)=L(y,ft−1(x)+ht(x))最小。也就是说,本轮迭代找到决策树,要让样本的损失尽量变得更小。


GBDT的思想可以用一个通俗的例子解释,假如有个人30岁,我们首先用20岁去拟合,发现损失有10岁,这时我们用6岁去拟合剩下的损失,发现差距还有4岁,第三轮我们用3岁拟合剩下的差距,差距就只有一岁了。如果我们的迭代轮数还没有完,可以继续迭代下面,每一轮迭代,拟合的岁数误差都会减小。


(参考:https://www.cnblogs.com/pinard/p/6140514.html


3)得到多棵树后,根据每颗树的分类误差进行加权投票


相关文章
|
存储 移动开发 Linux
Linux系统之部署h5ai目录列表程序
【5月更文挑战第3天】Linux系统之部署h5ai目录列表程序
693 2
|
4月前
|
机器学习/深度学习 弹性计算 人工智能
阿里云服务器价格大曝光!2026最新价目表一次看懂,购买、升级和续费指南
2026年阿里云服务器最新价目表:轻量应用服务器低至38元/年,ECS普惠款99元起,GPU实例按量/包年可选。涵盖包年包月、按量付费三大计费模式,详解续费同价、多年付3.9折、升级差额补价等核心规则,助您精准控本、避坑省钱。(239字)
1070 1
|
5月前
|
消息中间件 人工智能 Cloud Native
AI Agent 职业路线规划:从技术环节到落地路径的体系化指南
AI Agent正重塑云原生时代技术职业版图。本文系统梳理其核心技术环节(架构设计、工具集成、提示工程)、衍生角色(核心开发者/解决方案专家)及双路径发展选择(前沿深耕/行业落地),强调系统思维、数据状态管理与逻辑验证三大通用能力,助力开发者构建不可替代的竞争力。
415 1
|
5月前
|
安全 API 流计算
Microsoft Teams、Zalo 接入背后的 Channel 架构演进
Clawdbot 于2026年1月两周内极速集成Teams、Zalo、Telegram——得益于革命性hannel插件化架构:告别单体耦合,通过标准化接口+动态加载,新平台接入仅需300行代码、零改核心。生态已启,质量与安全规范亟待共建。
721 1
|
6月前
|
人工智能 数据处理 Apache
Forrester发布流式数据平台报告:Flink 创始团队跻身领导者行列,实时AI能力获权威认可
Ververica,由Apache Flink创始团队创立、阿里云旗下企业,首次入选Forrester 2025流式数据平台领导者象限,凭借在实时AI与流处理领域的技术创新及全场景部署能力获高度认可,成为全球企业构建实时数据基础设施的核心选择。
469 10
Forrester发布流式数据平台报告:Flink 创始团队跻身领导者行列,实时AI能力获权威认可
|
7月前
|
Linux iOS开发 UED
计算机三大操作系统
Windows、macOS与Linux,三大操作系统背后是三种哲学:实用兼容、极致体验与自由开源。它们代表不同的价值观——包容大众、追求精致或掌控技术,塑造了数字世界的多元生态。选择系统,即是选择生活方式。
|
存储 SQL 数据库
关系数据库-数据库事务处理与ACID原则
本文详细介绍了关系数据库中的事务处理和ACID原则。通过事务处理,可以确保数据库操作的原子性、一致性、隔离性和持久性,从而提高数据的可靠性和一致性。在实际应用中,可以通过事务控制语句和适当的隔离级别,确保复杂操作的正确执行。希望本文能帮助您更好地理解和应用数据库事务处理,提高数据库系统的可靠性和性能。
610 18
|
人工智能 弹性计算 自然语言处理
云工开物学习推荐 | 轻松部署满血版DeepSeek,来阿里云搭建专属大模型主页
阿里云推出高效、易用的个人AI大模型部署方案,5分钟快速搭建专属AI主页。支持70+主流模型无缝切换对比,满足多样化需求;提供灵活扩展能力,解锁无限可能;高度定制化设计,打造个性化智能品牌。两种套餐任选:热卖套餐99元/年,尝鲜套餐0.3元/小时。专属大模型主页等你创建!
|
存储 安全 数据安全/隐私保护
智能手表与代理IP:守护你的运动数据隐私
在数字化时代,智能手表不仅记录运动、心率和睡眠数据,还提供通讯、支付功能。然而,其普及也带来了数据隐私风险。本文探讨智能手表与代理IP结合如何守护运动数据隐私。通过案例说明,介绍代理IP隐藏真实IP、加密传输的作用,并讨论其局限性及应对措施,展望未来技术创新和法律法规完善对数据隐私保护的推动。
364 0
|
监控 Java Sentinel
Hystrix和Sentinel有什么异同
Hystrix 和 Sentinel 是提升微服务架构稳定性的流行组件,均支持服务熔断与限流,提供实时监控。Hystrix 通过线程池和信号量实现服务隔离,Sentinel 基于流量控制和系统负载保护,各有特色。
608 0

热门文章

最新文章