【数据挖掘】2022年2023届秋招宏瓴科技公司机器学习算法工程师 笔试题

简介: 关于宏瓴科技有限公司2022-2023年秋招机器学习算法工程师岗位的笔试题目及作者个人对部分题目的解答尝试,涉及贝叶斯误差和贝叶斯最优分类器的概念、贝叶斯误差的重要性和估算方法,以及如何有效利用训练集和测试集进行深度学习模型训练的数据集划分策略。

1 简介

公司:宏瓴科技有限公司
岗位:机器学习算法工程师
笔试时间:2022-9-28
以下答案全是自己总结,这些点对于我来说太难了,我对自己总结的答案也没有信心,题目中说要用公式去表示,我都不知道如何去写。

2 题目

请在题目下方作答。

1. 什么是贝叶斯误差?什么是贝叶斯最优分类器?(以如下的二分类问题为例尽量用公式作答)- (10分)
二分类器:f:X -> Y={0,1}

答:
(1)是指在现有特征集上,任何可以基于特征输入进行随机输出的分类器所能达到的最小误差。
(2)贝叶斯最优分类器为最小化总体风险,只需在每个样本上选择某个条件使得条件风险最小的类别标记时的判定准则。

2. 当我们拿到一个新的(之前没有参考文献)监督学习问题的训练数据的时候,在开始训练之前,为什么需要关心这个问题的贝叶斯误差?有可能通过理论分析直接得到贝叶斯误差的真实值么?如果能,请把计算公式写下来;如果不能,如何用工程办法大致去估计一个贝叶斯误差的替代值? - (10分)

答:
(1)因为理想模型是假设预先知道生成数据的真实概率分布的,但是实际的数据分布中存在一些噪声扰动的,与理想状态并不符合,在监督学习中x到y的映射可能内在是随机的,或者y可能是包括x在内还有其他变量的确定性函数。使用贝叶斯误差,就是能从预先知道的真实分布中预测出现的误差。
(2)不能通过理论分析直接得到贝叶斯误差的真实值,因为这是一个理论值。工程办法是用人类误差当做贝叶斯误差的替代值。

3. 假设我们拿到了训练集和测试集两个标定好的数据集,其中测试集的数据分布与(落地场景中)真实分布一致,但是数据量不大,训练集的数据量大,但是不能保证其分布跟真实分布一致(往后的所有问题中出现的训练集和测试集都做以上假设)。
为了利用好这两个数据集训练出在落地场景中表现尽可能好的深度学习模型,我们应该用以下哪一种数据集划分方式进行训练,为什么?(把一个数据集一分为二的时候,无论两个子集各自占比多少,都假设其数据分布与原数据集一致)- (10分)

a) 训练集 | 测试集
训练集用于训练模型参数,测试集用于测试模型准确率,同时根据测试集上的表现来选择网络超参,比如学习率,网络深度等

b) 9/10的训练集 | 1/10的训练验证集 || 测试集
在训练集上使用留一交叉验证的方式,划分出训练集和训练验证集,在训练集上训练模型参数,用训练验证集上的错误率来选择网络超参

c) 训练集 | 训练验证集 || 测试验证集 | 测试集
把训练集拆分成两部分:大部分用于训练网络参数,少部分保留出来作为训练验证集;测试集也拆分成两部分:测试验证集和最终的测试集

答:选择c,因为当训练集和测试集分布不一致时,构造和测试集分布近似相同的验证集,保证线下验证根线上测试分数不会出现抖动。

还有三个问题忘了

目录
相关文章
|
2月前
|
机器学习/深度学习 算法 数据挖掘
8个常见的机器学习算法的计算复杂度总结
8个常见的机器学习算法的计算复杂度总结
8个常见的机器学习算法的计算复杂度总结
|
16天前
|
机器学习/深度学习 存储 人工智能
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
使用Python作为开发语言,基于文本数据集(一个积极的xls文本格式和一个消极的xls文本格式文件),使用Word2vec对文本进行处理。通过支持向量机SVM算法训练情绪分类模型。实现对文本消极情感和文本积极情感的识别。并基于Django框架开发网页平台实现对用户的可视化操作和数据存储。
20 0
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
|
1月前
|
机器学习/深度学习 数据采集 算法
数据挖掘和机器学习算法
数据挖掘和机器学习算法
|
1月前
|
机器学习/深度学习 数据采集 存储
一文读懂蒙特卡洛算法:从概率模拟到机器学习模型优化的全方位解析
蒙特卡洛方法起源于1945年科学家斯坦尼斯劳·乌拉姆对纸牌游戏中概率问题的思考,与约翰·冯·诺依曼共同奠定了该方法的理论基础。该方法通过模拟大量随机场景来近似复杂问题的解,因命名灵感源自蒙特卡洛赌场。如今,蒙特卡洛方法广泛应用于机器学习领域,尤其在超参数调优、贝叶斯滤波等方面表现出色。通过随机采样超参数空间,蒙特卡洛方法能够高效地找到优质组合,适用于处理高维度、非线性问题。本文通过实例展示了蒙特卡洛方法在估算圆周率π和优化机器学习模型中的应用,并对比了其与网格搜索方法的性能。
165 1
|
2月前
|
机器学习/深度学习 算法 数据挖掘
机器学习必知必会10大算法
机器学习必知必会10大算法
|
2月前
|
机器学习/深度学习 算法 数据挖掘
【白话机器学习】算法理论+实战之决策树
【白话机器学习】算法理论+实战之决策树
|
2月前
|
机器学习/深度学习 算法 搜索推荐
【机器学习】机器学习的基本概念、算法的工作原理、实际应用案例
机器学习是人工智能的一个分支,它使计算机能够在没有明确编程的情况下从数据中学习并改进其性能。机器学习的目标是让计算机自动学习模式和规律,从而能够对未知数据做出预测或决策。
57 2
|
2月前
|
机器学习/深度学习 数据采集 人工智能
理解并应用机器学习算法:从技术基础到实践应用
【8月更文挑战第10天】机器学习算法的应用已经深入到我们生活的方方面面,理解和掌握机器学习算法对于数据科学家、工程师乃至普通从业者来说都至关重要。通过本文的介绍,希望大家能够对机器学习有一个基本的认识,并学会如何将其应用于实际问题中。当然,机器学习是一个不断发展和演变的领域,只有不断学习和实践,才能跟上时代的步伐。
|
2月前
|
机器学习/深度学习 自然语言处理 算法
利用机器学习算法进行自动化测试
利用机器学习算法进行自动化测试
|
2月前
|
数据可视化 数据挖掘 数据库连接
【数据挖掘】2022年2023届秋招爱玩特智能量化研究员岗 笔试题
本文提供了2022年爱玩特智能量化研究员岗位的笔试题目及Python代码实现,涉及数据库连接、数据可视化、投资回报率计算、累计回报率、描述性统计分析以及简单线性回归等任务。
35 2
下一篇
无影云桌面