2013网易实习生数据挖掘工程师

简介: 2013网易实习生招聘 岗位:数据挖掘工程师  一、问答题  a) 欠拟合和过拟合的原因分别有哪些?如何避免?  b) 决策树的父节点和子节点的熵的大小?请解释原因。 c) 衡量分类算法的准确率,召回率,F1值。  d) 举例序列模式挖掘算法有哪些?以及他们的应用场景。  二、计算题  1) 给你一组向量a,b  a) 计算二者欧氏距离 b) 计算二者曼哈顿距离 2) 给
2013网易实习生招聘 岗位:数据挖掘工程师 
一、问答题 
a) 欠拟合和过拟合的原因分别有哪些?如何避免? 
b) 决策树的父节点和子节点的熵的大小?请解释原因。 c) 衡量分类算法的准确率,召回率,F1值。 

d) 举例序列模式挖掘算法有哪些?以及他们的应用场景。 


二、计算题 

1) 给你一组向量a,b 
a) 计算二者欧氏距离 b) 计算二者曼哈顿距离 2) 给你一组向量a,b,c,d 

a) 计算a,b的Jaccard相似系数 b) 计算c,d的向量空间余弦相似度 c) 计算c、d的皮尔森相关系数 


三、(题目记得不是很清楚) 

一个文档-词矩阵,给你一个变换公式tfij’=tfij*log(m/dfi);其中tfij代表单词i在文档f中的频率,m代表文档数,dfi含有单词i的文档频率。 

1) 只有一个单词只存在文档中,转换的结果?(具体问题忘记) 2) 有多个单词存在在多个文档中,转换的结果?(具体问题忘记) 3) 公式变换的目的? 


四、推导朴素贝叶斯分类P(c|d),文档d(由若干word组成),求该文档属于类别c的概率,

并说明公式中哪些概率可以利用训练集计算得到。 


五、给你五张人脸图片。 

可以抽取哪些特征?按照列出的特征,写出第一个和最后一个用户的特征向量。 


六、考查ID3算法,根据天气分类outlook/temperature/humidity/windy。(给你一张离散型

的图表数据,一般学过ID3的应该都知道) a) 哪一个属性作为第一个分类属性? b) 画出二层决策树。


 七、购物篮事物(关联规则) 

一个表格:事物ID/购买项。 
1) 提取出关联规则的最大数量是多少?(包括0支持度的规则) 2) 提取的频繁项集的最大长度(最小支持>0) 3) 找出能提取出4-项集的最大数量表达式 

4) 找出一个具有最大支持度的项集(长度为2或更大) 5) 找出一对项a,b,使得{a}->{b}和{b}->{a}有相同置信度。 


八、一个发布优惠劵的网站,如何给用户做出合适的推荐?有哪些方法?设计一个合适的系

统(线下数据处理,存放,线上如何查询?) 




目录
相关文章
|
4月前
|
机器学习/深度学习 存储 算法
【数据挖掘】2022年联想公司数据挖掘工程师笔试题
2022年联想公司数据挖掘工程师笔试题的题目和答案解析,包括选择题和编程题,涉及数据结构、排序算法、图算法、数据库、概率论、统计学、密码学、机器学习等多个领域。
61 3
【数据挖掘】2022年联想公司数据挖掘工程师笔试题
|
4月前
|
机器学习/深度学习 人工智能 搜索推荐
【数据挖掘】2022年深信服科技机器学习工程师笔试
总结了深信服科技机器学习工程师笔试中的几道题目及其解答,涉及数据结构、机器学习评估指标和过拟合缓解方法等内容。
95 1
|
4月前
|
机器学习/深度学习 数据挖掘 数据安全/隐私保护
【数据挖掘工程师-笔试】2022年海尔公司
本文是关于2022年海尔公司数据挖掘工程师岗位的笔试题目分享,包括18个逻辑选择题和2个初级编程题。选择题覆盖了数学规律、字母顺序、单词排序、数列规律和加密方法等;编程题包括计算数字中奇数位之和,以及判断信号发送和接收字符串是否一致并输出错误字符的函数。文章还提供了部分题目的解析和编程题的代码示例。
67 0
|
4月前
|
机器学习/深度学习 存储 数据挖掘
【数据挖掘工程师-笔试】2022年SHEIN 公司
关于SHEIN公司数据挖掘工程师岗位的笔试题目分享,包括10个选择题(涉及Naive Bayes、XGBoost与LightGBM原理及对比分析、逻辑回归等),2个问答题(讨论逻辑回归特征离散化的原因和机器学习中常见的最优化方法),以及2个编程题(二叉树的最小深度和硬币找零问题的动态规划解法)。
85 0
|
4月前
|
SQL 存储 算法
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
恒生科技2022年9月24号数据ETL工程师岗位的笔试题目及答案汇总,包括了SQL选择题、SQL编程题和业务应用SQL编程题,涵盖了数据库基础知识、SQL语句编写以及数据仓库概念等多个方面。
70 2
【数据挖掘】恒生金融有限公司2023届秋招数据ETL工程师笔试题解析
|
4月前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】百度机器学习-数据挖掘-自然语言处理工程师 历史笔试详解
文章汇总并解析了百度机器学习/数据挖掘工程师/自然语言处理工程师历史笔试题目,覆盖了多分类任务激活函数、TCP首部确认号字段、GMM-HMM模型、朴素贝叶斯模型、SGD随机梯度下降法、随机森林算法、强连通图、红黑树和完全二叉树的高度、最长公共前后缀、冒泡排序比较次数、C4.5属性划分标准、语言模型类型、分词算法、贝叶斯决策理论、样本信息熵、数据降维方法、分箱方法、物理地址计算、分时系统响应时间分析、小顶堆删除调整等多个知识点。
49 1
【数据挖掘】百度机器学习-数据挖掘-自然语言处理工程师 历史笔试详解
|
4月前
|
机器学习/深度学习 分布式计算 算法
【数据挖掘】搜狐公司数据挖掘工程师笔试题
这是一份数据挖掘工程师的笔试题,包含了单选题、多选题、问答题和编程题,覆盖了文学、游戏、机器学习、统计、时间序列分析、数据结构和算法等多个领域。
46 4
|
4月前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】百度机器学习-数据挖掘-自然语言处理工程师 2023届校招笔试详解
百度2023届校招机器学习/数据挖掘/自然语言处理工程师笔试的题目详解
90 1
|
4月前
|
SQL 开发框架 大数据
【数据挖掘】顺丰科技2022年秋招大数据挖掘与分析工程师笔试题
顺丰科技2022年秋招大数据挖掘与分析工程师笔试题解析,涵盖了多领域选择题和编程题,包括动态规划、数据库封锁协议、概率论、SQL、排序算法等知识点。
99 0
|
4月前
|
机器学习/深度学习 缓存 分布式计算
【数据挖掘工程师-笔试】2022年大华股份
本文是关于2022年大华股份数据挖掘工程师笔试的题目及答案分析,涵盖了数据仓库、统计函数、范数计算、交叉验证方法、分类算法评价标准、随机森林、RDD特性、Hadoop核心组件等方面的问题和解答。
46 0