服务器开光师是个什么鬼?TalkingData的研发面试题目

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

TalkingData是一家对数据有信仰的公司,致力于用数据去改变人们做决定的方式,并帮助人们更加了解周围的环境。

大数据

4年坚守大数据的前沿阵地,我们遇到无数的挑战。这里我们也向如下有志之士发出邀请,有意者请发简历至wenfeng.xiao@tendcloud.com:

  • 大数据工程师/架构师
  • Java开发工程师/架构师
  • Html5/web前端开发
  • iOS/安卓SDK开发
  • 机器学习研究员
  • DevOps/运维开发
  • 程序猿鼓励师
  • 服务器开光师

对于这些职位,我们通常有如下的面试题目。

大数据工程师

1. Hadoop集群的namenode上,当meta数据损坏之后如何修复?数据的丢失率是怎样计算?

2. 目前需要对100台服务器做RAID ,有什么方式能够通过自动化的方式实现?

3. 有超过10亿行的数据,每行第一列为唯一ID列,其余列为数值型列,假设数值型列分别为A,B,C,D,请问如何高效的实现一个算法能够完成:

1) 某一列数值符合在某个区间的范围内的记录的条数

2) 某一列数值符合在某个区间同时另一列数值在某个数值区间的记录的条数

4. 某广告主在渠道投放每天有大量点击数据,包含每个点击的IP信息。请基于IP信息设计防止渠道作弊的算法和思路。

5. 一个url文件,每行是一个url地址,可能有重复。

(1)统计每个url的频次,设计函数实现实现。

(2)设有10亿url,平均长度是20,现在机器有8G内存,怎么处理,写出思路。

6. 20个亿整数的两个集合a与b,求a与b的交集,内存为4Gb

7. 在N个无序数中找K个最小值

8. 一个流式输入序列(method_name, latency),其中method_name大约有100万种,latency的取值为1到10亿的正整数,每天的数据量大概100亿条。限制最多 1GB的程序运行内存,设计一种方法,计算一天内每个method_name的50%,95%,99% percentile的latency,误差不超过5%。

Java开发工程师

1. 抽象类和接口有什么区别

2. 请说一下java中的内存回收机制所采用的算法

3. Sleep()和wait()有什么区别?

4. 请列举几种排序算法,并用JAVA实现快速排序算法。

5. 36辆车,6条跑道,无计时器,最少几次比赛可以选出前三

6. 一个未排序的整形序列,比如10,20,3,7,5,9,4,2,90,给出这些数字当中最长连续数的长度,例子中的长度是 4[2,3,4,5]。算法复杂度最好为O(n)

7. 两个线程,一个运行B.m1(),一个运行B.m2(),这个程序可能的行为有哪些?

Class A{
    int f; 
    A(){f = 1;}
}

Class B{
    A a;
    void m1(){a = new A();}
    void m2(){if(a != null) System.out.println(a.f);}
}

8. 在N个无序数中找K个最小值

C++开发工程师

1. new 和 malloc 的区别

2. 用C/C++写一个归并排序。

数据结构为struct Node{int v; Node *next};

接口为 Node * merge_sort(Node *);

3. 一个url文件,每行是一个url地址,可能有重复。

1)统计每个url的频次,设计函数实现实现。

2)设有10亿url,平均长度是20,现在机器有8G内存,怎么处理,写出思路。

4. 进程间的通信方式

5. 20个亿整数的两个集合a与b,求a与b的交集,内存为4Gb

6. 在N个无序数中找K个最小值

机器学习研究员

1. 什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。

2. Pca的概念和处理过程(主成分分析)

3. 中文分词技术简介,常用数据结构和算法

4. 如何建立一个智能问答系统,思路

5. 如何建立一个智能商品推荐系统,思路

Html5/web前端开发

1. 实现输出document对象中所有成员的名称和类型。

2. 写一个去掉数组里的重复成员的程序。比如去掉上面题中刚生成数字序列里面的重复项;

3. 请谈一下HTML和XHTML的区别。

4. 你对Web标准的理解?

5. 浏览器兼容性,谈谈你经常使用的浏览器,和各个浏览器兼容的问题?

6. 页面图片加载太多,一般如何处理?如何合并图片,请写出你的代码?如何延迟和预先加载?
大数据程序猿鼓励师

限女,颜值高,大家都理解,不再赘述:

大数据
服务器开光师

对于大数据行业来说,开光师的作用日趋凸显,这就是为什么有的服务器服务超期依然运行稳健,有的新买刚上线就存储故障。根据职能开光师分为软件专攻和硬件专攻,通常必须掌握至少一门宗教开光仪式,自备仪式礼服。因为涉及跨界,此类人才目前稀缺,培养不易。

talkingdata

talkingdata

鉴于目前安全形势日益严峻,TalkingData决定在北京卧佛寺和成都青羊宫新建数据中心做异地容灾,因此掌握多项技能者优先。


本文作者:佚名

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
8月前
|
JavaScript 前端开发 应用服务中间件
【Vue面试题三十】、vue项目本地开发完成后部署到服务器后报404是什么原因呢?
这篇文章分析了Vue项目在服务器部署后出现404错误的原因,主要是由于history路由模式下服务器缺少对单页应用的支持,并提供了通过修改nginx配置使用`try_files`指令重定向所有请求到`index.html`的解决方案。
【Vue面试题三十】、vue项目本地开发完成后部署到服务器后报404是什么原因呢?
|
7月前
|
消息中间件 安全 前端开发
面试官:单核服务器可以不加锁吗?
面试官:单核服务器可以不加锁吗?
84 4
面试官:单核服务器可以不加锁吗?
|
6月前
|
缓存 关系型数据库 MySQL
面试题目总结
面试题目总结
174 6
|
6月前
|
Java C++ Python
【面试宝典】深入Python高级:直戳痛点的题目演示(下)
【面试宝典】深入Python高级:直戳痛点的题目演示(下)
|
6月前
|
设计模式 Unix Python
【面试宝典】深入Python高级:直戳痛点的题目演示(上)
【面试宝典】深入Python高级:直戳痛点的题目演示(上)
|
9月前
|
网络协议 Linux Unix
面试官:服务器最大可以创建多少个tcp连接以及端口并解释下你对文件句柄的理解
面试官:服务器最大可以创建多少个tcp连接以及端口并解释下你对文件句柄的理解
204 0
面试官:服务器最大可以创建多少个tcp连接以及端口并解释下你对文件句柄的理解
|
8月前
|
前端开发 应用服务中间件 API
"揭秘!面试官必问:你是如何巧妙绕过跨域难题的?前端代理VS服务器端CORS,哪个才是你的秘密武器?"
【8月更文挑战第21天】在软件开发中,尤其前后端分离架构下,跨域资源共享(CORS)是常见的挑战。主要解决方案有两种:一是服务器端配置CORS策略,通过设置响应头控制跨域访问权限,无需改动前端代码,增强安全性;二是前端代理转发,如使用Nginx或Webpack DevServer在开发环境中转发请求绕过同源策略,简化开发流程但不适用于生产环境。生产环境下应采用服务器端CORS策略以确保安全稳定。
129 0
|
10月前
|
缓存 Java 数据库连接
java面试题目 强引用、软引用、弱引用、幻象引用有什么区别?具体使用场景是什么?
【6月更文挑战第28天】在 Java 中,理解和正确使用各种引用类型(强引用、软引用、弱引用、幻象引用)对有效的内存管理和垃圾回收至关重要。下面我们详细解读这些引用类型的区别及其具体使用场景。
129 3
|
9月前
|
Java 数据格式
Java面试题:简述Java Socket编程的基本流程,包括客户端和服务器的创建与通信。
Java面试题:简述Java Socket编程的基本流程,包括客户端和服务器的创建与通信。
147 0
|
9月前
|
存储 算法
经典的滑动窗口的题目 力扣 2799. 统计完全子数组的数目(面试题)
经典的滑动窗口的题目 力扣 2799. 统计完全子数组的数目(面试题)

热门文章

最新文章

下一篇
oss创建bucket