团队介绍:
阿里巴巴拥有世界上规模最大的电商搜索、推荐场景,其中在线引擎系统支撑着每天数百亿计的海量搜索、推荐请求,而离线数据处理系统则承担着海量数据收集、处理并导出到在线系统的重要职责。随着阿里巴巴业务的高速发展,如何在数据量/业务量不断增长的情况下,满足海量吞吐与高实时性两个性能目标,并在此基础上稳定高效的支持大量业务需求,越来越成为巨大的挑战。为了应对这些挑战,我们基于Hadoop,Flink,Hbase等大数据组件,做整个机器学习的样本、特征处理平台,支持了阿里集团几乎所有电商业务的搜索及推荐系统,包括:淘宝、天猫以及AE、lazada等的搜索推荐业务,每天处理数以百亿计数据。
岗位描述:
1.参与搜索推荐机器学习大数据平台的开发,解决实时和离线计算流程中性能、功能等多方面的挑战,支持搜索推荐场景下机器学习的特征处理流程、引擎数据导入流程的开发和设计。
2.与Flink/Hadoop等生态深度结合,挖掘Flink计算引擎的潜力,开发相关的组件,推进流批计算的一体化。
3.存储方面针对搜索离线的应用场景,基于新型OLAP/TP混合存储系统,开发面向搜索场景的存储层抽象。
岗位要求:
- 具备扎实的计算机理论基础, 在数据结构及算法方面有较强的功底。
2.精通Java编程,具备优秀的系统Debug/Profiling能力和经验,熟悉常见的面向对象设计模式,具备优秀的系统架构设计能力。 - 熟悉Hadoop/HBase/Flink/Spark等开源大数据技术,有大数据工程开发经验,有开源社区开发经验优先。
- 熟悉SQL语言编程,有数据库相关开发经验,了解数据库的基本原理。
- 熟悉机器学习特征处理、模型训练流程,了解常用机器学习算法,有大型搜索/推荐/广告算法架构设计经验者优先。
岗位提交地址:点我提交