招聘:搜索推荐事业部-机器学习大数据工程专家-杭州

简介: 等你……

团队介绍:

阿里巴巴拥有世界上规模最大的电商搜索、推荐场景,其中在线引擎系统支撑着每天数百亿计的海量搜索、推荐请求,而离线数据处理系统则承担着海量数据收集、处理并导出到在线系统的重要职责。随着阿里巴巴业务的高速发展,如何在数据量/业务量不断增长的情况下,满足海量吞吐与高实时性两个性能目标,并在此基础上稳定高效的支持大量业务需求,越来越成为巨大的挑战。为了应对这些挑战,我们基于Hadoop,Flink,Hbase等大数据组件,做整个机器学习的样本、特征处理平台,支持了阿里集团几乎所有电商业务的搜索及推荐系统,包括:淘宝、天猫以及AE、lazada等的搜索推荐业务,每天处理数以百亿计数据。

岗位描述:

1.参与搜索推荐机器学习大数据平台的开发,解决实时和离线计算流程中性能、功能等多方面的挑战,支持搜索推荐场景下机器学习的特征处理流程、引擎数据导入流程的开发和设计。
2.与Flink/Hadoop等生态深度结合,挖掘Flink计算引擎的潜力,开发相关的组件,推进流批计算的一体化。
3.存储方面针对搜索离线的应用场景,基于新型OLAP/TP混合存储系统,开发面向搜索场景的存储层抽象。

岗位要求:

  1. 具备扎实的计算机理论基础, 在数据结构及算法方面有较强的功底。
    2.精通Java编程,具备优秀的系统Debug/Profiling能力和经验,熟悉常见的面向对象设计模式,具备优秀的系统架构设计能力。
  2. 熟悉Hadoop/HBase/Flink/Spark等开源大数据技术,有大数据工程开发经验,有开源社区开发经验优先。
  3. 熟悉SQL语言编程,有数据库相关开发经验,了解数据库的基本原理。
  4. 熟悉机器学习特征处理、模型训练流程,了解常用机器学习算法,有大型搜索/推荐/广告算法架构设计经验者优先。

岗位提交地址:点我提交

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
8月前
|
数据采集 人工智能 算法
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
数据没洗干净,分析全白干:聊聊大数据里的“洗澡水”工程
267 1
|
7月前
|
人工智能 安全 机器人
使用PAI LangStudio创建RAG知识库及联网搜索聊天机器人
本文介绍如何基于阿里云PAI的LangStudio与LLM构建支持RAG与联网搜索的聊天机器人。内容涵盖SerpAPI注册、模型部署、连接配置、知识库创建及应用流设计,实现结合知识库与网络搜索的智能问答,并集成AI安全护栏,提升企业应用安全性与开发效率。
|
SQL 数据可视化 大数据
从数据小白到大数据达人:一步步成为数据分析专家
从数据小白到大数据达人:一步步成为数据分析专家
666 92
|
9月前
|
人工智能 自然语言处理 数据库
云上玩转Qwen3系列之二:PAI-LangStudio搭建联网搜索和RAG增强问答应用
本文详细介绍了如何使用 PAI-LangStudio 和 Qwen3 构建基于 RAG 和联网搜索 的 AI 智能问答应用。该应用通过将 RAG、web search 等技术和阿里最新的推理模型 Qwen3 编排在一个应用流中,为大模型提供了额外的联网搜索和特定领域知识库检索的能力,提升了智能回答的效果,减少了幻觉。开发者可以基于该模板进行灵活扩展和二次开发,以满足特定场景的需求。
|
人工智能 自然语言处理 搜索推荐
云上玩转DeepSeek系列之三:PAI-RAG集成联网搜索,构建企业级智能助手
本文将为您带来“基于 PAI-RAG 构建 DeepSeek 联网搜索+企业级知识库助手服务”解决方案,PAI-RAG 提供全面的生态能力,支持一键部署至企业微信、微信公众号、钉钉群聊机器人等,助力打造多场景的AI助理,全面提升业务效率与用户体验。
|
12月前
|
机器学习/深度学习 运维 算法
大数据基础工程技术团队4篇论文入选ICLR,ICDE,WWW
大数据基础工程技术团队4篇论文入选ICLR,ICDE,WWW
193 0
|
机器学习/深度学习 Python
机器学习中模型选择和优化的关键技术——交叉验证与网格搜索
本文深入探讨了机器学习中模型选择和优化的关键技术——交叉验证与网格搜索。介绍了K折交叉验证、留一交叉验证等方法,以及网格搜索的原理和步骤,展示了如何结合两者在Python中实现模型参数的优化,并强调了使用时需注意的计算成本、过拟合风险等问题。
1012 6
|
机器学习/深度学习 计算机视觉 Python
模型预测笔记(三):通过交叉验证网格搜索机器学习的最优参数
本文介绍了网格搜索(Grid Search)在机器学习中用于优化模型超参数的方法,包括定义超参数范围、创建参数网格、选择评估指标、构建模型和交叉验证策略、执行网格搜索、选择最佳超参数组合,并使用这些参数重新训练模型。文中还讨论了GridSearchCV的参数和不同机器学习问题适用的评分指标。最后提供了使用决策树分类器进行网格搜索的Python代码示例。
1843 1
|
机器学习/深度学习 运维 大数据
【KDD2024】大数据基础工程技术集群异常检测论文入选
阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《Cluster-Wide Task Slowdown Detection in Cloud System》被数据挖掘领域顶会ACM SIGKDD2024接收
|
机器学习/深度学习 人工智能 Android开发
揭秘AI编程:从零开始构建你的第一个机器学习模型移动应用开发之旅:从新手到专家
【8月更文挑战第29天】本文将带你走进人工智能的奇妙世界,一起探索如何从零开始构建一个机器学习模型。我们将一步步解析整个过程,包括数据收集、预处理、模型选择、训练和测试等步骤,让你对AI编程有一个全面而深入的理解。无论你是AI初学者,还是有一定基础的开发者,都能在这篇文章中找到你需要的信息和启示。让我们一起开启这段激动人心的AI编程之旅吧! 【8月更文挑战第29天】在这篇文章中,我们将探索移动应用开发的奇妙世界。无论你是刚刚踏入这个领域的新手,还是已经有一定经验的开发者,这篇文章都将为你提供有价值的信息和指导。我们将从基础开始,逐步深入到更复杂的主题,包括移动操作系统的选择、开发工具的使用、