阿里云分布式存储Pangu团队招人啦

简介: 阿里云-飞天-盘古是阿里云自研的分布式存储平台,承接了整个阿里云的存储业务,拥有海量的用户。因业务需求增加,诚邀广大志同道合者加入。

阿里云-飞天-盘古

概述

业务

  • 盘古是阿里云自研的分布式存储平台,承接了整个阿里云的存储业务,拥有海量的用户。当前支持的业务方向主要有
    1. 超大规模的分布式文件系统(单集群数万台机器,数十亿文件),主要用于阿里云的大数据计算服务(ODPS)。
    2. 块存储,支持阿里云的云盘业务,包括全SSD云盘,混合存储云盘,SATA云盘,目前无论是收费用户数、营收、数据量、机器规模 在国内都无出其右。
    3. 对象存储,成功入围Gartner最新一期全球公共云存储服务魔力象限,也是首家入选的中国云服务商。
    4. 表格存储、SLS、归档服务、NAS、消息队列服务等大量的新业务均基于盘古存储平台。 目前所有这些业务均发展迅猛,无论是用户量,数据量,机器数,每年都是超过100%的增长,完全在风口上,而且随着云计算的深入发展,大量的企业上云,这个趋势还在不断增强。整个业务的国际化发展非常好,目前在美国、德国、日本、澳大利亚、新加坡、迪拜、印度、中国香港、中国台湾 等地均有部署和大量的国际客户。

团队

  • 大家都坚持用事实,用数据说话,沟通协作便捷高效。业务在飞速发展,有足够的丰腴土地待开发,所以基本上每个人都能独立own一块,并且能长期专注的深耕下去,个人能取得长足的发展,但并不为每个人设置硬的界限,崇尚志愿者文化,遇到挑战性的问题,欢迎任何人挺身而出来承担,大家协调资源帮他拿到结果,新人很容易脱颖而出。
  • 团队大牛多,有ACM世界冠军,中科院的研究员,7位博士。人员非常稳定,流失率低,超过一半的同事干了4年以上,对我们而言,这个不仅仅是一份工作,而是一个事业,我们信仰云计算。
  • 特别声明一下团队是有妹子的,已有三位,我们欢迎更多。
  • 当前我们正在进行下一代分布式存储平台的研发,计划做出革命性,大幅领先市场的产品,求贤若渴,热烈欢迎各路精英加盟。

工作环境

  • 对于用户,数据安全就是生命。存储是个高危行业,我们从不讳言承受着巨大压力,期待你有足够的抗压能力。
  • 不强制加班,但确有加班,我们更期待高效率的工作而不是加班,不搞996,工作时间弹性。
  • 工作地点 北京、杭州、上海,入职上海的同学前期需要到杭州熟悉业务。

岗位描述

  1. 下一代分布式存储系统的架构设计与实现,研发大幅领先市场的存储。

  2. 高可靠、高可用 系统的设计开发与演进,黑天鹅事件的规避预防以及损失控制,降低爆炸半径。数据是用户的生命,绝对不能错,不能丢,而且要高可用(发生不可用故障后,百倍赔偿),众所周知硬件都会发生故障,我们碰到过网卡错,CPU错,内存错,网络错,磁盘/raid卡出错是家常便饭,更不用说内核错了,太常见了,在这里你会碰到太多的险恶性问题(事前难以预料,只有发生了才会意识到的问题),我们的工作就是要在这些不可靠的软硬件环境下为用户提供高可靠,高可用的存储服务。

  3. 对接新的硬件(NVME, NVDIMM,3DXPOINT, RDMA网络),提升资源利用率,降低硬件成本,为用户提供更便宜的存储。当前公司的存储产品每年都大幅降价,让利于客户,这要求我们在软件层面更高效的用好硬件资源,为产品开创更大的让利空间。

  4. 用户对IO性能的追求永无止境,我们一直致力于降低IO latency, 提升吞吐量,其中涉及到网络性能优化,单机存储的性能优化,例如我们正在研发的用户态文件系统。你做的每1us的优化,都会惠及海量的用户。

  5. 关注工程质量,严格的代码review, UT/ST测试,每位开发者都要对自己的代码负责,你就是最后的守夜人。

  6. 倾听用户的声音,去伪存真,将其转化为合理的需求,制定开发计划,并推动上线。

岗位要求

  1. 热爱代码,追求高品质代码,对工程质量有深刻认识。积极主动,遇到不好的代码,鼓励每个人动手修正,不管是否你写的。

  2. 坚毅,有足够的耐力。云计算是一场长征,有太多的困难要克服,有太多的坑要趟,没有足够的耐力很难坚持下来,如今团队内已经有多个马拉松爱好者。

  3. 用数据说话,用数理逻辑服人,整个团队都用这种方式沟通,你会发现沟通会非常简洁高效。

  4. 将物理极限作为系统的极限,不轻言不可能,我们偏好追求极致的人。

  5. 思维活跃,能根据现状提出新的想法,对于和团队大方向一致的想法我们会尽力协调资源帮你实现这个想法。

  6. 我们主要使用C/C++ 来工作。

  7. 性格开朗,具有较强的组织能力,能活跃团队氛围,丰富团队生活,组织高质量团建的,是加分项。

  8. 熟悉分布式系统,有高可用系统经验,熟悉linux kernel , IO 虚拟化, SSD硬件,或者有存储背景, 是加分项。

  9. 自信,以上条件不能完全具备也没有关系,我们欢迎自信的人。

联系人:吴均平 邮箱: junping.wu@alibaba-inc.com

目录
相关文章
|
12天前
|
机器学习/深度学习 分布式计算 数据挖掘
MaxFrame 性能评测:阿里云MaxCompute上的分布式Pandas引擎
MaxFrame是一款兼容Pandas API的分布式数据分析工具,基于MaxCompute平台,极大提升了大规模数据处理效率。其核心优势在于结合了Pandas的易用性和MaxCompute的分布式计算能力,无需学习新编程模型即可处理海量数据。性能测试显示,在涉及`groupby`和`merge`等复杂操作时,MaxFrame相比本地Pandas有显著性能提升,最高可达9倍。适用于大规模数据分析、数据清洗、预处理及机器学习特征工程等场景。尽管存在网络延迟和资源消耗等问题,MaxFrame仍是处理TB级甚至PB级数据的理想选择。
39 4
|
21天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
57 2
|
29天前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
阿里云容器服务ACK提供强大的产品能力,支持弹性、调度、可观测、成本治理和安全合规。针对拥有IDC或三方资源的企业,ACK One分布式云容器平台能够有效解决资源管理、多云多集群管理及边缘计算等挑战,实现云上云下统一管理,提升业务效率与稳定性。
|
2月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
4月前
|
运维 Kubernetes 调度
阿里云容器服务 ACK One 分布式云容器企业落地实践
3年前的云栖大会,我们发布分布式云容器平台ACK One,随着3年的发展,很高兴看到ACK One在混合云,分布式云领域帮助到越来越多的客户,今天给大家汇报下ACK One 3年来的发展演进,以及如何帮助客户解决分布式领域多云多集群管理的挑战。
阿里云容器服务 ACK One 分布式云容器企业落地实践
|
3月前
|
存储 边缘计算 城市大脑
阿里云入选Gartner®分布式混合基础设施魔力象限
Gartner正式发布了《分布式混合基础设施魔力象限》(Magic Quadrant™ for Distributed Hybrid Infrastructure),阿里云在入选的中国厂商中于执行能力(纵轴)和愿景完整性(横轴)上均处在最高、最远的位置。
|
3月前
|
存储 边缘计算 城市大脑
阿里云入选Gartner®分布式混合基础设施魔力象限
Gartner正式发布了《分布式混合基础设施魔力象限》(Magic Quadrant™ for Distributed Hybrid Infrastructure),全球共9家厂商入围,阿里云成功入选,位居利基者(Niche Players)象限。
|
4月前
|
人工智能 Kubernetes Cloud Native
深度对话 解锁阿里云分布式云原生技术落地新姿势
深度对话 解锁阿里云分布式云原生技术落地新姿势
深度对话 解锁阿里云分布式云原生技术落地新姿势
|
4月前
|
存储 运维 应用服务中间件
阿里云分布式存储应用示例
通过阿里云EDAS,您可以轻松部署与管理微服务应用。创建应用时,使用`CreateApplication`接口基于模板生成新应用,并获得包含应用ID在内的成功响应。随后,利用`DeployApplication`接口将应用部署至云端,返回"Success"确认部署成功。当业务调整需下线应用时,调用`ReleaseApplication`接口释放资源。阿里云EDAS简化了应用全生命周期管理,提升了运维效率与可靠性。[相关链接]提供了详细的操作与返回参数说明。
|
5月前
|
Cloud Native 关系型数据库 分布式数据库
中国金融分布式数据库,阿里云双料冠军!
中国金融分布式数据库,阿里云双料冠军!
92 7
下一篇
开通oss服务