直击系统领域顶会OSDI'18现场,探秘阿里集团基础设施团队

简介:

作为系统领域顶会双星之一的OSDI(USENIX Symposium on Operating Systems Design andImplementation),当地时间今年10月8日-10日在在美国加州Carlsbad的Omni La Costa Resort & Spa酒店举办了其第13次会议OSDI'18。

本次大会参会人数达到了创纪录的650多人,投递论文257篇,收录47篇,录取率不到20%。另外有83个Poster和6个Demo。本届OSDI三篇BestPaper分别来自:

 ●   UnderstandingFailures (REPT:Reverse Debugging of Failures in Deployed Software, Weidong Cui et al)
 ●   OperatingSystem(LegoOS:A Disseminated, Distributed OS for Hardware Resource Disaggregation,YizhouShan,et al)
 ●   Debugging(Orca:Differential Bug Localization in Large-Scale Services,Ranjita Bhagwan)

三大OS传统领域,组委会可谓初心不忘,聚焦系统层面的创新。

3篇Best paper中两篇的第一作者都是华人学生,也是一个令人欣喜的现象。值得一提的是,Operating System的Best Paper:LegoOS: A Disseminated, DistributedOS for Hardware Resource Disaggregation, Yizhou Shan, et al,引用了我们之前发布的Alibaba cluster trace佐证下一代resource disaggregation的设计,说明阿里巴巴的基础技术能力和场景已经开始得到顶级学术会议的重视。

阿里巴巴对本次会议进行了最高级别的金牌赞助,并举办了专题研讨会(BoF),分别介绍了:

 ●   阿里巴巴OS开发优化和创新方面的一些最新进展;
 ●   阿里云存储系统盘古2.0;
 ●   阿里巴巴的资源管理系统Sigma在日常和双十一期间进行的多种优化和面临挑战。

研讨会现场吸引了来自全世界数十位专家学者,在系统软件事业部系统性能研究员Kingsum的主持下,大家以演讲介绍加自由讨论的形式,对上述3个话题展开了热烈的讨论。

99d62797fe26c9de577cf41ab40d2a277b23429a

阿里巴巴OS的开发与探索

Alikernel是阿里巴巴为了更好支持自身业务发展,应对多种技术挑战而进行开发和优化的操作系统内核。随着阿里巴巴集团服务器数量、业务多样性、应用混部规模的不断提高,操作系统和内核需要面临的挑战日趋增多,除了上述提到的规模问题,我们还有快速迭代、成本节约和创新性(例如serverless)的要求。

针对这些需求,操作系统资深技术专家绍康介绍了内核开发快速迭代、资源隔离、性能优化、以及在Unikernel方向上的创新探索(AliUK)。

11dedd1e8312a2b45e022fa693fa2a278c781c60

AliUK 架构

新一代分布式存储系统盘古2.0

盘古2.0是已经在阿里巴巴广泛部署的新一代分布式存储系统,具有低延时、高IOPS的特性。盘古2.0的多级设计可以满足不同应用在多种场景下的需求,通过引入纯用户态的存储引擎USSOS和软硬件协同设计等机制,盘古2.0可以有效支持创新存储介质和RDMA网络,并大幅度提高CPU效率和NVM支持。

阿里云分布式存储资深技术专家储道,从现状、需求、设计、架构、新特性以及性能等多个方面,列举了盘古2.0的诸多引人注目的特性。

48d4a41b660b342c634cd87e3b831e1a70bb4ec1

新一代存储系统在成本控制、性能和QoS保障方面达到的要求

阿里巴巴超大规模资源管理系统Sigma

Sigma是阿里巴巴集团内部的资源管理系统,是阿里巴巴集团云化战略的关键系统,也是阿里巴巴集团最重要的基础设施之一。它服务于阿里巴巴集团众多经济体,如天猫、淘宝、广告、物流等。也负责双11等电商促销场景下的资源管理,从2011年起,就从容量规划、稳定性、成本控制等多个方面应对双11的极端技术挑战。

在这次分享中,来自系统软件事业部调度系统Sigma的技术专家临石,在Sigma的日常资源管理、双十一资源资源准备和稳定性、以及整个集群的cost efficiency几个方面,介绍了Sigma作出一些优化和面临的挑战。

6b66a39aaf40394e5f0a619117f911897a23240c

Sigma-Fuxi混部架构图

Sigma的日常管理。混部方面,阿里巴巴通过资源隔离、优先级控制、多调度器协调等方式,将混部的平均CPU利用率提高了45%以上,相对之前10%的在线服务平均资源利用率,节省了大量成本。在高质量决策方面,Sigma引入强化学习机制,克服了传统启发式调度算法容易实现、难以优化的问题,大幅度资源部署率提高(在线调度场景)。同时,Sigma还引入了动态额度机制,通过分析业务负载和应用容器的能力,实现了更加激进的动态资源额度控制,有效提高了整体资源利用率。

在双十一资源准备方面。Sigma通过大量创新手段,大幅度提升了临时负载应对能力(超过100倍日均压力),同时保证了业务的稳定性,为集团节省大量成本的同时,为商业模式的创新提供有有效的技术支持。

后记

尽管研讨会在晚上20:30开始,但是房间还是很快被坐满,与会者对阿里巴巴在系统软件方面的工作十分感兴趣。斯坦福大学Platform Lab的Faculty Director John Ousterhout也参加了本次研讨会。值得一提的是,阿里系统软件事业部不仅仅在和斯坦福进行合作,同时也和很多其他很多高水平学校的老师进行合作。这次研讨会大大提高了这些高水平研究者对阿里巴巴基础设施的了解,我们非常欢迎所有有志之士加入我们,共同打造最稳定、高效的系统软件。



原文发布时间为:2018-10-16

本文作者:临石

本文来自云栖社区合作伙伴“阿里技术”,了解相关信息可以关注“阿里技术”。

相关文章
|
2月前
|
存储 人工智能 程序员
阿里云基础设施技术分享之走进浙大活动圆满结束
2024年12月13日,阿里云技术专家走进浙江大学,举办了一场关于AI与云计算的前沿技术宣讲活动。作为浙江大学计算机学院“人工智能+”创新创业大讲堂的第十五期,活动吸引了大量师生参与。四位专家分别就AI编程、超智融合、云计算网络及应用部署进行了深入分享,激发了师生对未来科技发展的无限憧憬。
|
云安全 供应链 安全
三大亮点剧透!2023首届SecGo云和软件安全大会即将召开
聚焦前沿技术发展趋势 发布云和软件安全系列评估成果
170 0
三大亮点剧透!2023首届SecGo云和软件安全大会即将召开
|
人工智能 运维 安全
职等你来 | 2023春招,牵手阿里云基础设施,期待同行
快~加入阿里云基础设施,一起打开有意思的未来!
职等你来 | 2023春招,牵手阿里云基础设施,期待同行
|
机器学习/深度学习 人工智能 自然语言处理
阿里巴巴高级算法专家威视:组建技术团队的一些思考
本文是阿里巴巴高级算法专家威视从2019年1月底接手CRO线NLP算法团队以来,在团队组建、能力建设、以及管理上的一些思考和实践。
3607 17
阿里巴巴高级算法专家威视:组建技术团队的一些思考
|
人工智能 供应链 算法
研究发布丨工业互联网中台为“王”,究竟有什么门道?
水泥行业每条生产线一年节省成本500万元,钢铁行业一年1吨钢节省5公斤铁,光伏行业质检识别率超过人眼水平——这些都如何实现? 阿里巴巴构建的工业数字中台,将IoT、数据、业务、AI四个中台结合,为制造企业打造“数据操作系统”,提升企业的组织和决策能力,降低过程中创新与试错的成本与风险,助力数字化转型。
|
SQL 安全 NoSQL
阿里云新品发布会周刊第67期 丨 阿里研究员谷朴:警惕软件复杂度困局!
新产品、新版本、新技术、新功能、价格调整,评论在下方,下期更新!关注更多新品发布会!
887 0
阿里云新品发布会周刊第67期 丨  阿里研究员谷朴:警惕软件复杂度困局!
|
人工智能 大数据 区块链
合作阿里两周年 澳门特区五大领域智能化成果初现
19日,记者获得消息称,澳门智能城市项目第一阶段已经成功验收,第二阶段在稳步推进中。自2017年8月和阿里巴巴达成智能城市战略合作以来,澳门特别行政区在交通、医疗、旅游、政务等领域广泛应用云计算以及数字金融技术。
1292 0
合作阿里两周年 澳门特区五大领域智能化成果初现
|
机器学习/深度学习 存储 人工智能
云栖大会顺利落幕,基础设施分论坛完美收官!
为期4天的2017杭州·云栖大会已于14日落下帷幕,本次大会吸引了全球近6万名科技精英,包括67个国家及地区的3000多位海外嘉宾以及近千名国内外媒体,共有超过15万人次现场参会,还有137个国家及地区的超过1500万人通过在线直播观看大会。
4736 0
|
机器学习/深度学习 云计算
100位云计算专家齐聚湖畔大学,就是为了这件事! ——阿里云MVP全球闭门会四大看点抢先看
9月18日,阿里云MVP(最有价值专家)全球闭门会将在湖畔大学举行,共有近100位阿里云MVP参加会议。阿里云技术专家也将到场,进行文化分享和技术交流。
35岁的工程师何去何从,请大大们多多给予帮助
35岁的工程师何去何从,请大大们多多给予帮助 https://bbs.csdn.net/topics/392185987?page=2 本文地址:https://www.
980 0