为了让网速更快,阿里工程师与顶级数学家有一个大胆猜想

简介: 2008年,当英国数学家Frank Kelly凭借原创性的网络理论拿下运筹优化学的“诺贝尔” -- 冯·诺依曼理论奖,可能并不会想到,11年后,他还将亲自参与“重塑”这一心血之作的全过程。

2008年,当英国数学家Frank Kelly凭借原创性的网络理论拿下运筹优化学的“诺贝尔” -- 冯·诺依曼理论奖,可能并不会想到,11年后,他还将亲自参与“重塑”这一心血之作的全过程。

邀请他共建新理论的朋友是一群从读博期间就熟读Frank Kelly著作,受其影响的年轻人。同时,他们的另一个身份是阿里巴巴工程师。

10


阿里代表正在SIGCOMM 2019做分享

近日,他们提出了双方合作的研究成果HPCC,对高性能网络的拥塞控制这一世界级难题提出了一种全新的算法,同时在世界顶级的学术会议SIGCOMM 2019上发表,这也标志着阿里巴巴在基础研究上又一重大突破。

这样的CP结缘于阿里云栖大会数学大赛。年近6旬的Frank Kelly是全球知名的数学家,曾因成功通过经济学理论建模和解释了互联网技术中最基础的传输协议TCP(Transportation Control Protocol)拥塞控制而声名大噪:他用经济学理论对TCP的收敛性和公平性做出分析,从理论上论证了TCP在互联网环境下的稳定性和有效性。而在当时,张铭(现为阿里云智能研究员)正在普林斯顿大学的攻读博士,Kelly教授的著作正是他常读的经典论文之一,其中不少观点对张铭日后的网络研究大有启发。

11


Frank Kelly与阿里HPCC相关论文作者合影

随着云计算的迅猛发展,面向大规模数据中心的高性能网络架构正成为主流,FrankKelly教授当年所论证的TCP拥塞控制在新一代高性能网络中面临严峻挑战,这也正是当下数据中心网络里面临的核心难题之一。

2018年9月,Frank Kelly受邀到杭州参加阿里数学大赛开幕仪式,在与张铭所属的阿里基础设施网络团队交流中,了解到目前高速网络拥塞控制遇到的挑战。

12


Frank Kelly与阿里工程师交流

作为拥塞控制的早期研究者,Kelly教授对此产生了浓厚的兴趣。凭借Kelly教授对网络理论的敏锐嗅觉和张铭团队对高性能数据中心网络的丰富实战经验,双方不约而同产生了一个大胆的猜想:目前主流的高速网络拥塞控制算法在理论上很可能无法证明其稳定性,且这就是造成一系列工程实践问题的根本原因。

于是双方决定展开合作,共同解决大规模、高性能网络拥塞控制这一世界级难题。从此之后,阿里西雅图办公室与英国剑桥大学之间的电话经常响起,无数想法在其间碰撞。

历经4个多月的跨洋合作,双方终于设计出了一套全新的高性能网络拥塞控制算法HPCC。不同于当前主流的拥塞控制算法,HPCC不但在理论上有稳定性,高效性和公平性的保证,而且在拥塞场景下的网络延迟比现有的算法好上几十倍到上百倍。

在世界各地,各种各样的电脑运行着各自不同的操作系统,这些电脑在表达同一种信息的时候所使用的方法是千差万别。因而需要通过建立标准的网络协议把各种计算机连接起来,才能完成计算机间相互交流,TCP(Transportation Control Protocol)协议应运而生。

TCP就像是给计算机世界里铺设了统一的道路,使得信息的实时传输成为可能。在现实的交通网络里,只有宽阔的道路,没有红绿灯,没有好的交通规则和交通控制和疏导系统是不够的。计算机世界里同理,网络带宽资源是有限的,阿里巴巴工程师和Kelly教授设计了全新的拥塞控制算法,就好比是数据中心网络里的“红绿灯”系统,保证每台服务器的流量是可控且公平的,既不会因为带宽资源过少造成网络卡顿, 也不会让某一方获得过大的带宽,阻塞其他的流量。

在有着浓厚的理想主义和现实主义色彩的阿里,人们对技术创新的要求不仅仅是停留在实验室,而是真正用技术创新去服务于实际生产。于是,在HPCC初见成效之际,阿里网络团队决定在模拟真实生产环境的软硬件上,实现和测试这一新算法。

经过精巧的软硬件设计和4万多行代码的编写,阿里网络团队仅仅用2个月就快速和高效地实现了HPCC及相关的协议栈原形。实验表明,HPCC不但可以在现有硬件上高效率的实现,而且其实际效果和理论分析的结果高度吻合。这意味着HPCC为下一代高性能网络拥塞控制开启了一个全新的研究思路和方向,并将对云计算网络的设计和运营产生长远和深刻的影响。

阿里工程师们与Kelly教授的这次合作依稀让人感觉时空交织的惊奇与美妙。50后Kelly的著作启发了70后的张铭博士的博士研究工作,张铭又在多年后带领着团队里的80后90后年轻人与Kelly并肩作战,在新一代网络技术的浪潮中挑战传统,面向未来。

对基础研究的投入和支持不能只停留在理论层面,还需要联合一线工程师与应用场景的紧密结合。也许这正是阿里巴巴成立达摩院支持基础研究的原因。正如阿里云智能总裁,达摩院院长张建锋在2019年阿里云峰会上所说:“(阿里巴巴)全集团的科研力量将融会贯通,达摩院的能力与云全面结合。未来还将加大研发投入,扩大云的技术代差优势。”

随着阿里巴巴技术实力的崛起和对基础研究的重视,我们有足够的理由相信,未来如这样的神奇之旅,未完待续。

相关文章
|
SQL
工作中的成长是从摆脱低水平勤奋开始的吗?
成长的本质是自我革新,成长就是在不断变化中的积极面。深度思考、目标设定、自律实践、持续学习、总结反思等步骤可以帮助我们成长,同时也需要避免陷入低水平勤奋的陷阱,不要忙于行动而忽视了反思和学习。
151 1
|
NoSQL 算法 网络协议
二战腾讯倒在三面:我意识到自己与一线大厂程序员的差距
简单说一下吧,本人疫情还没开始时面试过一次鹅厂,在MySQL、redis这方面惨败,经过半年的沉淀,加上对MySQL,redis和分布式这块的补齐,终于重拾面试信心,再次出征。
|
前端开发 Android开发
我奇怪的安卓开发历程(内含本人不太成熟的技术观)(四)
工作一天下来,最大的收获便是我发现项目写了半年我还是不知道这是个啥架构的,通过几次和同事沟通交流,以及浏览许多介绍和实例MVP、MVVM架构的文章,还是不了了之,当然,不能否认的是同事认为这是MVP架构的项目,我也挺倾向这个观点。
|
程序员 开发工具 Android开发
我奇怪的安卓开发历程(内含本人不太成熟的技术观)(三)
半年的开发工作通过统计git的提交记录发现其实我提交行数最多的项目也就1228行:
108 0
|
分布式计算 Java Hadoop
经常抱怨在公司学不到技术,学的技术没有使用场景怎么破?
经常抱怨在公司学不到技术,学的技术没有使用场景怎么破?
137 0
|
存储 Android开发
我奇怪的安卓开发历程(内含本人不太成熟的技术观)(二)
初出茅庐的我在开发工作中成长,收获了许多,但其实也引出了一堆问题。
111 0
|
存储 运维 大数据
刀片服务器在尴尬中期待破局 谁能给出最佳的答案?
刀片服务器在尴尬中期待破局 谁能给出最佳的答案?
刀片服务器在尴尬中期待破局 谁能给出最佳的答案?
|
设计模式 缓存 算法
公司新来的00后真是卷王,工作没两年,跳槽到我们公司起薪18K都快接近我了
都说00后躺平了,但是有一说一,该卷的还是卷。这不,前段时间我们公司来了个00后,工作没两年,跳槽到我们公司起薪18K,都快接近我了。后来才知道人家是个卷王,从早干到晚就差搬张床到工位睡觉了。
188 0
公司新来的00后真是卷王,工作没两年,跳槽到我们公司起薪18K都快接近我了
|
设计模式 算法 架构师
狂补计算机基础知识,让我上了瘾,想要尽快和同龄人拉开差距,必须这么干,才有戏!!!!
狂补计算机基础知识,让我上了瘾,想要尽快和同龄人拉开差距,必须这么干,才有戏!!!!
179 0
职场经典9忠告:三分钟让你少走5年弯路
  成功等不急你翻N次跟头,再爬起来继续勇敢折腾。对于胸怀梦想的青年工程师们,包括目前势头生猛的80后们——步步为营才是职场王道。职场经典9忠告,三分钟的阅读和品味或许能够让你少奋斗5年。
1398 0