饿了么:云端调度,饭来张口

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 外卖送餐市场近几年都保持了超过200%的高增长速度。有如团购市场、共享出行市场的“百团大战”,网络订餐经历了低门槛遍地开花、砸钱补贴吸引用户量、精益运营降本增效三个重要阶段。据比达咨询市场分析数据显示,2016年中国第三方餐饮外卖市场格局中,饿了么位居第一,市场份额为34.6%,美团外卖(33.6%)、百度外卖(18.5%)紧随其后,在“白领市场”、“社区市场”、“校园市场”的细分领域中,饿了么均占据榜首位置。

饿了么:云端调度,饭来张口
“云栖奖”获奖人:饿了么CTO 张雪峰
作者:阿里云研究中心 田丰

4376d59d948bb33eae4b8947908b37118c2ff4a5 

外卖送餐市场近几年都保持了超过200%的高增长速度。有如团购市场、共享出行市场百团大网络订餐经历了低门槛遍地开花、砸钱补贴吸引用户量、精益运营降本增效三重要阶段。比达咨询市场分析数据显示,2016年中国第三方餐饮外卖市场格局中,饿了么位居第一,市场份额为34.6%,美团外卖33.6%)、百度外卖18.5%)紧随其后“白领市场社区市场校园市场细分领域中饿了么均占据榜首位置。截至201612月,饿了么业务覆盖1400多个城市,用户超过1亿,各地加盟餐厅超过100万家,日订单量突破900万,旗下“蜂鸟配送”日配送单量超过450万。

独角兽的成长道路上,饿了么面对人工成本高制约业务快速扩张、人工派单速度慢导致高峰期积压订单严重、人工派单随机性引起订单配送时效性差现实问题,而阿里云通过智能派单系统,基于海量历史订单数据、餐厅数据、骑手数据、用户数据等信息实现智能派单,逐步替代调度员的大部分工作。智能派单系统整体全面上线后将释放90%以上人工派单的人力,每年节省人力支出预计超过亿元。

饿了么的IT系统架构伴随业务量飙升进行了三次重大升级

1)起步期(20092013年)饿了么由上海交通大学创始团队起家,发展至35人规模日订单量维持在十万量级IDC+Python”技术组合支撑业务运营,但面临Python人才难觅等困扰。

2)成长期(2014年至2015年):1489月短短2个月日均订单量增长1010万迅猛飙升至100万,业务规模主攻全国200城市,原有IT系统架构压力极大,依靠人肉运维举步维艰,故障波动影响业务,创始人核心技术团队坚守机房运维一线,才勉强扛住100万量级业务订单开始借鉴阿里淘宝架构模式,人员团队也涨至500技术生态从Python扩展至“Java+Python”开发体系人肉支撑百万订单运营到自动化运维筹备同城异地容灾体系

3)规模期(20152017年):201578月,日均订单量从200翻倍,以往积压的问题都暴露出来,技术架构面临大考验,坚定了架构上云的方案,团队扩展至1000架构要承载数百万量级业务时,出现峰值成本、灾备切换IDC远程运维等种种挑战,全面战略转型采用IDC+云计算的混合架构20161225日圣诞节日订单量迎来前所未有的900万单,因此在技术架构上探索多活部署创新研发。

d61482abb9165e2438f97067c95f9033a1343413 

 

为什么选择架构转型上云?饿了么CTO张雪峰先生所说技术架构IDC经典模式发展至混合云模式主要原因是三个关键因素让管理层下定决心上云:

1) 脉冲计算从技术架构配套业务发展分析,网络订餐业务具有明显脉冲计算特征,在每日上午10:0013:00、晚间16:0019:00业务峰值出现,而其他时间则业务量很低,暑假是业务高峰季,20165.17大促,饿了么第一次做秒杀一秒订单15000巨大的波峰波谷计算差异,引发了自建数据中心容量不可调和两难处境,如果大规模投入服务器满足6小时高峰业务,则其余18小时的业务低谷计算资源闲置满足平均业务量,则无法跟上业务快速发展节奏,落后于竞争对手;搞电商大促时,计算资源投入巨大大促之后计算峰值采用自建机房利用率仅10%所以技术团队摸索出用云计算扛营销大促峰值的新模式,采用混合云架构满足 “潮汐业务峰值计算阿里云海量云计算资源弹性随需满足巨大的脉冲计算缺口,这与每年11淘宝引入阿里云形成全球最大混合云架构具有异曲同工的创新价值。

2) 数据量爆炸伴随饿了么近五年业务呈几何级数的爆发式发展,数据量增速更加令人吃惊,是业务量增速的5,每日增量数据接近100TB2015年短短2个月内业务量增长10,数据量增长50上海主生产机房不堪重负30GBDDoS攻击对业务系统造成较大风险,上云成为承载大数据、抗网络攻击的好方法

3) 高可用性挑战众所周知IDC自建系统运维要承担从底层硬件到上层应用的全栈运维运营能力与维修能力,当2015夏天上海数据中心故障发生,主核心交换机宕机时核心交换机Bug同时被触发事故发生到硬件厂商携维修设备打车赶往现场维修的整个过程中,饥饿的消费者无法订餐吃饭,技术团队第一次经历业务中断而束手无策决心大笔投入混合云灾备的建设“吃一堑,长一智”持续向淘宝学习电商生产与灾备架构,以自动化运维替代人肉运维从灾备向多活演进,成为饿了么企业架构转型的必经之路。

4) 大数据精益运营:不论网络打车还是网络订餐,共享服务平台脱颖而出关键成功要素是智能调度算法,以大数据训练算法提升调度效率,饿了么高峰时段内让百万骑士送餐快递员完成更多订单是算法持续优化的目标,而这背后隐藏着诸多复杂因素,包括考虑餐厅骑士、消费者三者的实时动态位置关系,新订单插入现有骑士的行进路线中,估计每家餐厅出餐时间,每个骑手的行进速度、道路熟悉程度各不相同,新老消费者获客成本、高价低价订单的优先级皆不相同。种种考量因素合并到一起,对于人类调度员来说,每天中午和晚上的高峰都是巨大的挑战。以上海商城路配送站为例,一个调度员每6秒钟就要调度1单,他需要考虑骑手已有订单量、路线熟悉度等。因此可以说,这份工作已经完全不适合人类。但对人工智能而言,阿里云ET则非常擅长处理这类超复杂、大规模实时要求高的非人问题。

fd7ad9452add9530c224bc9f3b646e2711990336 

 

   饿了么是中国最大的在线外卖和即时配送平台,日订单量900万单、180骑手、100万家餐饮店,既是史无前例计算存储挑战人无我有战略发展机遇。饿了么携手阿里云人工智能团队通过海量数据训练优化全球最大实时智能调度系统。在基础架构层云计算解决弹性支撑业务量波动的基础生存问题,在数据智能层利用大数据训练核心调度算法提升餐饮店的商业价值才是业务决胜的技术神器

在针对大数据资源专家+机器运营分析中,不断发现新的特征

1) 区域差异性:饿了么与阿里云联合研发小组测试中发现有2个配送站点出现严重超时问题。后来才知道:2个站点均在成都,当地人民喜欢早、中餐一起吃,高峰从11点就开始了。习惯了北上广节奏的ET到成都就懵了。据阿里云人工智能专家闵万里分析:“不存在一套通用的算法可以适配所有站点,所以我们需要让ET自己学习或者向人类运营专家请教当地的风土人情、饮食习惯”。除此之外,饿了么覆盖的餐厅不仅有高大上的连锁店,还有大街小巷的各类难以琢磨的特色小吃,难度是其他智能调度业务的数倍。

2) 复杂路径规划吃一口热饭有多难?送餐路径规划比驾车出行路径规划难度更高要考虑“骑士地图熟悉程度、天气状况、拼单效率送餐顺序、时间对客户满意度影响、送达写字楼电梯等待时间等各种实际情况,究竟ET是如何实现智能派单并确保效率最优的呢?简单来说,ET会将配送站新接订单插入到每个骑手已有的任务中,重新规划一轮最短配送路径,对比哪个骑手新增时间最短。为了能够准确预估新增时间,ET需要知道全国100万家餐厅的出餐速度、超过180万骑手各自的骑行速度、每个顾客坐电梯下楼取餐的时间。一般来说,餐厅出餐等待时间占到了整个送餐时间的三分之一。ET要想提高骑手效率,必须准确预估出餐时间以减少骑手等待,但又不能让餐等人,最后饭凉了。饿了么旗下蜂鸟配送准时达服务单均配送时长缩短至30分钟以内

3) 天气特殊影响:天气等环境因素对送餐响应时间影响显著,要想计算骑手的送餐路程时间,ET需要知道每个骑手在不同区域、不同天气下的送餐速度。如果北京雾霾,ET能看见吗?双方研发团队为ET内置了恶劣天气的算法模型。通常情况下,每逢恶劣天气,外卖订单将出现大涨,对应的餐厅出餐速度和骑手骑行速度都将受到影响,这些ET都会考虑在内。如果顾客在下雪天点个火锅呢?ET也知道,将自动识别其为大单,锁定某一个骑手专门完成配送。

4) 餐饮营销顾问:饿了么整体业务涉及C(消费者)、B餐饮商户D(物流配送)、BD地推营销),以往区域业务开拓考核新店数量,现在会重点关注餐饮外卖健康度,对于营业额忽高忽低、在线排名变化的餐饮店,都需要BD专家根据大数据帮助餐饮店经营者找出原因给出解决建议避免新店外卖刚开始就淹没在区域竞争中,销量平平的新店会离开平台通过机器学习把餐饮运营专家的经验、以及人看不到的隐含规律固化下来,数据决策来发现餐饮店经营问题产品差异定位,餐饮商户尝到甜头,才愿意继续经营。举个例子,饿了么员工都喜欢楼下一家鸡排店的午餐大数据发现这家店的外卖营收并不如实体店那么火爆,9元“鸡排+酸梅汁”是所有人都喜欢的爆款产品,为什么同样菜品遭遇线下火、线上冷呢?数据预警后BD顾问指出线上外卖鸡排产品没有写明含免费酸梅汁一杯关键促销内容导致大多数外卖消费者订一份鸡排一酸梅汁,却收到一份鸡排两杯酸梅汁,体验自然不好。

b6d65c43c6990061d2b8d66dcccbb0a5aae8eda7 

饿了么是数据驱动智能算法调度的自动化生活服务平台,通过O2O数据的在线实时分析,与阿里云人工智能团队不断改进算法,以全局最优取代局部最优,保证平台上所有餐饮商户能享受到数据智能科技红利

c710183f704f0db1c73d8997e13f41576bc08caa 

“上云用数”的外部价值诸多,从饿了么内部反馈来看,上云不仅没有运维团队失去价值,反而带来了云原生应用(Cloud Native Application)云上多活“CDN云端压测安全风控一体化创新路径方案,通过敏捷基础设施(IaaS)、微服务架构(PaaSSaaS)、持续交付管理、DevOps云最佳实践摆脱人肉支撑的种种困境,进而实现更快的上线速度、细致的故障探测和发现、故障时能自动隔离、故障时能够自动恢复、方便的水平扩容。饿了么CTO张雪峰先生说:互联网平台型组织,业务量涨数倍,企业人数稳定降低,才是技术驱动的正确商业模式。

    在不久的将来你每天订餐出行、娱乐、工作留下的大数据驯养无处不在、无所不能智能机器人管家,家庭助理帮你点菜无人机为你送餐,聊天机器人接受你的投诉……当然这个无比美妙未来世界背后,皆有阿里云的数据智能母体ET”

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
自然语言处理 监控 前端开发
飞猪微前端实践:统一运营工作台的解决方案
解决痛点,效能提升,飞猪运营工作台微前端实践力求用技术给业务带来差异化的价值。
飞猪微前端实践:统一运营工作台的解决方案
|
3月前
|
存储 资源调度 Serverless
阿里巴巴经济体核心调度系统“伏羲”设计问题之伏羲系统的功能如何解决
阿里巴巴经济体核心调度系统“伏羲”设计问题之伏羲系统的功能如何解决
96 0
|
资源调度 分布式计算 Kubernetes
给 K8s 装上大数据调度引擎:伏羲架构升级 K8s 统一调度
飞天伏羲作为有着十多年历史的调度团队,在服务好 MaxCompute 大数据平台的过程中,一直在不断通过自我革新赶超业界先进水平,我们经历了 Fuxi 2.0 的这样的大规模升级,今天通过 K8s 统一调度项目又再次实现了系统架构的蜕变,将大数据平台强大的调度能力赋予 K8s 系统,同时去拥抱 K8s 周边丰富的生态。除了集团弹内集群,将来我们在公共云、专有云等多个场景,也会以 K8s 统一调度的方式进行输出,以更好地服务云上的用户,敬请期待!
1717 11
给 K8s 装上大数据调度引擎:伏羲架构升级 K8s 统一调度
|
SQL 分布式计算 调度
日均调度 10W+ 任务实例,DolphinScheduler 在蔚来汽车一站式数据治理开发平台的应用改造
日均调度 10W+ 任务实例,DolphinScheduler 在蔚来汽车一站式数据治理开发平台的应用改造
208 0
|
监控 Java Unix
支付宝精细化调度的技术演进
支付宝精细化调度的技术演进
158 0
|
存储 大数据 Serverless
首次!统一调度系统规模化落地,全面支撑阿里巴巴双 11 全业务
今年双 11 首次规模化亮相的统一调度,通过一套调度协议、一套系统架构,统一管理底层的计算、存储、网络资源,超大规模、高效率、自动化的资源弹性,实现了业界新的突破。在离线混部、离在线混部、新的快上快下技术,减少数万台服务器采购,带来数亿计的资源成本优化和大促效率提升。
1812 3
首次!统一调度系统规模化落地,全面支撑阿里巴巴双 11 全业务
|
消息中间件 SQL 监控
从 0 到 1 搭建大数据平台之调度系统
从 0 到 1 搭建大数据平台之调度系统
859 0
|
数据处理
「连接平台」钉钉与电商ERP系统打通,流程超自动化助力业务起飞
数环通基于连接平台iPass能力完成了与钉钉的深度融合,打通了电商平台与企业ERP系统之间的数据桥梁,应用通过连接平台的数据处理和字段匹配做串联,实现数据线上线下自动同步与集成,提高企业运营管理效率和准确性,为企业数字化赋能升级。
1398 0
|
存储 人工智能 负载均衡
千人坐席的云呼叫中心,是如何实现大容量高并发的?
“我们的系统正在修复中,请稍后再拨…” 王先生刚刚在某大型银行的APP端订购了一款理财产品,却始终无法完成支付,于是拨通了银行的客服电话,谁知电话那端却传来这样的回复。连续拨打几次之后,王先生放弃了购买。
|
5G 调度 图形学
3D实时云渲染系统搭建部署建设方案
依托于3D实时云渲染技术,目前这类平台对于很多设计或者影视特效公司来说,效率得到了极大的提升。在一些影视特效、动漫、设计、unity模型等领域,需要将设计好的模型呈现出来立体的效果,以前是在电脑上,利用本地设备性能去执行这项工作。而随着5G和云服务的发展,使用**云端服务器**来完成这些工作,可以大大提高其工作效率。
1124 0
3D实时云渲染系统搭建部署建设方案