饿了么EMonitor演进史

本文涉及的产品
云原生网关 MSE Higress,422元/月
性能测试 PTS,5000VUM额度
Serverless 应用引擎免费试用套餐包,4320000 CU,有效期3个月
简介: 可观测性作为技术体系的核心环节之一,跟随饿了么技术的飞速发展,不断自我革新。

序言


时间回到2008年,还在上海交通大学上学的张旭豪、康嘉等人在上海创办了饿了么,从校园外卖场景出发,饿了么一步一步发展壮大,成为外卖行业的领头羊。2017年8月饿了么并购百度外卖,强强合并,继续开疆扩土。2018年饿了么加入阿里巴巴大家庭,与口碑融合成立阿里巴巴本地生活公司。“爱什么,来什么”,是饿了么对用户不变的承诺。


饿了么的技术也伴随着业务的飞速增长也不断突飞猛进。据公开报道,2014年5月的日订单量只有10万,但短短几个月之后就冲到了日订单百万,到当今日订单上千万单。在短短几年的技术发展历程上,饿了么的技术体系、稳定性建设、技术文化建设等都有长足的发展。各位可查看往期文章一探其中发展历程,在此不再赘述:



而可观测性作为技术体系的核心环节之一,也跟随饿了么技术的飞速发展,不断自我革新,从“全链路可观测性ETrace”扩展到“多活下的可观测性体系ETrace”,发展成目前“一站式可观测性平台EMonitor”。



EMonitor经过5年的多次迭代,现在已经建成了集指标数据、链路追踪、可视化面板、报警与分析等多个可观测性领域的平台化产品。EMonitor每日处理约1200T的原始可观测性数据,覆盖饿了么绝大多数中间件,可观测超5万台机器实例,可观测性数据时延在10秒左右。面向饿了么上千研发人员,EMonitor提供精准的报警服务和多样化的触达手段,同时运行约2万的报警规则。本文就细数饿了么可观测性的建设历程,回顾下“饿了么可观测性建设的那些年”。



1.0:混沌初开,万物兴起


翻看代码提交记录,ETrace项目的第一次提交在2015年10月24日。而2015年,正是饿了么发展的第七个年头,也是饿了么业务、技术、人员开始蓬勃发展的年头。彼时,饿了么的可观测性系统依赖Zabbix、Statsd、Grafana等传统的“轻量级”系统。而“全链路可观测性”正是当时的微服务化技术改造、后端服务Java化等技术发展趋势下的必行之势。


我们可观测性团队,在调研业界主流的全链路可观测性产品--包括著名的开源全链路可观测性产品“CAT”后,吸取众家之所长,在两个多月的爆肝开发后,推出了初代ETrace。我们提供的Java版本ETrace-Agent随着新版的饿了么SOA框架“Pylon”在饿了么研发团队中的推广和普及开来。ETrace-Agent能自动收集应用的SOA调用信息、API调用信息、慢请求、慢SQL、异常信息、机器信息、依赖信息等。下图为1.0版本的ETrace页面截图。


image.png

5oglrioute

Sep1315.001502

14.54p

12.08

06100

151.00

2100

09:00

BArinoSCFwceptan

Buine`sExceptan


在经历了半年的爆肝开发和各中间件兄弟团队的鼎力支持,我们又开发了Python版本的Agent,更能适应饿了么当时各语言百花齐放的技术体系。并且,通过和饿了么DAL组件、缓存组件、消息组件的密切配合与埋点,用户的应用增加了多层次的访问信息,链路更加完整,故障排查过程更加清晰。


整体架构体系


ETrace整体架构如下图。通过SDK集成在用户应用中的Agent定期将Trace数据经Thrift协议发送到Collector(Agent本地不落日志),Collector经初步过滤后将数据打包压缩发往Kafka。Kafka下游的Consumer消费这些Trace数据,一方面将数据写入HBase+HDFS,一方面根据与各中间件约定好的埋点规则,将链路数据计算成指标存储到时间序列数据库-- LinDB中。在用户端,Console服务提供UI及查询指标与链路数据的API,供用户使用。


1.0架构

ETrace1

ClientApp

Agent

Ul访问

Console

Collector

查询

Kafka

Consumer

链路存储

指标存储

时序数据库

HBase+HDFS

LinDB


全链路可观测性的实现


所谓全链路可观测性,即每次业务请求中都有唯一的能够标记这次业务完整的调用链路,我们称这个ID为RequestId。而每次链路上的调用关系,类似于树形结构,我们将每个树节点上用唯一的RpcId标记。


全链路可观测性的实现

某个调用链路

生成的调用树

网关层

App1

Requestld:12345678

Requestld:12345678

/makeorder

RpclD:1

Data

Rpcld

App3

业务应用

1.2

1.1

Requestld:12345678

App2

/user_info

Rpcld:1.2

Data

Requestld:12345678

/check_chart

1.2.1

1.1.1

Rpcld:1.1

App4

Data

Requestld:12345678

/promotion

Rpcld:1.2.1

Data

1.2.1.1

中间件

Redis

DAL2

Requestld:12345678

Requestld:12345678

mget

DBQuery

Rpcld:1.1.1Data

Data

Rpcld:1.2.1.1


如图,在入口应用App1上会新建一个随机RequestId(一个类似UUID的32位字符串,再加上生成时的时间戳)。因它为根节点,故RpcId为“1”。在后续的RPC调用中,RequestId通过SOA框架的Context传递到下一节点中,且下一节点的层级加1,变为形如“1.1”、“1.2”。如此反复,同一个RequestId的调用链就通过RpcId还原成一个调用树。


也可以看到,“全链路可观测性的实现”不仅依赖与ETrace系统自身的实现,更依托与公司整体中间件层面的支持。如在请求入口的Gateway层,能对每个请求生成“自动”新的RequestId(或根据请求中特定的Header信息,复用RequestId与RpcId);RPC框架、Http框架、Dal层、Queue层等都要支持在Context中传递RequestId与RpcId。


ETrace Api示例


在Java或Python中提供链路埋点的API:

/*记录一个调用链路/Transaction trasaction = Trace.newTransaction(String type, String name);// business codestransaction.complete();/*记录调用中的一个事件/Trace.logEvent(String type, String name, Map<String,String> tags, String status, String data)/*记录调用中的一个异常/Trace.logError(String msg, Exception e)


Consumer的设计细节


Consumer组件的核心任务就是将链路数据写入存储。主要思路是以RequestId+RpcId作为主键,对应的Data数据写入存储的Payload。再考虑到可观测性场景是写多读少,并且多为文本类型的Data数据可批量压缩打包存储,因此我们设计了基于HDFS+HBase的两层索引机制



如图,Consumer将Collector已压缩好的Trace数据先写入HDFS,并记录写入的文件Path与写入的Offset,第二步将这些“索引信息”再写入HBase。特别的,构建HBase的Rowkey时,基于ReqeustId的Hashcode和HBase Table的Region数量配置,来生成两个Byte长度的ShardId字段作为Rowkey前缀,避免了某些固定RequestId格式可能造成的写入热点问题。(因RequestId在各调用源头生成,如应用自身、Nginx、饿了么网关层等。可能某应用错误设置成以其AppId为前缀RequestId,若没有ShardId来打散,则它所有RequestId都将落到同一个HBase Region Server上。)


在查询时,根据RequestId + RpcId作为查询条件,依次去HBase、HDFS查询原始数据,便能找到某次具体的调用链路数据。但有的需求场景是,只知道源头的RequestId需要查看整条链路的信息,希望只排查链路中状态异常的或某些指定RPC调用的数据。因此,我们在HBbase的Column Value上还额外写了RPCInfo的信息,来记录单次调用的简要信息。如:调用状态、耗时、上下游应用名等。


此外,饿了么的场景下,研发团队多以订单号、运单号作为排障的输入,因此我们和业务相关团队约定特殊的埋点规则--在Transaction上记录一个特殊的"orderId={实际订单号}"的Tag--便会在HBase中新写一条“订单表”的记录。该表的设计也不复杂,Rowkey由ShardId与订单号组成,Columne Value部分由对应的RequestId+RpcId及订单基本信息(类似上文的RPCInfo)三部分组成。


如此,从业务链路到全链路信息到详细单个链路,形成了一个完整的全链路排查体系。


consumer的设计细节(续)

Orderld

Requestld+Rpcld

Reguestld

HBase

HBase

HBase

链路表

订单表

链路表

HBase

HDFS

HDFS

链路表

链路原文

链路原文

HDFS

链路原文

排查整体链路

定位单次调用

排查业务故障


Consumer组件的另一个任务则是将链路数据计算成指标。实现方式是在写入链路数据的同时,在内存中将Transaction、Event等数据按照既定的计算逻辑,计算成SOA、DAL、Queue等中间件的指标,内存稍加聚合后再写入时序数据库LinDB。


指标存储:LinDB 1.0


应用指标的存储是一个典型的时间序列数据库的使用场景。根据我们以前的经验,市面上主流的时间序列数据库-- OpenTSDB、InfluxDB、Graphite--在扩展能力、集群化、读写效率等方面各有缺憾,所以我们选型使用RocksDB作为底层存储引擎,借鉴Kafka的集群模式,开发了饿了么的时间序列数据库--LinDB。


指标采用类似Prometheus的“指标名+键值对的Tags”的数据模型,每个指标只有一个支持Long或Double的Field。某个典型的指标如:

COUNTER: eleme_makeorder{city="shanghai",channel="app",status="success"} 45


我们主要做了一些设计实现:

  • 指标写入时根据“指标名+Tags”进行Hash写入到LinDB的Leader上,由Leader负责同步给他的Follower。
  • 借鉴OpenTSDB的存储设计,将“指标名”、TagKey、TagValue都转化为Integer,放入映射表中以节省存储资源。
  • RocksDB的存储设计为:以"指标名+TagKeyId + TagValueId+时间(小时粒度)“作为Key,以该小时时间线内的指标数值作为Value。
  • 为实现Counter、Timer类型数据聚合逻辑,开发了C++版本RocksDB插件。


这套存储方案在初期很好的支持了ETrace的指标存储需求,为ETrace大规模接入与可观测性数据的时效性提供了坚固的保障。有了ETrace,饿了么的技术人终于能从全链路的角度去排查问题、治理服务,为之后的技术升级、架构演进,提供了可观测性层面的支持。


其中架构的几点说明


1. 是否保证所有可观测性数据的可靠性?


不,我们承诺的是“尽可能不丢”,不保证100%的可靠性。基于这个前提,为我们设计架构时提供了诸多便利。如,Agent与Collector若连接失败,若干次重试后便丢弃数据,直到Collector恢复可用;Kafka上下游的生产和消费也不必Ack,避免影响处理效率。


2. 为什么在SDK中的Agent将数据发给Collector,而不是直接发送到Kafka?


  • 避免Agent与Kafka版本强绑定,并避免引入Kafka Client的依赖。
  • 在Collector层可以做数据的分流、过滤等操作,增加了数据处理的灵活性。并且Collector会将数据压缩后再发送到Kafka,有效减少Kafka的带宽压力。
  • Collector机器会有大量TCP连接,可针对性使用高性能机器。


3. SDK中的Agent如何控制对业务应用的影响?


  • 纯异步的API,内部采用队列处理,队列满了就丢弃。
  • Agent不会写本地日志,避免占用磁盘IO、磁盘存储而影响业务应用。
  • Agent会定时从Collector拉取配置信息,以获取后端Collector具体IP,并可实时配置来开关是否执行埋点。


4. 为什么选择侵入性的Agent?


选择寄生在业务应用中的SDK模式,在当时看来更利于ETrace的普及与升级。而从现在的眼光看来,非侵入式的Agent对用户的集成更加便利,并且可以通过Kubernates中SideCar的方式对用户透明部署与升级。


5. 如何实现“尽量不丢数据”?


  • Agent中根据获得的Collector IP周期性数据发送,若失败则重试3次。并定期(5分钟)获取Collector集群的IP列表,随机选取可用的IP发送数据。
  • Collector中实现了基于本地磁盘的Queue,在后端的Kafka不可用时,会将可观测性数据写入到本地磁盘中。待Kafak恢复后,又会将磁盘上的数据,继续写入Kafka。


6. 可观测性数据如何实现多语言支持?


Agent与Collector之间选择Thrift RPC框架,并定制整个序列化方式。Java/Python/Go/PHP的Agent依数据规范开发即可。


2.0:异地多活,大势初成


2016年底,饿了么为了迎接业务快速增长带来的调整,开始推进“异地多活”项目。新的多数据中心架构对既有的可观测性架构也带来了调整,ETrace亦经过了一年的开发演进,升级到多数据中心的新架构、拆分出实时计算模块、增加报警功能等,进入ETrace2.0时代。


image.png

ETrace2.0

Overview

0A务啤店时购码型106

Transaction

SO%服新披行妆态0PS)

SOA服务执行状态

SOA服务各zone执

500K

SOA服务响应时间

行次效

(QPS)

E

400

Eyent

200

1000

1夏

黑大州时:1900

Exception

200

AKUUU

S时时*028HV5WW

总异常

总次盛

异常事

平均蛋酱

SUrC.c

美获料酥

SOA

3.0710434246

135.56

180.55%

0.03%164.059

Y80.46%

Provider

MAX

J100.00%

异常(QPS

中线:1067路小值0m大值:13.1696总次费:10V

当前环比响应时间(单位:10g)

入SOAMetrcd

Consumer

rrt.sgnSaricePackwnunLcg

URL

AgeiSorviooPackaForPraContrac

ge:Sigreunlfcation

口叶

JVM

215240

116553

最大用时:

Redis

最小联时

平均围时

11.6553

总联时:

RMQPublisher

总次量:

22:10

1:45

22:00

2205

21:40

Transaction

RMQConsumeR

Database

Dependency

*030T

SGFAiLExceoTiono

SINEREPACACTONtt

SIANSRVEPAEMAN

Metrics

ENSENGGNNCNETLEESSLROTCOOTOLOLAO

Scwa.tangrelctmtkon

ElasticSearch

taitaa.mdircteorntercepter.jaa1)

线

报警配置


异地多活的挑战


随着饿了么的异地多活的技术改造方案确定,对可观测性平台提出了新的挑战:如何设计多活架构下的可观测性系统?以及如何聚合多数据中心的可观测性数据


经过一年多的推广与接入,ETrace已覆盖了饿了么绝大多数各语言的应用,每日处理数据量已达到了数十T以上。在此数据规模下,决不可能将数据拉回到某个中心机房处理。因此“异地多活”架构下的可观测性设计的原则是:各机房处理各自的可观测性数据



我们开发一个Gateway模块来代理与聚合各数据中心的返回结果,它会感知各机房间内Console服务。图中它处于某个中央的云上区域,实际上它可以部署在各机房中,通过域名的映射机制来做切换。


如此部署的架构下,各机房中的应用由与机房相绑定的环境变量控制将可观测性数据发送到该机房内的ETrace集群,收集、计算、存储等过程都在同一机房内完成。用户通过前端Portal来访问各机房内的数据,使用体验和之前类似。


即使考虑极端情况下--某机房完全不可用(如断网),“异地多活”架构可将业务流量切换到存活的机房中,让业务继续运转。而可观测性上,通过将Portal域名与Gateway域名切换到存活的机房中,ETrace便能继续工作(虽然会缺失故障机房的数据)。在机房网络恢复后,故障机房内的可观测性数据也能自动恢复(因为该机房内的可观测性数据处理流程在断网时仍在正常运作)。


可观测性数据实时处理的挑战


在1.0版本中的Consumer组件,既负责将链路数据写入到HBase/HDFS中,又负责将链路数据计算成指标存储到LinDB中。两个流程可视为同步的流程,但前者可接受数分钟的延迟,后者要求达到实时的时效性。当时HBase集群受限于机器性能与规模,经常在数据热点时会写入抖动,进而造成指标计算抖动,影响可用性。因此,我们迫切需要拆分链路写入模块与指标计算模块。


在选型实时计算引擎时,我们考虑到需求场景是:


  1. 能灵活的配置链路数据的计算规则,最好能动态调整;
  2. 能水平扩展,以适应业务的快速发展;
  3. 数据输出与既有系统(如LinDB与Kafka)无缝衔接;


很遗憾的是,彼时业界无现成的拿来即用的大数据流处理产品。我们就基于复杂事件处理(CEP)引擎Esper实现了一个类SQL的实时数据计算平台--Shaka。Shaka包括“Shaka Console”和“Shaka Container”两个模块。Shaka Console由用户在图形化界面上使用,来配置数据处理流程(Pipeline)、集群、数据源等信息。用户完成Pipeline配置后,Shaka Console会将变更推送到Zookeeper上。无状态的Shaka Container会监听Zookeeper上的配置变更,根据自己所属的集群去更新内部运行的Component组件。而各Component实现了各种数据的处理逻辑:消费Kafka数据、处理Trace/Metric数据、Metric聚合、运行Esper逻辑等。



Trace数据和Metric格式转换成固定的格式后,剩下来按需编写Esper语句就能生成所需的指标了。如下文所示的Esper语句,就能将类型为Transaction的Trace数据计算成以“{appId}.transaction”的指标(若Consumer中以编码方式实现,约需要近百行代码)。经过这次的架构升级,Trace数据能快速的转化为实时的Metric数据,并且对于业务的可观测性需求,只用改改SQL语句就能快速满足,显著降低了开发成本和提升了开发效率。

@Name('transaction')
@Metric(name = '{appId}.transaction', tags = {'type', 'name', 'status', 'ezone', 'hostName'}, fields = {'timerCount', 'timerSum', 'timerMin', 'timerMax'}, sampling = 'sampling')
select header.ezone                            as ezone,
       header.appId                            as appId,
       header.hostName                         as hostName,
       type                                    as type,
       name                                    as name,
       status                                  as status,
       trunc_sec(timestamp, 10)                as timestamp,
       f_sum(sum(duration))                    as timerSum,
       f_sum(count(1))                         as timerCount,
       f_max(max(duration))                    as timerMax,
       f_min(min(duration))                    as timerMin,
       sampling('Timer', duration, header.msg) as sampling
from transaction
group by header.appId, type, name, header.hostName, header.ezone, status, trunc_sec(timestamp, 10);


新的UI、更丰富的中间件数据


1.0版本的前端UI,是集成在Console项目中基于Angular V1开发的。我们迫切希望能做到前后端分离,各司其职。于是基于Angular V2的若干个月开发,新的Portal组件登场。得益于Angular的数据绑定机制,新的ETrace UI各组件间联动更自然,排查故障更方便。


饿了么自有中间件的研发进程也在不断前行,在可观测性的打通上也不断深化。2.0阶段,我们进一步集成了--Redis、Queue、ElasticSearch等等,覆盖了饿了么所有的中间件,让可观测性无死角。


杀手级功能:指标查看与链路查看的无缝整合


传统的可观测性系统提供的排障方式大致是:接收报警(Alert)--查看指标(Metrics)--登陆机器--搜索日志(Trace/Log),而ETrace通过Metric与Trace的整合,能让用户直接在UI上通过点击就能定位绝大部分问题,显著拔高了用户的使用体验与排障速度。


指标查看与链路查看的无缝整合

只常(学位:5m)

总计:21.30M

入异西名

当新库比

RaqUObtRuOirdbdEmapton

25D.00K

HaartbealExcaption

10000K

ChannLoExoopbon

169

50.00K

0

SOASERALCEIP:NLI

0170023112205RUTMB8onE

TRONLECHughMevkgP

RequestRejectodExCcption:S

SOACEILOWOLCN0

SOACaLLSEN动ZE:O

SONCLLSGNeaP:M

EventDeta

20172185o

THOWADHCARWAANHANUNHSEWASENELCLLYUDIDYLPOUSEAS


某个排查场景如:用户发现总量异常突然增加,可在界面上筛选机房、异常类型等找到实际突增的某个异常,再在曲线上直接点击数据点,就会弹出对应时间段的异常链路信息。链路上有详细的上下游信息,能帮助用户定位故障。



它的实现原理如上图所示。具体的,前文提到的实时计算模块Shaka将Trace数据计算成Metric数据时,会额外以抽样的方式将Trace上的RequsetId与RpcId也写到Metric上(即上文Esper语句中,生成的Metric中的sampling字段)。这种Metric数据会被Consumer模块消费并写入到HBase一张Sampling表中。


用户在前端Portal的指标曲线上点击某个点时,会构建一个Sampling的查询请求。该请求会带上:该曲线的指标名、数据点的起止时间、用户选择过滤条件(即Tags)。Consumer基于这些信息构建一个HBase的RegexStringComparator的Scan查询。查询结果中可能会包含多个结果,对应着该时间点内数据点(Metric)上发生的多个调用链路(Trace),继而拿着结果中的RequestId+RpcId再去查询一次HBase/HDFS存储就能获得链路原文。(注:实际构建HBase Rowkey时Tag部分存的是其Hashcode而不是原文String。)


众多转岗、离职的饿了么小伙伴,最念念不忘不完的就是这种“所见即所得”的可观测性排障体验。


报警Watchdog 1.0


在应用可观测性基本全覆盖之后,报警的需求自然成了题中之义。技术选型上,根据我们在实时计算模块Shaka上收获的经验,决定再造一个基于实时数据的报警系统--Watchdog


报警Watchdog1.0

IDCone

IDCtwo

Shaka

Shaka

Kafka

Kafka

Metrics

Storm

StormTopology

AIert

配置报警

Spout

Config

报警规则

报警配置

Katka

过滤条件

阚值

Consumer

报警触达,

趋势

时间窗口

拉取配置

存储配置

Watchdog

触达方式

Portal

静默规则

同环比

Bolt

钉钉

缺失

生效时间

AIert

短信

Esper

Kafka

报警等级

离群

Engine

语音电话

邮件

Wedhook


实时计算模块Shaka中已经将Trace数据计算成指标Metrics,报警模块只需消费这些数据,再结合用户配置的报警规则产出报警事件即可。因此,我们选型使用Storm作为流式计算平台,在Spount层次根据报警规则过滤和分流数据,在Bolt层中Esper引擎运行着由用户配置的报警规则转化成Esper语句并处理分流后的Metric数据。若有符合Esper规则的数据,即生成一个报警事件Alert。Watchdog Portal模块订阅Kafka中的报警事件,再根据具体报警的触达方式通知到用户。默认Esper引擎中数据聚合时间窗口为1分钟,所以整个数据处理流程的时延约为1分钟左右。


Metrics API与LinDB 2.0:


在ETrace 1.0阶段,我们只提供了Trace相关的API,LinDB仅供内部存储使用。用户逐步的意识到如果能将“指标”与“链路”整合起来,就能发挥更大的功用。因此我们在ETrace-Agent中新增了Metrics相关的API:

// 计数器类型Trace.newCounter(StringmetricName).addTags(Map<String, String>tags).count(intvalue);
// 耗时与次数Trace.newTimer(StringmetricName).addTags(Map<String, String>tags).value(intvalue);
// 负载大小与次数Trace.newPayload(StringmetricName).addTags(Map<String, String>tags).value(intvalue);
// 单值类型Trace.newGauge(StringmetricName).addTags(Map<String, String>tags).value(intvalue);


基于这些API,用户可以在代码中针对他的业务逻辑进行指标埋点,为后来可观测性大一统提供了实现条件。在其他组件同步开发时,我们也针对LinDB做了若干优化,提升了写入性能与易用性:


  1. 增加Histogram、Gauge、Payload、Ratio多种指标数据类型;
  2. 从1.0版本的每条指标数据都调用一次RocksDB的API进行写入,改成先在内存中聚合一段时间,再通过RocksDB的API进行批量写入文件。


3.0:推陈出新,融会贯通


可观测性系统大一统


在2017年的饿了么,除了ETrace外还有多套可观测性系统:基于Statsd/Graphite的业务可观测性系统、基于InfluxDB的基础设施可观测性系统。后两者都集成Grafana上,用户可以去查看他的业务或者机器的详细指标。但实际排障场景中,用户还是需要在多套系统间来回切换:根据Grafana上的业务指标感知业务故障,到ETrace上查看具体的SOA/DB故障,再到Grafana上去查看具体机器的网络或磁盘IO指标。虽然,我们也开发了Grafana的插件来集成LinDB的数据源,但因本质上差异巨大的系统架构,还是让用户“疲于奔命”式的来回切换系统,用户难以有统一的可观测性体验。因此2018年初,我们下定决心:将多套可观测性系统合而为一,打通“业务可观测性+应用可观测性+基础设施可观测性”,让ETrace真正成为饿了么的一站式可观测性平台



可观测性系统大一统

之后

之前

业务数据

业务数据

Statsd

Grafana

一站式

Graphite

可观测性平台

ETrace

链路数据

链路数据

ETrace

EMonitor

Agent

LinDB

LinDB

基础设施数据

Grafana

ESMAgent

基础设施数据

InfluxDB


LinDB 3.0:


所谓“改造”未动,“存储”先行。想要整合InfluxDB与Statsd,先要研究他们与LinDB的异同。我们发现,InfluxDB是支持一个指标名(Measurement)上有多个Field Key的。如,InfluxDB可能有以下指标:

measurement=census, fields={butterfiles=12, honeybees=23}, tags={location=SH, scientist=jack}, timestamp=2015-08-18T00:06:00Z

若是LinDB 2.0的模式,则需要将上述指标转换成两个指标:

measurement=census, field={butterfiles=12}, tags={location=SH, scientist=jack}, timestamp=2015-08-18T00:06:00Zmeasurement=census, field={honeybees=23}, tags={location=SH, scientist=jack}, timestamp=2015-08-18T00:06:00Z

可以想见在数据存储与计算效率上,单Field模式有着极大的浪费。但更改指标存储的Schema,意味着整个数据处理链路都需要做适配和调整,工作量和改动极大。然而不改就意味着“将就”,我们不能忍受对自己要求的降低。因此又经过了几个月的爆肝研发,LinDB 3.0开发完成。


这次改动,除了升级到指标多Fields模式外,还有以下优化点:

  • 集群方面引入Kafka的ISR设计,解决了之前机器故障时查询数据缺失的问题。
  • 存储层面支持更加通用的多Field模式,并且支持对多Field之间的表达式运算。
  • 引入了倒排索引,显著提高了对于任意Tag组合的过滤查询的性能。
  • 支持了自动化的Rollup操作,对于任意时间范围的查询自动选取合适的粒度来聚合。


经过这次大规模优化后,从最初的每日5T指标数据涨到如今的每日200T数据,LinDB 3.0都经受住了考验。指标查询的响应时间的99分位线为200ms。详细设计细节可参看文末的分布式时序数据库 - LinDB


将Statsd指标转成LinDB指标


Statsd是饿了么广泛使用的业务指标埋点方案,各机房有一个数十台机器规模的Graphite集群。考虑到业务的核心指标都在Statsd上,并且各个AppId以ETrace Metrics API替换Statsd是一个漫长的过程(也确实是,前前后后替换完成就花了将近一年时间)。为了减少对用户与NOC团队的影响,我们决定:用户更新代码的同时,由ETrace同时“兼容”Statsd的数据。


得益于饿了么强大的中间件体系,业务在用Statsd API埋点的同时会“自动”记一条特殊的Trace数据,携带上Statsd的Metric数据。那么只要处理Trace数据中的Statsd埋点,我们就能将大多数Statsd指标转化为LinDB指标。如下图:多个Statsd指标会转为同一个LinDB指标。

// statsd:
stats.app.myAppName.order.from_ios.success 32
stats.app.myAppName.order.from_android.success 29
stats.app.myAppName.order.from_pc.failure 10
stats.app.myAppName.order.from_openapi.failure 5
// lindb:
MetricName: myAppName.order
Tags:
  "tag1"=[from_ios, from_android,from_pc, from_openapi]
  "tag2"=[success, failure]


之前我们的实时计算模块Shaka就在这里派上了大用场:只要再新增一路数据处理流程即可。如下图,新增一条Statsd数据的处理Pipeline,并输出结果到LinDB。在用户的代码全部从Statsd API迁移到ETrace API后,这一路处理逻辑即可移除。

转换Statsd指标

MainpipelineofTraceDataMainpipeineofMetricDataPiplineofstatsdData

Ul访问

Kafka

Kafka

Kafka

ShakaConsole

TraceData

StatsdData

MetricData

Configuration

cluster

pipeline

Kafka

Katka

Katka

Consumer

Consumer

Consumer

datasource

component

Aggregation

Convert

DecodeData

StreamCluster

Trace

Processor

Aggregator

Processor

StreamContainer(oneJVM)

Output

Output

Output

Pipeline

LinDB

LinDB

LinDB

Kafka

Data

Consumer

Processor

Kafka

Metric

Producer

Writer


InfluxDB指标转成LinDB指标


InfluxDB主要用于机器、网络设备等基础设施的可观测性数据。饿了么每台机器上,都部署了一个ESM-Agent。它负责采集机器的物理指标(CPU、网络协议、磁盘、进程等),并在特定设备上进行网络嗅探(Smoke Ping)等。这个数据采集Agent原由Python开发,在不断需求堆叠之后,已庞大到难以维护;并且每次更新可观测逻辑,都需要全量发布每台机器上的Agent,导致每次Agent的发布都令人心惊胆战。


我们从0开始,以Golang重新开发了一套ESM-Agent,做了以下改进:


  • 可观测性逻辑以插件的形式,推送到各宿主机上。不同的设备、不同应用的机器,其上运行的插件可以定制化部署。
  • 制定插件的交互接口,让中间件团队可定制自己的数据采集实现,解放了生产力。
  • 移除了etcd,使用MySql做配置数据存储,减轻了系统的复杂度。
  • 开发了便利的发布界面,可灰度、全量的推送与发布Agent,运维工作变得轻松。
  • 最重要的,收集到的数据以LinDB多Fields的格式发送到Collector组件,由其发送到后续的处理与存储流程上。



从ETrace到EMonitor,不断升级的可观测性体验


2017年底,我们团队终于迎来了一名正式的前端开发工程师,可观测性团队正式从后端开发写前端的状态中脱离出来。在之前的Angular的开发体验中,我们深感“状态转换”的控制流程甚为繁琐,并且开发的组件难以复用(虽然其后版本的Angular有了很大的改善)。在调用当时流行的前端框架后,我们在Vue与React之中选择了后者,辅以Ant Design框架,开发出了媲美Grafana的指标看版与便利的链路看板,并且在PC版本之外还开发了移动端的定制版本。我们亦更名了整个可观测性产品,从“ETrace”更新为“EMonitor”:不仅仅是链路可观测性系统,更是饿了么的一站式可观测性平台


可观测性数据的整合:业务指标 + 应用链路 + 基础设施指标 + 中间件指标


在指标系统都迁移到LinDB后,我们在EMonitor上集成了“业务指标 + 应用链路 + 基础设施指标 + 中间件指标”的多层次的可观测性数据,让用户能在一处观测它的业务数据、排查业务故障、深挖底层基础设施的数据。


可观测性数据的整合

业务指标

应用链路

基础设施指标

中间件指标

基础设施

田Overview

指标查询

Dashboard

TTransaction

指标管理

DAL

单机监控

EEvent

ElasticSearch

品所有看板

Exception

Overview

SOA

Appos

日看板应用

磁盘

CProvider

EKV

网卡

我的收藏

Consumer

C

Cache

TCP

Dependency

三最近浏览

WorKflow

Pizza

网络协议

Gateway++

URL

进程

JVM

Queue

ESMAgent

Redis

Stargate

RMQPublisher

Samaritan

RMQConsumer

EjdbcPool

SOAProxy

Database


可观测性场景的整合:指标 + 链路 + 报警


在可观测性场景上,“指标看板”用于日常业务盯屏与宏观业务可观测性,“链路”作为应用排障与微观业务逻辑透出,“报警”则实现可观测性自动化,提高应急响应效率。



灵活的看板配置与业务大盘


在指标配置上,我们提供了多种图表类型--线图、面积图、散点图、柱状图、饼图、表格、文本等,以及丰富的自定义图表配置项,能满足用户不同数据展示需求。


灵活的看板配置(续)

图表配置

品系

时间

G同步

分析

链接

+新鞋

图制

团保存

其本信息

排鲜

Lock

住板德

右Y辅

Threshold

左Y辅

ThresholdMn:

屋示丫鞋:

THesholdMax:

Y羊划磨菌装:

Y铂标压

Y糖标过

请输入丫辅标购

请址入Y锁原盟

Y柏昌小像:

请城入Y随疆小值

请越入Y验量小值

Y轴哥大值;

Y给大值:

请输入Y健最大值

镇惊入丫检最大值

2

程霸小霞位:

保饭小霞位;

品系

时间分析

分析

图例

百本信息

时间

肇标均

指标

摇标

图筑

随橡

量示

半标轴

a

配置项

Titlo

Tooltip

显示:

MIN

鼓意度

显示限合时间:

0值显示:

居中

排序:

降序

显示点:

保舒小鼓位:

车伯处理:

nullasZro

右边显示

不维叠

维叠

50

量大量示亲致:

Dot

环比枝样式:

稻本眠:


在完成单个指标配置后,用户需要将若干个指标组合成所需的指标看板。用户在配置页面中,先选择待用的指标,再通过拖拽的方式,配置指标的布局便可实时预览布局效果。一个指标可被多个看板引用,指标的更新也会自动同步到所有看板上。为避免指标配置错误而引起歧义,我们也开发了“配置历史”的功能,指标、看板等配置都能回滚到任意历史版本上。


看板配置是静态图表组合,而业务大盘提供了生动的业务逻辑视图。用户可以根据他的业务场景,将指标配置整合成一张宏观的业务图。


灵活的看板配置(续2)

业务大盘

指标看板

监控大盘

看媛历史(70条)

看程信息

cluster

cluster

ezone!

聚一91g

谢建者

要新间

接后更新者

主兴光

加查看

G网

精捷

La线t1h103/103

基和信息

国保存

新精:ececoleclor

会场1D

Agent

解远:

COLKCTOr组件相关裕控

Agom入口索置

布购

Collector

中回

已汽指析

新的行

D2

COlO安旺RR林m

collctor入口沈星/OP5)

Kafka

colector压6发件kak津液星

cclLeCtor各KaFL集群写入耗时

中口

新的行

Shaka

calectoreTopic鼓抵量

T4

Sraka消费nnka

Caraurtcrasakl品

COTo6*om次

号1R

马入白的置小小小上别鲜


第三方系统整合:变更系统 + SLS日志


因每条报警信息和指标配置信息都与AppId关联,那么在指标看板上可同步标记出报警的触发时间。同理,我们拉取了饿了么变更系统的应用变更数据,将其标注到对应AppId相关的指标上。在故障发生时,用户查看指标数据时,能根据有无变更记录、报警记录来初步判断故障原因。



饿了么的日志中间件能自动在记录日志时加上对应的ETrace的RequestId等链路信息。如此,用户查看SLS日志服务时,能反查到整条链路的RequestId;而EMonitor也在链路查看页面,拼接好了该应用所属的SLS链接信息,用户点击后能直达对应的SLS查看日志上下文。


使用场景的整合:桌面版 + 移动版


除提供桌面版的EMonitor外,我们还开发了移动版的EMonitor,它也提供了大部分可观测性系统的核心功能--业务指标、应用指标、报警信息等。移动版EMonitor能内嵌于钉钉之中,打通了用户认证机制,帮助用户随时随地掌握所有的可观测性信息。



为了极致的体验,精益求精


为了用户的极致使用体验,我们在EMonitor上各功能使用上细细打磨,这里仅举几个小例子:


  1. 我们为极客开发者实现了若干键盘快捷键。例如,“V”键就能展开查看指标大图。
  2. 图上多条曲线时,点击图例是默认单选,目的是让用户只看他关心的曲线。此外,若是“Ctrl+鼠标点击”则是将其加选择的曲线中。这个功能在一张图几十条曲线时,对比几个关键曲线时尤为有用。
  3. 为了让色弱开发者更容易区分成功或失败的状态,我们针对性的调整了对应颜色的对比度。

极致的体验

无障碍适配

键盘快捷键

默认反选

etrace

cluste

ozone

collector各Topic数据量

编辑

查看巴v

调用/操作

EZone

Status

collector入口流量(QPS)

.andleDeliv

成功

ery

MwwewrwawiyhuuwaMilshalwumy

sell

成功

ect

MwwubwwrwyausyhauduuuhyMad

失败

TaskState

MMuwwiwwwuswpwumwwa

CEPH2:

02:30

cOPB2:0O

02:15

02-:30

成功

nsert

app_metric_v2application

dal_application

esm_metrics

成为饿了么一站式可观测性平台


EMonitor开发完成后,凭借优异的用户体验与产品集成度,很快在用户中普及开来。但是,EMonitor要成为饿了么的一站式可观测性平台,还剩下最后一战--NOC可观测性大屏。


NOC可观测性大屏替换


饿了么有一套完善的应急处理与保障团队,包括7*24值班的NOC(Network Operation Center)团队。在NOC的办公区域,有一整面墙上都是可观测性大屏,上面显示着饿了么的实时的各种业务曲线。下图为网上找的一张示例图,实际饿了么的NOC大屏比它更大、数据更多。


当时这个可观测大屏是将Grafana的指标看版投影上去。我们希望将NOC大屏也替换成EMonitor的看版。如前文所说,我们逐步将用户的Statsd指标数据转换成了LinDB指标,在NOC团队的协助下,一个一个将Grafana的可观测性指标“搬”到EMonitor上。此外,在原来白色主题的EMonitor之上,我们开发了黑色主题以适配投屏上墙的效果(白色背景投屏太刺眼)。


终于赶在2018年的双十一之前,EMonitor正式入驻NOC可观测大屏。在双十一当天,众多研发挤在NOC室看着墙上的EMonitor看版上的业务曲线不断飞涨,作为可观测性团队的一员,这份自豪之情由衷而生。经此一役,EMonitor真正成为了饿了么的“一站式可观测性平台”,Grafana、Statsd、InfluxDB等都成了过去时。


报警Watchdog 2.0


同样在EMonitor之前,亦有Statsd与InfluxDB对应的多套报警系统。用户若想要配置业务报警、链路报警、机器报警,需要辗转多个报警系统之间。各系统的报警的配置规则、触达体验亦是千差万别。Watchdog报警系统也面临着统一融合的挑战。


  1. 在调研其他系统的报警规则实现后,Watchdog中仍以LinDB的指标作为元数据实现。
  2. 针对其他报警系统的有显著区别的订阅模式,我们提出了"报警规则+一个规则多个订阅标签+一个用户订阅多个标签"的方式,完美迁移了几乎其他系统所有的报警规则与订阅关系。
  3. 其他各系统在报警触达与触达内容上也略有不同。我们统一整合成“邮件+短信+钉钉+语音外呼”四种通知方式,并且提供可参数化的自定义Markdown模板,让用户可自己定时报警信息。


经过一番艰苦的报警配置与逻辑整合后,我们为用户“自动”迁移了上千个报警规则,并最终为他们提供了一个统一的报警平台。


报警Watchdog2.0

FlexibleNotificationC

nChannels

VisibleAlertConfigurations

是吾楼俊语音外明:

接妆语音外呼的时股:

9至晚9日上班时间

婆改语合外师的日期:

周一至哺五6天

椰暂

报警草道

青看料萄

泽作

扣性口超信

双薄订餐

钉钉

请障

单件

超信

都作

超信

锈催中

AlertsonMobile

MultipleAlertAIgorithms

报警详情

全局redls连接异常数塘多

触发策略:

k

省林餐

青礼报

新址生

阚值

误猴

状态

暂停报置

已恢复

酮值?:

趋势

cut

Banshee

轧00K

指标缺失

1000

同环比

.

11:30

12:001215

同环比?:

11545

coUnt

离群

状态变更记录

一12:13:58

操作人:dystem;扶:已恢复:榨减格:无;督注:无;

WI**.啤9882

中注:尽可能充善间决方法或发生原圈,帮助其

输镇


报警,更精准的报警


外卖行业的业务特性是业务的午高峰与晚高峰,在业务曲线上便是两个波峰的形状。这样的可观测数据,自然难以简单使用阈值或比率来做判断。即使是根据历史同环比、3-Sigma、移动平均等规则,也难以适应饿了么的可观测性场景。因为,饿了么的业务曲线并非一成不变,它受促销、天气因素、区域、压测等因素影响。开发出一个自适应业务曲线变化的报警算法,势在必行。

更精准的报警

BusinessTrend

Weekdays

Weekends

MM队M贝!

做啤埔苑

IO3肆09

铁物美

做尝礼饮

L心油的0的002299

的别按的

no99

90r加的

0011599

n:PredictionbasedonTrend

AIgorithm:P

Alert

2000

21:40

8220

下养

实标值

上牌

I

2021-0216220100

上界

434853

E同步

指标

+新莲

坐标轴

Lock

图例

保存

基本信息

下界

2589.33

实际值

Series


我们经过调研既有规则,与饿了么的业务场景,推出了全新的“趋势”报警。简要算法如下:


  1. 计算历史10天的指标数据中值作为基线。其中这10天都取工作日或非工作日。不取10天的均值而取中值是为了减少压测或机房流量切换造成的影响。
  2. 根据二阶滑动平均算法,得到滑动平均值与当前实际值的差值
  3. 基线差值相加作为预测值
  4. 根据预测值的数量级,计算出波动的(如上界与下界的数值)。
  5. 若当前值不在预测值与波动幅度确定的上下界之中,则触发报警。


如上图所示,22点01分的实际值因不在上下界所限定的区域之中,会触发报警。但从后续趋势来看,该下降趋势符合预期,因此实际中还会辅以“偏离持续X分钟”来修正误报。(如该例中,可增加“持续3分钟才报警”的规则,该点的数据便不会报警)算法中部分参数为经验值,而其中波动的阈值参数用户可按照自己业务调整。用户针对具备业务特征的曲线,再也不用费心的去调整参数,配置上默认的“趋势”规则就可以覆盖大多数的可观测性场景,目前“趋势”报警在饿了么广泛运用。


智能可观测性:根因分析,大显神威


作为AIOPS中重要的一环,根因分析能帮助用户快速定位故障,缩短故障响应时间,减少故障造成的损失。2020年初,我们结合饿了么场景,攻坚克难,攻破“指标下钻”、“根因分析”两大难关,在EMonitor上成功落地。


根因分析最大的难点在于:包含复杂维度的指标数据难以找到真正影响数据波动的具体维度孤立的指标数据也难以分析出应用上下游依赖引起的故障根因。例如,某个应用的异常指标突增,当前我们只能知道突增的异常名、机房维度的异常分布、机器维度的异常分布等,只有用户手工去点击异常指标看来链路之后,才能大致判断是哪个SOA方法/DB请求中的异常。继而用户根据异常链路的环节,去追溯上游或下游的应用,重复类似的排查过程,最后以人工经验判断出故障点。


因此,在“指标下钻”上,我们针对目标指标的曲线,细分成最精细的每个维度数据(指标group by待分析的tag维度),使用KMeans聚类找出故障数据的各维度的最大公共特征,依次计算找到最优的公共特征,如此便能找到曲线波动对应的维度信息。


根因分析:指标下钻

问题场景

下单量

如何从宏观指标波动,下钻到具体造成波动的数据维度?

机房A下单量

主站下单量

1.确定曲线波动的范围:

1.使用二阶指数平滑计算预测值

机房B下单量

小程序下单量

2.根据预测值,划分"正常期"与"异常期"

分析过程

2.对曲线的每个维度数据计算"波动值",过滤掉如波动趋势不一致的,波动幅度过大

过小的.

下单量

3.对剩下的各维度数据,按照"波动值"进行聚类.

正常期异常期

4.从最大的聚类中,提取"公共特征"

5.依次计算各聚类中最优的"公共特征":

机房-A&渠道-主站

机房-A&渠道-主站

版本-8.1&城市一上海

每版本-8.0&城市-苏州

1.覆盖的各维度数据尽可能多

2.包括的维度数量尽可能少

机房A&渠道-主站机房-B&渠道-主站

版本-8.0&城市上海版本-8.0&城市一上海

3.波动值满足预设间值

机房-A渠道-主站版本-XX城市-XX

公共特征:机房-A&渠道-主站


其次,在链路数据计算时,我们就能将额外的上下游附加信息附加到对应的指标之中。如,可在异常指标中追加一个维度来记录产生异常的SOA方法名。这样在根据异常指标分析时,能直接定位到是这个应用的那个SOA方法抛出的异常,接下来“自动”分析是SOA下游故障还是自身故障(DB、Cache、GC等)。


根因分析:数据准备

从链路数据计算出应用的上下游调用信息

soaprovider

idc,clientappld,hostmthod

SOA操作

SOA

soa_exception

DB操作

idc,host,mthod,excepionNme

HTTP

Redis操作

soa_span

idc,method,操作类型

App

Queue操作

JOB

soarpc

idc,serviceappld,servicemethod

Local业务操作

Queue

抛出Exception

操作类型

指标数据

调用入口


在2020.3月在饿了么落地以来,在分析的上百例故障中,根因分析的准确率达到90%以上,显著缩短的故障排查的时间,帮助各业务向稳定性建设目标向前跨进了一大步。



4.0:继往开来,乘势而上


经过4、5年的发展,风云变幻但团队初心不改,为了让用户用好可观测性系统,EMonitor没有停下脚步,自我革新,希望让“天下没有难用的可观测性系统”。我们向集团的可观测性团队请教学习,结合本地生活自己的技术体系建设,力争百尺竿头更进一步,规划了以下的EMonitor 4.0的设计目标。


EMonitor4.0规划

1.保证核心数据的实效性,稳定性

租户化改造

2.分流非核心数据,节省资源

1.打通集团的链路数据

集团/云上

2.打通阿里云上中间件的数据

可观测性系统打通

1.兼容Prometheus的数据源

开源标准集成

2.兼容OpenTelemetry协议

一、进行多租户化改造,保障核心数据的时延和可靠性


在本地生活的技术体系与阿里巴巴集团技术体系的不断深入的融合之中,单元化的部署环境以及对可观测性数据不同程度的可靠性要求,催生了“多租户化”的设计理念。我们可以根据应用类型、数据类型、来源等,将可观测性数据分流到不同的租户中,再针对性配置数据处理流程及分配处理能力,实现差异化的可靠性保障能力。

UI

Secondary_Tenant'inIDc_1

PrimaryTenantinIDc_

clientApps2

clientapps1

ApplicationOne

ApplicationTwo22

ApplicationTwo

ApplicationOne21

query

proxymode

Api_Primary

Collector1

Stream2

Consumer1

Collector2

Api-_Secondary

Stream1

Consumer2

directmodedirectmode

directmode

directmode

TSDB2

Hadoop1

Hadoop2

TSDB1


初步我们可以划分为两个集群--核心应用集群非核心应用集合,根据在应用上标记的“应用等级”将其数据自动发送到对应集群中。两套集群在资源配置上优先侧重核心集群,并且完全物理隔离。此外通过配置开关可动态控制某个应用归属的租户,实现业务的柔性降级,避免当下偶尔因个别应用的不正确埋点方式会影响整体可观测可用性的问题。


未来可根据业务发展进一步发展出业务相关的租户,如到家业务集群、到店业务集群等。或者按照区域的划分,如弹内集群、弹外集群等。


二、打通集团弹内、弹外的可观测性数据,成为本地生活的一站式可观测性平台


目前本地生活很多业务领域已经迁入集团,在Trace链路可观测方面,虽然在本地生活上云的项目中,EMonitor已经通过中间件改造实现鹰眼TraceId在链路上的传递,并记录了EMonitor RequestId与鹰眼TraceId的映射关系。但EMonitor与鹰眼在协议上的天然隔阂仍使得用户需要在两个平台间跳转查看同一条Trace链路。因此,我们接下来的目标是与鹰眼团队合作,将鹰眼的Trace数据集成到EMonitor上,让用户能一站式的排查问题。


其次,本地生活上云后,众多中间件已迁移到云上中间件,如云Redis、云Kafka、云Zookeeper等。对应的可观测性数据也需要额外登陆到阿里云控制台去查看。云上中间的可观测性数据大多已存储到Prometheus之中,因此我们计划在完成Prometheus协议兼容后,就与云上中间件团队合作,将本地生活的云上可观测性数据集成到EMonitor上。



三、拥抱云原生,兼容Prometheus、OpenTelemetry等开源协议。


云原生带来的技术革新势不可挡,本地生活的绝大多数应用已迁移到集团的容器化平台--ASI上,对应带来的新的可观测环节也亟需补全。如,ASI上Prometheus协议的容器可观测性数据、Envoy等本地生活PaaS平台透出的可观测性数据与Trace数据等。


因此,我们计划在原先仅支持LinDB数据源的基础上,增加对Prometheus数据源的支持;扩展OpenTelemetry的otel-collector exporter实现,将Open Telemetry协议的Trace数据转换成EMonitor的Trace格式。如此便可补全云原生技术升级引起的可观测性数据缺失,并提供高度的适配性,满足本地生活的可观测性建设。


结语


纵观各大互联网公司的产品演进,技术产品的走向与命运都离不开公司业务的发展轨迹。我们饿了么的技术人是幸运的,能赶上这一波技术变革的大潮,能够发挥聪明才智,打磨出一些为用户津津乐道的技术产品。我们EMonitor可观测性团队也为能参与到这次技术变更中深感自豪,EMonitor能被大家认可, 离不开每位参与到饿了么可观测性体系建设的同伴,也感谢各位对可观测性系统提供帮助、支持、建议的伙伴!


作者简介:

柯圣,花名“炸天”,饿了么监控技术组负责人。自2016年加入饿了么,长期深耕于可观测性领域,全程参与了ETrace到EMonitor的饿了么可观测性系统的发展历程。


扫码查看更多中间件技术干货和案例:

qrcode_for_gh_94efc5c3f960_344.jpg


相关文章
|
运维 前端开发 搜索推荐
大象转身-平台架构如何拥抱业务创新
如果你正在负责一个超大复杂型平台(比如电商、支付、物流)的架构师,且面临各种技术负债(比如架构复杂性、团队协同复杂性),同时业务又面临从平台服务,到场景化创新的转型。那么这篇文章也许对你有收获。
112337 25
|
新零售 人工智能 供应链
直播预告 | 423世界读书日:阿里云十三载数智化转型沉淀力作
直播预告 | 423世界读书日:阿里云十三载数智化转型沉淀力作
257 0
|
运维 监控 架构师
饿了么技术往事(上)
作为一个互联网创业公司,饿了么从初创到壮大,在移动互联网时代,业务量和技术团队的体量经历了10倍增长,这其中的经历,是互联网领域许多创业公司技术团队的一个缩影。在这里把我们成长过程中的体会和教训记录下来。——黄晓路
15209 7
饿了么技术往事(上)
|
缓存 监控 容灾
饿了么技术往事(下)
在商业竞争中,技术团队和其他团队一样,作为组织的一部分,应该是荣辱与共的。但是,就行业而言,饿了么创造的社会价值也是显而易见的,而且,饿了么塑造了这个行业最初的模样,对社会创造的价值影响是长远的!
9063 10
饿了么技术往事(下)
|
运维 安全 前端开发
饿了么技术往事(中)
在上一篇文章《饿了么技术往事(上)》中,我介绍了饿了么最早期 All in One 阶段的架构,以及第二阶段业务系统拆分与团队运营的一些思考,以及我对于架构师职责的感受,接下来我会详细介绍饿了么全面服务化的架构演进历程。
9245 12
饿了么技术往事(中)
|
SQL 消息中间件 新零售
架构详解——淘系圈品进化史
商品数据是营销的基础,很多营销工具最终都会涉及到商品数据的处理,比如打标、修改商品的feature、调用各种下游系统,单个商品可以通过同步方式处理,实际业务上会依据一定业务规则圈定大量商品并对其进行处理,因此,卡券商品设置引擎应运而生。
架构详解——淘系圈品进化史
|
新零售 供应链 前端开发
饿了么彻底“阿里化”改造后,提出一个阿里味的战略——新服务
2018年10月12日,阿里巴巴合并了饿了么与口碑,成立“阿里本地生活服务公司”,过去的一年,阿里巴巴投入巨大成本彻底完成了饿了么的“阿里化”改造,一年后的2019年11月19日,饿了么提出了一个浓烈“阿里味”的全新战略——新服务。
362 0
饿了么彻底“阿里化”改造后,提出一个阿里味的战略——新服务
|
设计模式 移动开发 运维
QCon演讲实录|淘系前台业务“秒交付”研发模式的革新探索
淘系业务高速发展,淘宝、天猫、淘宝直播、淘宝特价版、闲鱼等平台上业务不断创新,同时也对技术效率提出了新的更高的要求。而当前移动互联网客户端服务端分离的研发模式,存在跨技术栈+多端协同的挑战,也面临一些基础的技术和业务能力无法有效的复用的问题。在此背景下,结合云基础设施的演进,结合端技术的发展,淘系技术探索实践了业务云端一体化的研发,围绕应用架构的跨代升级,构建新的研发过程、研发体验,在研发期、交付期、运行期重新定义了前台业务的研发模式。
QCon演讲实录|淘系前台业务“秒交付”研发模式的革新探索
|
缓存 Kubernetes Cloud Native
蚂蚁构建服务演进史
自动化构建和CI/CD往往是相辅相成的,可以理解为,自动化构建是温饱问题,解决了温饱就会有更多的提高生产力的诉求,也就是对应的CI平台,CI/CD本篇文章不做扩展。
蚂蚁构建服务演进史