暂无个人介绍
2022年05月
IC维度
通过对全量与增量在同步层加Job来解决,分别为 FullDynamicNestedAggregation(Blink Batch Job) 与IncDynamicNestedAggregation(Blink Stream Job)
为了避免将多条数据转为一条数据之后由于数据量过 大导致FullGC的“大行”问题。
UIC维度
增量性能主要受困于数据处理层IncJoin,该Job最开 始是一个Blink Stream Job,主要是从SwiftQueue中 读出增量消息再关联各个镜像表中的数据来补全字段 ,以及对数据进行UDTF处理等,最后将增量消息发 往在线引擎SwiftQueue中。
与全量不同的是由于增量是实时更新的,所以更新记 录不仅要写到Swift Queue中,还要写入SaroTable中 。另外,我们根据业务特点给各个Job分别加了按pk 对记录去重的window。
1:初始形态; 2:引入LocalJoin与SortMergeJoin; 3:加盐打散大卖家; 4:最终形态。
1:全量(同步层 + 数据处理层)高吞吐; 2:增量(同步层 + 数据处理层)低延迟。
指将上游数据源实时发生的数据变化更新到在线引 擎中。
是将上游数据源的数据同步到镜像表,供数据处理 层高效处理。
是指将同步层得到的各镜像表(HBase/Holo)的数 据进行计算,一般包括多表Join、UDTF等,以方便 搜索业务的开发和接入。
1: 数据量大; 2:一对多的表很多; 3:源表的总数多; 4:热点数据;
1:有业务数据是Daily更新; 2:引擎需要全量数据来高效的进行索引整理和预处 理,提高在线服务效率。全量主要分为同步层与数 据处理层。
将各种来源数据转换处理后送入搜索引擎等“在线”服 务的系统统称为“离线”系统。
指将搜索业务数据全部重新处理生成,并传送给在 线引擎,一般是每天一次。
mvnarchetype:generate -DgroupId=com.alibaba. demo -DartifactId=demo -Dversion=1.0.0- SNAPSHOT-Dpackage=com.alibaba.demo- DarchetypeArtifactId=cola-framework-archetype- service-DarchetypeGroupId=com.alibaba.cola - DarchetypeVersion=2.1.0-SNAPSHOT
mvn archetype:generate -DgroupId=com.alibaba. demo -DartifactId=demo-Dversion=1.0.0- SNAPSHOT -Dpackage=com.alibaba.demo- DarchetypeArtifactId=cola-framework-archetype- web-DarchetypeGroupId=com.alibaba.cola - DarchetypeVersion=2.1.0-SNAPSHOT
1:是作为框架的COLA,主要提供一些应用中所需 共用组件的支持;2:是指COLA架构,是指通过 COLA Archetype生成的应用骨架的架构。
Web后端应用比纯后端应用多了一个Controller模块
The terms are similar. I generally think of a "module" as being larger than a "component". A component is a single part, usually relatively small in scope.