当前的应用系统,通常数据量比较大、数据复杂度比较高以及数据快速多变,可以把这样的系统称之为数据密集型系统,数据密集型系统通常基于不同的模块组件进行构建,根据不同的功能采用不同的组件,各个组件相互配合组合成一个功能强大、满足不同需求场景的应用系统,比如一个互联网系统通常由类似以下结构组成:
-
数据库:主要产品是mysql,用于存储和持久化数据,一遍数据能够多次访问。
- 高速缓存:主要产品有Redis、Memcached缓存那些经常要访问以及复杂计算和操作的数据,用来加快数据的返回,减少数据库压力,扩大系统并发能力。
- 索引:主要产品有ElasticSearch、Solar,用来支持搜索功能,支持用户用关键字搜素和过滤数据。
除此之外还会涉及到其它模块
- 流式处理:数据持续产生,需要快速消费数据进行数据计算。
- 批处理:定期计算处理大量历史数据
随着功能需求越来越复杂,系统需求越来越广泛,单个组件无法满足所有的数据处理和存储的需求,所以需要根据需求将任务分解,组合合适的技术组件去高效的完成某一部分功能,多个组件通过应用层的代码有机的组合起来,对我们的技术要求也比较高,也带来更高的技术挑战。更加复杂的情况是在使用过程中随着用户量以及业务越来越复杂,一定会碰到更多棘手的问题。
比如,当系统出现局部失效时,如何确保数据的正确性与完整性?当系统降级时候,该如何设计为用户提供一致的用户体验?当系统负载增加时,系统如何扩展?这些问题是一个互联网分布式系统需要去重点考虑。
数据密集型应用系统专注于大多数软件系统都极为重要的三个问题:
- 可靠性
当出现意外情况如硬件、软件故障、人为失误等,系统应可以正常运转,性能可能有所降低,但功能还是正确的。硬件故障,通常的做法是添加硬件冗余来减少系统故障率,随着数据量和应用计算需求的增加,更多应用可以运行在大规模机器之上,随之而来的硬件故障率呈线性增长。因此通过软件容错的方式来容忍多机失效成为新的手段,或者至少成为硬件容错的有力补充。软件问题,故障更加难以预料,因为节点之间是由软件关联的,因而往往会导致更多的系统故障。
- 可扩展性
随着数据量、流量或复杂性等规模的增长,系统应该能够以合理的方式来匹配这种增长。
- 可维护性
随着时间的推移,新功能的开发、新的团队成员加入都能够快速参与到系统开发和运维当中。主要关注软件系统的三个设计原则:可运维性、简单性、可演化性。