圆桌讨论:如何构建一站式全链路解决方案
摘要:本文整理自天翼云首席研发专家候圣文,OceanBase社区布道师周跃跃,CloudCanal联合创始人万凯明,StarRocks解决方案架构师王天宜,在如何构建简单高效的现代化数据栈的分享。
本篇内容主要分为两个部分:
- 用户答疑
- 如何构建一站式全面的数据解决方案。
一、用户答疑
候圣文:传统ETL中EDIT承担了很多复杂转换的逻辑。现在需要把一些转换逻辑放到业务上处理吗?如何解决复杂性导致的性能问题?
万凯明:ER模式主要面向数据分析场景。数据源的源端需要提供变更日志的能力。实时数据订阅,需要源端提供增量日志的能力,类似CloudCanal进行实时增量的日志解析。
对端需要支持实时写入能力,有较低的存储成本。在现有模式中,用户可以将原本复杂的转换逻辑进行拆解,降低其复杂度。建议通过CloudCanal的标准化处理器和产品化能力,进行处理。
候圣文:分布式扩展是动态扩展,还是停库扩展?
周跃跃:分布式扩展支持动态扩展,对服务器的影响可以忽略不计。
候圣文:StarRocks的物化视图可以保证数据的一致性吗?当查询卡在下一次刷新物化视图时,该如何解决?实时数据更新会影响查询的性能吗?
王天宜:StarRocks的物化视图能够自动维护。如果原始表有变更发生,StarRocks会自动的完成物化视图的更新,不需要额外的维护操作就可以保证物化视图能够维持与原表一致。所以实时数据更新不影响查询性能。
二、如何构建一站式全面的数据解决方案。
候圣文:接下来,开始分享如何构建一站式全面的数据解决方案。
周跃跃:对于用户来说,产品选型、调研、测试的过程非常漫长。OceanBase一站式方案大幅提升了用户的工作效率。OceanBase以集群形式部署,支持水平扩展,支持在线扩缩容,自动负载均衡。支持跨机房,跨城市部署,容灾多活。
除此之外,OceanBase基于Paxos协议,实现了强一致性同步。在少数副本故障的情况下,数据不会丢失,服务快速自动恢复,支持Oracle和MySQL两种兼容模式。实现数据平滑迁移,支持原生的SQL和事务引擎,在成本上具有显著的优势。
万凯明:构建现代化的一站式全链路数据解决方案。从数据集成的角度来讲,会涉及到远端和目标端。用户在实际应用场景中,主要涉及两方面业务。一方面是TP型,通过OceanBase的一站式解决方案,高效管理TP型的相关核心数据。
另一方面是AP型业务,比如数据分析,数据价值。通过CloudCanal高效管理AP侧数据分析的需求。其中,必然涉及到数据集成的需求。
现代化数据集成,不但要要关注数据的实时性,而且需要现代化的数据集成工具,与各个数据生态产品之间有更好的融合。
王天宜:目前,大多数的整体架构有两个痛点。第一,结构复杂。缩短整体链路,简化技术站是大家共同面临的问题。第二,性能不完善。比如查询性能,导入的实时性不够优秀。希望未来有一套更简单的一体化方案,能够适应大部分的应用场景。
StarRocks是一款极速全场景MPP分析型数据库,可以“一栈式”的响应企业各类低延迟场景的查询需求。StarRocks的定位是OLAP分析型数据库,适合大规模,多维度的数据查询分析,完全可以应对PB级别的结构化数据分析场景,查询时间一般可达到秒级或毫秒级。
候圣文:StarRocks如何保障高并发查询?有哪些持续优化的方向及手段吗?
王天宜:AP库不能较好地支持高并发。因为AP是列存的内存数据库,一般以列的形式存储数据。所以,无法进行数据筛选。StarRocks主要通过避免全表扫描,来解决这个问题。StarRocks支持聚合模型。列的维度,取值相同的数据行可合并一行,且取值不变。
除此之外,分区分桶保证了数据访问的高效性和稳定性。StarRocks的表被划分成tablet,每个tablet多副本冗余存储在BE上,BE和tablet的数量,可以根据计算资源和数据规模,弹性伸缩。tablet的副本可复制和迁移,增强了数据的可靠性,避免了数据倾斜。
候圣文:OceanBase中的分库分表,方便迁移吗?
周跃跃:MySQL的分库分表,迁移到OceanBase是用户比较关注的问题。目前,OMS支持数据在线迁移,实时增量同步和数据复制。OMS是OceanBase提供的一种支持同构或异构,RDBMS与OceanBase间,进行数据交互的服务。
通过OMS用户可以不停服地将数据迁移到OceanBase上,最大程度的降低业务迁移风险,助力企业用户构建高可用、高可靠的数据体系架构。
候圣文:CloudCanal支持的数据源有哪些?对于长久的数据同步任务是否支持?
万凯明:CloudCanal作为一款现代化的数据集成工具,多源多端的数据迁移同步工具,当前支持的数据源主要有OceanBase,MySQL、Oracle、Kafka等等。
在数据链路的构建过程中,数据链路的基本能力包括结构迁移,全量以及实时增量。CloudCanal在长周期的增量,实时同步领域,也积累了很多经验。
候圣文:用OceanBase替换MySQL者痛点是什么?如何保证其组织架构是最优的?
周跃跃:当MySQL的数量越来越多,它的扩展性是最大的痛点。分库分表能避免这个问题,用户会考虑用一种分布式的方案彻底解决这个问题。比如分布式的扩展性,计算和存储的扩展性,解决MySQL的扩展性问题。
OceanBase在低成本方面的优势,可以解决MySQL的资源问题。其次,OceanBase支持数据平滑迁移,支持原生的SQL和事务引擎。在不影响业务的情况下,可以满足用户探索新技术的需求。