圆桌讨论:如何构建一站式全链路解决方案

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 本文整理自天翼云首席研发专家候圣文,OceanBase社区布道师周跃跃,CloudCanal联合创始人万凯明,StarRocks解决方案架构师王天宜,在如何构建简单高效的现代化数据栈的分享。

圆桌讨论:如何构建一站式全链路解决方案

摘要:本文整理自天翼云首席研发专家候圣文,OceanBase社区布道师周跃跃,CloudCanal联合创始人万凯明,StarRocks解决方案架构师王天宜,在如何构建简单高效的现代化数据栈的分享。

本篇内容主要分为两个部分:

  1. 用户答疑
  2. 如何构建一站式全面的数据解决方案。


image.png


一、用户答疑


候圣文:传统ETL中EDIT承担了很多复杂转换的逻辑。现在需要把一些转换逻辑放到业务上处理吗?如何解决复杂性导致的性能问题?


万凯明:ER模式主要面向数据分析场景。数据源的源端需要提供变更日志的能力。实时数据订阅,需要源端提供增量日志的能力,类似CloudCanal进行实时增量的日志解析。


对端需要支持实时写入能力,有较低的存储成本。在现有模式中,用户可以将原本复杂的转换逻辑进行拆解,降低其复杂度。建议通过CloudCanal的标准化处理器和产品化能力,进行处理。


候圣文:分布式扩展是动态扩展,还是停库扩展?


周跃跃:分布式扩展支持动态扩展,对服务器的影响可以忽略不计。


候圣文:StarRocks的物化视图可以保证数据的一致性吗?当查询卡在下一次刷新物化视图时,该如何解决?实时数据更新会影响查询的性能吗?


王天宜:StarRocks的物化视图能够自动维护。如果原始表有变更发生,StarRocks会自动的完成物化视图的更新,不需要额外的维护操作就可以保证物化视图能够维持与原表一致。所以实时数据更新不影响查询性能。


二、如何构建一站式全面的数据解决方案。


候圣文:接下来,开始分享如何构建一站式全面的数据解决方案。


周跃跃:对于用户来说,产品选型、调研、测试的过程非常漫长。OceanBase一站式方案大幅提升了用户的工作效率。OceanBase以集群形式部署,支持水平扩展,支持在线扩缩容,自动负载均衡。支持跨机房,跨城市部署,容灾多活。


除此之外,OceanBase基于Paxos协议,实现了强一致性同步。在少数副本故障的情况下,数据不会丢失,服务快速自动恢复,支持Oracle和MySQL两种兼容模式。实现数据平滑迁移,支持原生的SQL和事务引擎,在成本上具有显著的优势。


万凯明:构建现代化的一站式全链路数据解决方案。从数据集成的角度来讲,会涉及到远端和目标端。用户在实际应用场景中,主要涉及两方面业务。一方面是TP型,通过OceanBase的一站式解决方案,高效管理TP型的相关核心数据。


另一方面是AP型业务,比如数据分析,数据价值。通过CloudCanal高效管理AP侧数据分析的需求。其中,必然涉及到数据集成的需求。


现代化数据集成,不但要要关注数据的实时性,而且需要现代化的数据集成工具,与各个数据生态产品之间有更好的融合。


王天宜:目前,大多数的整体架构有两个痛点。第一,结构复杂。缩短整体链路,简化技术站是大家共同面临的问题。第二,性能不完善。比如查询性能,导入的实时性不够优秀。希望未来有一套更简单的一体化方案,能够适应大部分的应用场景。


StarRocks是一款极速全场景MPP分析型数据库,可以“一栈式”的响应企业各类低延迟场景的查询需求。StarRocks的定位是OLAP分析型数据库,适合大规模,多维度的数据查询分析,完全可以应对PB级别的结构化数据分析场景,查询时间一般可达到秒级或毫秒级。


候圣文:StarRocks如何保障高并发查询?有哪些持续优化的方向及手段吗?


王天宜:AP库不能较好地支持高并发。因为AP是列存的内存数据库,一般以列的形式存储数据。所以,无法进行数据筛选。StarRocks主要通过避免全表扫描,来解决这个问题。StarRocks支持聚合模型维度取值相同数据行可合并一行,且取值不变


除此之外,分区分桶保证了数据访问的高效性和稳定性StarRocks的表被划分成tablet,每个tablet多副本冗余存储在BE上,BE和tablet的数量可以根据计算资源和数据规模弹性伸缩tablet的副本可复制和迁移,增强了数据的可靠性,避免了数据倾斜


候圣文:OceanBase中的分库分表,方便迁移吗?


周跃跃:MySQL的分库分表,迁移到OceanBase是用户比较关注的问题。目前,OMS支持数据在线迁移,实时增量同步和数据复制。OMS是OceanBase提供的一种支持同构或异构,RDBMS与OceanBase间,进行数据交互的服务。


通过OMS用户可以不停服地将数据迁移到OceanBase上,最大程度的降低业务迁移风险,助力企业用户构建高可用、高可靠的数据体系架构。


候圣文:CloudCanal支持的数据源有哪些?对于长久的数据同步任务是否支持?


万凯明:CloudCanal作为一款现代化的数据集成工具,多源多端的数据迁移同步工具,当前支持的数据源主要有OceanBase,MySQL、Oracle、Kafka等等。


在数据链路的构建过程中,数据链路的基本能力包括结构迁移,全量以及实时增量。CloudCanal在长周期的增量,实时同步领域,也积累了很多经验。


候圣文:用OceanBase替换MySQL者痛点是什么?如何保证其组织架构是最优的?


周跃跃:当MySQL的数量越来越多,它的扩展性是最大的痛点。分库分表能避免这个问题,用户会考虑用一种分布式的方案彻底解决这个问题。比如分布式的扩展性,计算和存储的扩展性,解决MySQL的扩展性问题。


OceanBase在低成本方面的优势,可以解决MySQL的资源问题。其次,OceanBase支持数据平滑迁移,支持原生的SQL和事务引擎。在不影响业务的情况下,可以满足用户探索新技术的需求。

相关文章
|
关系型数据库 MySQL 数据库
实时计算 Flink版产品使用合集之支持将数据写入 OceanBase 数据库吗
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
261 5
|
自然语言处理 JavaScript
vue element plus Config Provider 全局配置
vue element plus Config Provider 全局配置
408 0
|
SQL 存储 缓存
OceanBase查询优化器
本文整理自OceanBase团队高级技术专家王国平,在深入浅出 OceanBase线上技术沙龙第二期的分享。
OceanBase查询优化器
|
SQL 监控 关系型数据库
为 MySQL/MariaDB 开启 Binlog 功能
说到 Binlog 就不得不提一下 MySQL Server 的四种类型的日志:Error Log、General Query Log、Slow Query Log 和 Binary Log 。
5505 0
|
11月前
|
消息中间件 数据挖掘 Kafka
Apache Kafka流处理实战:构建实时数据分析应用
【10月更文挑战第24天】在当今这个数据爆炸的时代,能够快速准确地处理实时数据变得尤为重要。无论是金融交易监控、网络行为分析还是物联网设备的数据收集,实时数据处理技术都是不可或缺的一部分。Apache Kafka作为一款高性能的消息队列系统,不仅支持传统的消息传递模式,还提供了强大的流处理能力,能够帮助开发者构建高效、可扩展的实时数据分析应用。
514 5
|
存储 SQL NoSQL
非关系型数据库(NoSQL)
【4月更文挑战第9天】非关系型数据库(NoSQL)是分布式、非结构化、不遵循ACID原则的数据存储系统,常用于大规模数据存储和高并发场景。其类型包括键值对、文档型、列式和图形数据库。与关系型数据库不同,NoSQL数据模型更灵活,适合社交媒体和物联网应用,但在复杂事务处理上不如后者。实际应用中,通常会根据需求选择合适的数据库类型。
422 3
|
12月前
|
人工智能 Serverless API
云原生应用开发平台CAP:一站式应用开发及生命周期管理解决方案
阿里云的云应用开发平台CAP(Cloud Application Platform)是一款一站式应用开发及应用生命周期管理平台。它提供丰富的Serverless与AI应用模板、高效的开发者工具链及企业级应用管理功能,帮助开发者快速构建、部署和管理云上应用,大幅提升研发、部署和运维效能。
849 3
|
12月前
|
存储 项目管理 数据库
6款适合团队使用的在线协作文档工具:功能、费用与特色对比
在数字化工作环境中,选择合适的在线协作文档工具对团队生产力至关重要。本文介绍了六款备受好评的工具:板栗看板、Google Docs、Microsoft OneNote、Notion、Dropbox Paper 和 Quip。从功能、费用到特色,全面对比分析,帮助企业管理者找到最适合团队需求的解决方案。
894 6
|
11月前
|
网络协议 程序员 数据库
什么是公网IP和内网IP
【10月更文挑战第27天】公网IP与内网IP是网络通信中的两个重要概念。公网IP是互联网上的唯一标识,而内网IP仅在局域网内部有效,用于局域网内的设备通信。由于IPv4地址资源有限,通常一个公司或家庭只有一个公网IP,内部设备通过NAT(网络地址转换)技术共享该公网IP访问互联网。这样不仅节省了IP资源,还提高了网络安全性和稳定性。
903 0
|
运维 监控 关系型数据库
PostgreSQL运维核心技能之掌握并行查询
PostgreSQL运维核心技能之掌握并行查询
318 9