GaussDB在IoT大数据场景的创新实践

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 近日,在深圳举办的ArchSummit全球架构师峰会上,华为GaussDB生态与标准CTO王伟民发表了“IoT大数据场景下华为GaussDB的数据处理实践”主题演讲,分享了大数据场景下华为GaussDB的数据处理实践。在数据爆炸式增长的时代,企业在进行海量数据分析与处理时面临四大挑战:l 极致的弹性扩缩容能力,满足海量数据处理需求l 系统具备极高的可用性,满足7 * 24 * 365不间断持续运营诉求l 具备实时性分析能力,对服务体验、精准的个性化服务要求不断提高l 基础平台必须对应用开发友好,易管理易运维,满足业务创新加速,且在运维运营、变更等方面具有可视化、智能

近日,在深圳举办的ArchSummit全球架构师峰会上,华为GaussDB生态与标准CTO王伟民发表了“IoT大数据场景下华为GaussDB的数据处理实践”主题演讲,分享了大数据场景下华为GaussDB的数据处理实践。

在数据爆炸式增长的时代,企业在进行海量数据分析与处理时面临四大挑战:

l 极致的弹性扩缩容能力,满足海量数据处理需求

l 系统具备极高的可用性,满足7 24 365不间断持续运营诉求

l 具备实时性分析能力,对服务体验、精准的个性化服务要求不断提高

l 基础平台必须对应用开发友好,易管理易运维,满足业务创新加速,且在运维运营、变更等方面具有可视化、智能化能力

面对这些挑战,王伟民重点介绍了GaussDB的架构和关键特性,并通过三大案例介绍了GaussDB如何应对海量数据场景下面临的挑战、所应用的关键技术以及产生的业务价值。

PB级金融数仓迁移

GaussDB支撑某大行利用分布式数仓,对传统架构的数仓进行改造、向云化演进。该行的企业数据集成系统、企业数据仓库系统均采用商业一体机解决方案,另有数十个面向不同主题的数据集市。

由于数据规模及计算能力的要求,本系统当前已达240节点。大集群组网是分布式系统的一大关键挑战,GaussDB通过TCP多流链接共享技术,突破了物理端口限制;同时整个集群采用了“Fat-Tree”组网,来消除集群内上行、下行带宽瓶颈。

针对每日新增TB级数据的需求,GaussDB提供并行数据加载工具(GDS)提高数据加载速度。优化后单DN加载速度可达30MB/s,集群可达到TB/h (视DN数有关)。极致的加载速度是迁移PB级数据的关键能力,GDS并行加载性能业界领先,得到客户高度认可。

面对企业数仓规模不断扩大的需求,GaussDB能够实现按需扩展,满足业务增长对存储和性能的要求,降低TCO。2018年9月,GaussDB成功实现跨园区数据无损搬迁。2018年12月,原数据仓库系统100%搬迁。2019年6月30日,原数据仓库全部下线。

平安城市多源数据、异构融合分析

GaussDB支撑某平安城市场景,该场景存在三大挑战:多类型数据分析平台孤立建设,数据分散,无法拉通分析;受限于成本和架构,且随着数据量增加,扩容成本高;应对突发事件,需要实时对相关数据进行取证,已有系统交互分析响应时间长。因此,亟需具备高性价比、弹性可扩展、支持交互分析的平台。

在平安城市典型的“套牌车分析”场景中,某市有数千个智能卡口,集中存放约6000万过车记录。GaussDB在MPP并行计算框架基础上,利用列存向量化技术,可以秒级完成套牌车分析。

平安城市中涉及到多源融合分析场景。GaussDB的SQL On Anywhere特性可实现不搬迁Hadoop原有数据即可使用数仓的分析能力。

“以图搜图”是平安城市的重要应用场景,GaussDB利用CPU/GPU异构加速分析,实现秒级“以图搜图”。

极致高可用在线交易

“分布式在线交易数据库”在新金融下的应用实践。某零售银行的业务模式从“网上银行”过渡到“App银行”时代。App银行的月活跃用户在8000万~1亿,为保证买手机游戏账号海量用户的体验,零数据丢失及高可用非常关键。

首先,业务关键型负载通常希望7 * 24不间断服务,实现99.995%或99.999%的SLA,这意味着系统在零数据丢失前提下RTO尽可能小。GaussDB通过在同AZ(可用区)内的独立服务器或备机上设立全局缓冲池。在故障切换时,备库通过访问全局缓冲池而不是磁盘获取数据页面进行前滚,大幅降低RTO。

其次,当前金融系统普遍采用“同城生产及应急、异地容灾”的两地三中心架构,以满足监管要求。GaussDB引入了Paxos协议,用于分布式多副本的一致性保障,一致性仲裁决策路径短,效率高。

三个真实业务案例,充分展示了GaussDB在PB级融合数仓、多模异构分析、极致高可用交易数据库的能力,助力金融、平安城市等各行业客户实现业务创新。

截至目前,华为GaussDB和FusionInsight数据库已经应用于全球60个国家及地区,服务于1500多个客户,拥有500多家商业合作伙伴,并广泛应用于金融、运营商、政府、能源、医疗、制造、交通等多个行业。根据数据中心联盟最近发布的第八批大数据产品评测结果,华为GaussDB率先通过了512节点分布式分析型数据库基础能力评测。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
1月前
|
SQL 缓存 分布式计算
【跨国数仓迁移最佳实践5】MaxCompute近线查询解决方案助力物流电商等实时场景实现高效查询
本系列文章将围绕东南亚头部科技集团的真实迁移历程展开,逐步拆解 BigQuery 迁移至 MaxCompute 过程中的关键挑战与技术创新。本篇为第5篇,解析跨国数仓迁移背后的性能优化技术。 注:客户背景为东南亚头部科技集团,文中用 GoTerra 表示。
|
16天前
|
数据采集 运维 数据可视化
AR 运维系统与 MES、EMA、IoT 系统的融合架构与实践
AR运维系统融合IoT、EMA、MES数据,构建“感知-分析-决策-执行”闭环。通过AR终端实现设备数据可视化,实时呈现温度、工单等信息,提升运维效率与生产可靠性。(238字)
|
2月前
|
数据采集 SQL 搜索推荐
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
OneData是阿里巴巴内部实现数据整合与管理的方法体系与工具,旨在解决指标混乱、数据孤岛等问题。通过规范定义、模型设计与工具平台三层架构,实现数据标准化与高效开发,提升数据质量与应用效率。
大数据之路:阿里巴巴大数据实践——OneData数据中台体系
|
3月前
|
分布式计算 监控 大数据
大数据之路:阿里巴巴大数据实践——离线数据开发
该平台提供一站式大数据开发与治理服务,涵盖数据存储计算、任务调度、质量监控及安全管控。基于MaxCompute实现海量数据处理,结合D2与DataWorks进行任务开发与运维,通过SQLSCAN与DQC保障代码质量与数据准确性。任务调度系统支持定时、周期、手动运行等多种模式,确保高效稳定的数据生产流程。
大数据之路:阿里巴巴大数据实践——离线数据开发
|
3月前
|
数据采集 存储 大数据
大数据之路:阿里巴巴大数据实践——日志采集与数据同步
本资料全面介绍大数据处理技术架构,涵盖数据采集、同步、计算与服务全流程。内容包括Web/App端日志采集方案、数据同步工具DataX与TimeTunnel、离线与实时数仓架构、OneData方法论及元数据管理等核心内容,适用于构建企业级数据平台体系。
|
2月前
|
存储 SQL 分布式计算
大数据之路:阿里巴巴大数据实践——元数据与计算管理
本内容系统讲解了大数据体系中的元数据管理与计算优化。元数据部分涵盖技术、业务与管理元数据的分类及平台工具,并介绍血缘捕获、智能推荐与冷热分级等技术创新。元数据应用于数据标签、门户管理与建模分析。计算管理方面,深入探讨资源调度失衡、数据倾斜、小文件及长尾任务等问题,提出HBO与CBO优化策略及任务治理方案,全面提升资源利用率与任务执行效率。
|
2月前
|
存储 监控 大数据
大数据之路:阿里巴巴大数据实践——事实表设计
事实表是数据仓库核心,用于记录可度量的业务事件,支持高性能查询与低成本存储。主要包含事务事实表(记录原子事件)、周期快照表(捕获状态)和累积快照表(追踪流程)。设计需遵循粒度统一、事实可加性、一致性等原则,提升扩展性与分析效率。
|
3月前
|
存储 搜索推荐 算法
Java 大视界 -- Java 大数据在智慧文旅旅游线路规划与游客流量均衡调控中的应用实践(196)
本实践案例深入探讨了Java大数据技术在智慧文旅中的创新应用,聚焦旅游线路规划与游客流量调控难题。通过整合多源数据、构建用户画像、开发个性化推荐算法及流量预测模型,实现了旅游线路的精准推荐与流量的科学调控。在某旅游城市的落地实践中,游客满意度显著提升,景区流量分布更加均衡,充分展现了Java大数据技术在推动文旅产业智能化升级中的核心价值与广阔前景。
|
存储 分布式计算 大数据
大数据之路:阿里巴巴大数据实践——大数据领域建模综述
数据建模解决数据冗余、资源浪费、一致性缺失及开发低效等核心问题,通过分层设计提升性能10~100倍,优化存储与计算成本,保障数据质量并提升开发效率。相比关系数据库,数据仓库采用维度建模与列式存储,支持高效分析。阿里巴巴采用Kimball模型与分层架构,实现OLAP场景下的高性能计算与实时离线一体化。
|
3月前
|
SQL 缓存 监控
大数据之路:阿里巴巴大数据实践——实时技术与数据服务
实时技术通过流式架构实现数据的实时采集、处理与存储,支持高并发、低延迟的数据服务。架构涵盖数据分层、多流关联,结合Flink、Kafka等技术实现高效流计算。数据服务提供统一接口,支持SQL查询、数据推送与定时任务,保障数据实时性与可靠性。

热门文章

最新文章