低成本历史库最佳实践

本文涉及的产品
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
简介: 阿里巴巴集团内为淘宝、支付宝、菜鸟提供订单、账单、物流单的历史库最佳实践方案,帮助您解决历史库的成本和扩展性问题,提供可视化的历史库链路搭建,支持水平扩展,极低的存储成本和丰富的在线查询能力。

云HBase活动福利

【云HBase产品介绍】
3.jpg

更多活动内容请参考链接

背景

阿里巴巴集团内为淘宝、支付宝、菜鸟提供订单、账单、物流单的历史库最佳实践方案,帮助您解决历史库的成本和扩展性问题,提供可视化的历史库链路搭建,支持水平扩展,极低的存储成本和丰富的在线查询能力。

在移动互联网高度发达的今天,每天都会有大量的业务数据产生,随着时间的积累和业务的发展数据量成指数级增长,同时历史数据的访问频率随着时间的推移却越来越低。这些数据全部存储在关系型数据库中会带来了一系列的问题。

挑战:

  • 存储成本的升高,存储成本和数据量成正比,数据量指数级增长带来了存储成本的指数级增加。
  • 查询性能的下降,单实例存储空间超过TB以后查询性能将会急剧下滑。
  • 运维复杂度高,通过分库分表的方式来解决数据量增加造成性能下降,给运维和业务开发增加了巨大的成本。

需求:

  • 存储成本可控,历史数据的存储成本是在线数据的10分之一。
  • 能够弹性的伸缩, 计算和存储能力自动水平扩展,不再依赖分库分表解决运维难的痛点。
  • 修改schema成本低, 支持快速修改schema或者动态schema,解决历史库schema变更时间长的问题。
  • 改造成本低, 可以支持SQL进行访问。
  • 满足实时查询需求,例如消费账单、聊天记录等场景历史数据的查询RT要能够和在线数据的查询RT接近。
  • 能够满足数据分析需求,历史数据访问频度低,但是在某些业务场景下需要对全量数据进行挖掘分析,比如支付宝年账单。

解决方案架构图

image.png

  • LTS数据同步服务对接MySQL等关系行数据库支持数据的全增量一体化同步,同时提供多表迁移、数据变化、DDL感知等企业级同步能力,帮助用户简单高效完成数据的迁移;
  • 云原生多模数据库Lindorm提供海量数据的低成本存储能力(0.11元/GB/月)、弹性伸缩按需付费、多模多端处理能力满足用户多种场景下的数据存储需求,同时可以无缝对接spark、hive、flink、presto等开源分析生态满足用户对数据的复杂分析需求,最大程度挖掘数据价值;

方案优势

简单易用

  • 数据搬迁配置可视化,分钟级完成迁移配置。
  • 全增量一体化,最大程度降低用户使用成本。
  • 支持多表迁移、数据变换等能力帮助用户轻松完成多表合并、字段组合变化等需求。
  • 全面的监控报警,保证数据同步稳定性。

极致性价比

  • 支持容量型存储成本底至0.11元/GB/月,在极致优化存储成本的同时通过系统内置缓冲加速层,让查询实时性仍有较大的保障,是实时历史库的最佳存储选择。
  • 在性能上,Lindorm宽表引擎在吞吐延迟(参考链接)上做了非常多的突破,其基准性能是开源HBase的7倍(参考报告);Lindorm时序引擎融入了许多创新型的高性能结构设计,其基准性能在目前的信通院榜单中处于第一的位置,大幅领先于其他专用时序数据库。
  • 支持智能冷热分离,针对数据随着时间线逐渐热变冷的场景,典型如监控、社交聊天、交易账单等,Lindorm内部将自动识别数据的冷热,并进行分离存储到高性能介质和低成本介质(两者之间的单价成本差可高达10:1),而用户读写访问保持完全透明,并且热数据的访问性能还能有所加速。
  • 支持自适应压缩,针对数据的不同类型和特点,系统将自动选择混合的字典、前缀、Delta、熵编码等压缩算法,相比业界通用算法,整体压缩率提升10%~30%。

云原生弹性

  • Lindorm基于存储计算分离的架构,支持计算资源、存储资源的独立弹性伸缩,最大程度避免资源浪费;
  • 同时提供Serverless服务,实现按需即时弹性、按使用量付费的能力。Lindorm Serverless基于多租户隔离、智能调度、弹性IaaS底座构建,具备企业级SLA保障,满足内部大部分业务的可用性要求,从而让一线同学大幅降低容量管理的运维负担,消除因流量波动导致的稳定性风险。

多模&检索

  • 兼容HBase、Phoenix(SQL)、Cassandra(CQL)等主流开源标准接口,最大程度降低用户改造成本;同时具备全局二级索引、多维检索、动态列、TTL等能力, 满足元数据、订单、账单、画像、社交、feed流、日志等多种场景需求。
  • 支持一键开启搜索引擎(兼容开源Solr标准接口), 具备全文检索、聚合计算、复杂多维查询等能力,帮助加速检索查询,满足用户实时复杂分析需求。

大数据生态

  • 无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品,支持API访问和文件读取等多种对接方式,简单高效满足用户海量数据分析需求。

适用客户:

使用MySQL存储订单、账单数据总量超过数千万行,MySQL性能开始出现下降,存储成本持续攀升。
数据需要长期或者永久保留并提供查询

典型场景

image.png

  • 用户交易记录通过APP写入MySQL,LTS将MySQL中实时同步到Lindorm,近三个月状态不断变化的记录查询MySQL,三个月以上历史交易记录查询Lindorm,历史交易记录存储在容量型存储中,存储成本下降90%以上。
  • 对于用户复杂条件实时检索需求,例如按时间、地点、金额大小、交易备注内容等任意组合查询,可以结合Lindorm搜索引擎的全文检索、聚合计算、复杂多维查询等能力,不需要业务改造就能轻松满足用户需求。
  • 通过LTS支持将Lindorm账单数据同步到Spark/MapCompuct等离线计算平台进行计算按照业务需求分析生成运营报表数据,然后回流到Lindorm供用户进行实时查询。

使用说明

RDS全增量同步
存的起,看得见—云原生多模数据库Lindorm技术解析

技术咨询请点击

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
1月前
|
缓存 物联网 数据库
如何帮助我们改造升级原有架构——基于TDengine 平台
一、简介 TDengine 核心是一款高性能、集群开源、云原生的时序数据库(Time Series Database,TSDB),专为物联网IoT平台、工业互联网、电力、IT 运维等场景设计并优化,具有极强的弹性伸缩能力。同时它还带有内建的缓存、流式计算、数据订阅等系统功能,能大幅减少系统设计的复杂度,降低研发和运营成本,是一个高性能、分布式的物联网IoT、工业大数据平台。 二、TDengine 功能与组件 TDengine 社区版是一开源版本,采用的是 AGPL 许可证,它具备高效处理时序数据所需要的所有功能,包括: SQL 写入、无模式写入和通过第三方工具写入 S标准 SQL 查
64 13
|
1月前
|
SQL 搜索推荐 数据管理
离线集成整库迁移再升级,定制化与灵活性全面增强
为了更好地满足客户对于数据库迁移过程中的个性化管理和操作需求,我们最新版本对“离线集成整库迁移”功能进行了更新,旨在解决客户在实际应用中遇到的痛点,进一步提升迁移任务的可管理性和便捷性。
|
1月前
|
存储 SQL 分布式计算
Hologres 与阿里云生态的集成:构建高效的数据处理解决方案
【9月更文第1天】随着大数据时代的到来,数据处理和分析的需求日益增长。阿里云作为国内领先的云计算平台之一,提供了多种数据存储和处理的服务,其中Hologres作为一款实时数仓产品,以其高性能、高可用性以及对标准SQL的支持而受到广泛关注。本文将探讨Hologres如何与阿里云上的其他服务如MaxCompute、DataHub等进行集成,以构建一个完整的数据处理解决方案。
65 2
|
2月前
|
缓存 运维 监控
打造稳定高效的数据引擎:数据库服务器运维最佳实践全解析
打造稳定高效的数据引擎:数据库服务器运维最佳实践全解析
|
3月前
|
监控 C++ 运维
开发与运维数据问题之实现商业版和开源版在发送可观测数据方面的差异如何解决
开发与运维数据问题之实现商业版和开源版在发送可观测数据方面的差异如何解决
46 1
|
5月前
|
运维 监控 持续交付
构建高效稳定的云基础设施:最佳实践与案例分析
【5月更文挑战第31天】本文旨在探讨如何通过采纳现代云基础设施的最佳实践,构建一个高效且稳定的运维环境。文章将详细讨论云计算资源管理、自动化工具的应用、持续集成/持续部署(CI/CD)流程的优化以及监控和日志分析的重要性。通过对具体案例的分析,我们展示了这些策略如何在实际环境中提升系统的可靠性和性能,同时减少潜在的风险和成本。
|
5月前
|
DataWorks 监控 安全
|
5月前
|
SQL 架构师 大数据
提升企业级数据处理效率!3.0 系列版本的四个集群优化点详解
为了帮助企业更好地进行大数据处理,我们在此前 TDengine 3.x 系列版本中进行了几项与集群相关的优化和新功能开发,本文将对这几项重要优化进行详细阐述。
82 0
|
5月前
|
SQL 存储 数据库
使用NineData OnlineDML:轻松处理大规模数据变更
在线DML,无锁变更数据,保障业务运行。NineData助你解决大批量数据变更难题。
98 0
|
5月前
|
监控 安全 大数据
Dataphin V3.10升级速览丨集成能力提升、15个应用场景、数据治理能力优化……
Dataphin V3.10升级速览丨集成能力提升、15个应用场景、数据治理能力优化……
144 0