低成本历史库最佳实践

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
简介: 阿里巴巴集团内为淘宝、支付宝、菜鸟提供订单、账单、物流单的历史库最佳实践方案,帮助您解决历史库的成本和扩展性问题,提供可视化的历史库链路搭建,支持水平扩展,极低的存储成本和丰富的在线查询能力。

云HBase活动福利

【云HBase产品介绍】
3.jpg

更多活动内容请参考链接

背景

阿里巴巴集团内为淘宝、支付宝、菜鸟提供订单、账单、物流单的历史库最佳实践方案,帮助您解决历史库的成本和扩展性问题,提供可视化的历史库链路搭建,支持水平扩展,极低的存储成本和丰富的在线查询能力。

在移动互联网高度发达的今天,每天都会有大量的业务数据产生,随着时间的积累和业务的发展数据量成指数级增长,同时历史数据的访问频率随着时间的推移却越来越低。这些数据全部存储在关系型数据库中会带来了一系列的问题。

挑战:

  • 存储成本的升高,存储成本和数据量成正比,数据量指数级增长带来了存储成本的指数级增加。
  • 查询性能的下降,单实例存储空间超过TB以后查询性能将会急剧下滑。
  • 运维复杂度高,通过分库分表的方式来解决数据量增加造成性能下降,给运维和业务开发增加了巨大的成本。

需求:

  • 存储成本可控,历史数据的存储成本是在线数据的10分之一。
  • 能够弹性的伸缩, 计算和存储能力自动水平扩展,不再依赖分库分表解决运维难的痛点。
  • 修改schema成本低, 支持快速修改schema或者动态schema,解决历史库schema变更时间长的问题。
  • 改造成本低, 可以支持SQL进行访问。
  • 满足实时查询需求,例如消费账单、聊天记录等场景历史数据的查询RT要能够和在线数据的查询RT接近。
  • 能够满足数据分析需求,历史数据访问频度低,但是在某些业务场景下需要对全量数据进行挖掘分析,比如支付宝年账单。

解决方案架构图

image.png

  • LTS数据同步服务对接MySQL等关系行数据库支持数据的全增量一体化同步,同时提供多表迁移、数据变化、DDL感知等企业级同步能力,帮助用户简单高效完成数据的迁移;
  • 云原生多模数据库Lindorm提供海量数据的低成本存储能力(0.11元/GB/月)、弹性伸缩按需付费、多模多端处理能力满足用户多种场景下的数据存储需求,同时可以无缝对接spark、hive、flink、presto等开源分析生态满足用户对数据的复杂分析需求,最大程度挖掘数据价值;

方案优势

简单易用

  • 数据搬迁配置可视化,分钟级完成迁移配置。
  • 全增量一体化,最大程度降低用户使用成本。
  • 支持多表迁移、数据变换等能力帮助用户轻松完成多表合并、字段组合变化等需求。
  • 全面的监控报警,保证数据同步稳定性。

极致性价比

  • 支持容量型存储成本底至0.11元/GB/月,在极致优化存储成本的同时通过系统内置缓冲加速层,让查询实时性仍有较大的保障,是实时历史库的最佳存储选择。
  • 在性能上,Lindorm宽表引擎在吞吐延迟(参考链接)上做了非常多的突破,其基准性能是开源HBase的7倍(参考报告);Lindorm时序引擎融入了许多创新型的高性能结构设计,其基准性能在目前的信通院榜单中处于第一的位置,大幅领先于其他专用时序数据库。
  • 支持智能冷热分离,针对数据随着时间线逐渐热变冷的场景,典型如监控、社交聊天、交易账单等,Lindorm内部将自动识别数据的冷热,并进行分离存储到高性能介质和低成本介质(两者之间的单价成本差可高达10:1),而用户读写访问保持完全透明,并且热数据的访问性能还能有所加速。
  • 支持自适应压缩,针对数据的不同类型和特点,系统将自动选择混合的字典、前缀、Delta、熵编码等压缩算法,相比业界通用算法,整体压缩率提升10%~30%。

云原生弹性

  • Lindorm基于存储计算分离的架构,支持计算资源、存储资源的独立弹性伸缩,最大程度避免资源浪费;
  • 同时提供Serverless服务,实现按需即时弹性、按使用量付费的能力。Lindorm Serverless基于多租户隔离、智能调度、弹性IaaS底座构建,具备企业级SLA保障,满足内部大部分业务的可用性要求,从而让一线同学大幅降低容量管理的运维负担,消除因流量波动导致的稳定性风险。

多模&检索

  • 兼容HBase、Phoenix(SQL)、Cassandra(CQL)等主流开源标准接口,最大程度降低用户改造成本;同时具备全局二级索引、多维检索、动态列、TTL等能力, 满足元数据、订单、账单、画像、社交、feed流、日志等多种场景需求。
  • 支持一键开启搜索引擎(兼容开源Solr标准接口), 具备全文检索、聚合计算、复杂多维查询等能力,帮助加速检索查询,满足用户实时复杂分析需求。

大数据生态

  • 无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品,支持API访问和文件读取等多种对接方式,简单高效满足用户海量数据分析需求。

适用客户:

使用MySQL存储订单、账单数据总量超过数千万行,MySQL性能开始出现下降,存储成本持续攀升。
数据需要长期或者永久保留并提供查询

典型场景

image.png

  • 用户交易记录通过APP写入MySQL,LTS将MySQL中实时同步到Lindorm,近三个月状态不断变化的记录查询MySQL,三个月以上历史交易记录查询Lindorm,历史交易记录存储在容量型存储中,存储成本下降90%以上。
  • 对于用户复杂条件实时检索需求,例如按时间、地点、金额大小、交易备注内容等任意组合查询,可以结合Lindorm搜索引擎的全文检索、聚合计算、复杂多维查询等能力,不需要业务改造就能轻松满足用户需求。
  • 通过LTS支持将Lindorm账单数据同步到Spark/MapCompuct等离线计算平台进行计算按照业务需求分析生成运营报表数据,然后回流到Lindorm供用户进行实时查询。

使用说明

RDS全增量同步
存的起,看得见—云原生多模数据库Lindorm技术解析

技术咨询请点击

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
1月前
|
存储 数据管理 数据处理
提升数据处理效率:TDengine S3 的最佳实践与应用
在当今数据驱动的时代,如何高效地存储与处理海量数据成为了企业面临的一大挑战。为了解决这一问题,我们在 TDengine 3.2.2.0 首次发布了企业级功能 S3 存储。这一功能经历多个版本的迭代与完善后,逐渐发展成为一个全面和高效的解决方案。
36 0
|
2月前
|
SQL 搜索推荐 数据管理
离线集成整库迁移再升级,定制化与灵活性全面增强
为了更好地满足客户对于数据库迁移过程中的个性化管理和操作需求,我们最新版本对“离线集成整库迁移”功能进行了更新,旨在解决客户在实际应用中遇到的痛点,进一步提升迁移任务的可管理性和便捷性。
|
3月前
|
JSON 数据管理 关系型数据库
【Dataphin V3.9】颠覆你的数据管理体验!API数据源接入与集成优化,如何让企业轻松驾驭海量异构数据,实现数据价值最大化?全面解析、实战案例、专业指导,带你解锁数据整合新技能!
【8月更文挑战第15天】随着大数据技术的发展,企业对数据处理的需求不断增长。Dataphin V3.9 版本提供更灵活的数据源接入和高效 API 集成能力,支持 MySQL、Oracle、Hive 等多种数据源,增强 RESTful 和 SOAP API 支持,简化外部数据服务集成。例如,可轻松从 RESTful API 获取销售数据并存储分析。此外,Dataphin V3.9 还提供数据同步工具和丰富的数据治理功能,确保数据质量和一致性,助力企业最大化数据价值。
183 1
|
4月前
|
监控 数据挖掘 大数据
阿里云开源利器:DataX3.0——高效稳定的离线数据同步解决方案
对于需要集成多个数据源进行大数据分析的场景,DataX3.0同样提供了有力的支持。企业可以使用DataX将多个数据源的数据集成到一个统一的数据存储系统中,以便进行后续的数据分析和挖掘工作。这种集成能力有助于提升数据分析的效率和准确性,为企业决策提供有力支持。
|
4月前
|
监控 C++ 运维
开发与运维数据问题之实现商业版和开源版在发送可观测数据方面的差异如何解决
开发与运维数据问题之实现商业版和开源版在发送可观测数据方面的差异如何解决
58 1
|
6月前
|
运维 监控 持续交付
构建高效稳定的云基础设施:最佳实践与案例分析
【5月更文挑战第31天】本文旨在探讨如何通过采纳现代云基础设施的最佳实践,构建一个高效且稳定的运维环境。文章将详细讨论云计算资源管理、自动化工具的应用、持续集成/持续部署(CI/CD)流程的优化以及监控和日志分析的重要性。通过对具体案例的分析,我们展示了这些策略如何在实际环境中提升系统的可靠性和性能,同时减少潜在的风险和成本。
|
6月前
|
DataWorks 监控 安全
|
6月前
|
监控 安全 大数据
Dataphin V3.10升级速览丨集成能力提升、15个应用场景、数据治理能力优化……
Dataphin V3.10升级速览丨集成能力提升、15个应用场景、数据治理能力优化……
151 0
|
SQL 安全 Cloud Native
NineData数据复制技术助力实时数仓构建,开发人员必读!
NineData 和 SelectDB 共同举办的主题为“实时数据驱动,引领企业智能化数据管理”的线上联合发布会,圆满成功举办!双方聚焦于实时数据仓库技术和数据开发能力,展示如何通过强大的生态开发兼容性,对接丰富的大数据生态产品,助力企业快速开展数据分析业务,共同探索实时数据驱动的未来企业智能化数据管理解决方案。本文根据玖章算术技术副总裁陈长城(天羽)在 NineData X SelectDB 联合发布会的主题演讲内容整理。
492 0
NineData数据复制技术助力实时数仓构建,开发人员必读!
|
机器学习/深度学习 算法 安全
隐语V0.7.11版本更新:金融全链路算法完善 ,面向开发者发布配套的交互式教程
隐语V0.7.11版本更新:金融全链路算法完善 ,面向开发者发布配套的交互式教程
202 0
下一篇
无影云桌面