低成本历史库最佳实践

本文涉及的产品
云数据库 Tair(兼容Redis),内存型 2GB
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
简介: 阿里巴巴集团内为淘宝、支付宝、菜鸟提供订单、账单、物流单的历史库最佳实践方案,帮助您解决历史库的成本和扩展性问题,提供可视化的历史库链路搭建,支持水平扩展,极低的存储成本和丰富的在线查询能力。

云HBase活动福利

【云HBase产品介绍】
3.jpg

更多活动内容请参考链接

背景

阿里巴巴集团内为淘宝、支付宝、菜鸟提供订单、账单、物流单的历史库最佳实践方案,帮助您解决历史库的成本和扩展性问题,提供可视化的历史库链路搭建,支持水平扩展,极低的存储成本和丰富的在线查询能力。

在移动互联网高度发达的今天,每天都会有大量的业务数据产生,随着时间的积累和业务的发展数据量成指数级增长,同时历史数据的访问频率随着时间的推移却越来越低。这些数据全部存储在关系型数据库中会带来了一系列的问题。

挑战:

  • 存储成本的升高,存储成本和数据量成正比,数据量指数级增长带来了存储成本的指数级增加。
  • 查询性能的下降,单实例存储空间超过TB以后查询性能将会急剧下滑。
  • 运维复杂度高,通过分库分表的方式来解决数据量增加造成性能下降,给运维和业务开发增加了巨大的成本。

需求:

  • 存储成本可控,历史数据的存储成本是在线数据的10分之一。
  • 能够弹性的伸缩, 计算和存储能力自动水平扩展,不再依赖分库分表解决运维难的痛点。
  • 修改schema成本低, 支持快速修改schema或者动态schema,解决历史库schema变更时间长的问题。
  • 改造成本低, 可以支持SQL进行访问。
  • 满足实时查询需求,例如消费账单、聊天记录等场景历史数据的查询RT要能够和在线数据的查询RT接近。
  • 能够满足数据分析需求,历史数据访问频度低,但是在某些业务场景下需要对全量数据进行挖掘分析,比如支付宝年账单。

解决方案架构图

image.png

  • LTS数据同步服务对接MySQL等关系行数据库支持数据的全增量一体化同步,同时提供多表迁移、数据变化、DDL感知等企业级同步能力,帮助用户简单高效完成数据的迁移;
  • 云原生多模数据库Lindorm提供海量数据的低成本存储能力(0.11元/GB/月)、弹性伸缩按需付费、多模多端处理能力满足用户多种场景下的数据存储需求,同时可以无缝对接spark、hive、flink、presto等开源分析生态满足用户对数据的复杂分析需求,最大程度挖掘数据价值;

方案优势

简单易用

  • 数据搬迁配置可视化,分钟级完成迁移配置。
  • 全增量一体化,最大程度降低用户使用成本。
  • 支持多表迁移、数据变换等能力帮助用户轻松完成多表合并、字段组合变化等需求。
  • 全面的监控报警,保证数据同步稳定性。

极致性价比

  • 支持容量型存储成本底至0.11元/GB/月,在极致优化存储成本的同时通过系统内置缓冲加速层,让查询实时性仍有较大的保障,是实时历史库的最佳存储选择。
  • 在性能上,Lindorm宽表引擎在吞吐延迟(参考链接)上做了非常多的突破,其基准性能是开源HBase的7倍(参考报告);Lindorm时序引擎融入了许多创新型的高性能结构设计,其基准性能在目前的信通院榜单中处于第一的位置,大幅领先于其他专用时序数据库。
  • 支持智能冷热分离,针对数据随着时间线逐渐热变冷的场景,典型如监控、社交聊天、交易账单等,Lindorm内部将自动识别数据的冷热,并进行分离存储到高性能介质和低成本介质(两者之间的单价成本差可高达10:1),而用户读写访问保持完全透明,并且热数据的访问性能还能有所加速。
  • 支持自适应压缩,针对数据的不同类型和特点,系统将自动选择混合的字典、前缀、Delta、熵编码等压缩算法,相比业界通用算法,整体压缩率提升10%~30%。

云原生弹性

  • Lindorm基于存储计算分离的架构,支持计算资源、存储资源的独立弹性伸缩,最大程度避免资源浪费;
  • 同时提供Serverless服务,实现按需即时弹性、按使用量付费的能力。Lindorm Serverless基于多租户隔离、智能调度、弹性IaaS底座构建,具备企业级SLA保障,满足内部大部分业务的可用性要求,从而让一线同学大幅降低容量管理的运维负担,消除因流量波动导致的稳定性风险。

多模&检索

  • 兼容HBase、Phoenix(SQL)、Cassandra(CQL)等主流开源标准接口,最大程度降低用户改造成本;同时具备全局二级索引、多维检索、动态列、TTL等能力, 满足元数据、订单、账单、画像、社交、feed流、日志等多种场景需求。
  • 支持一键开启搜索引擎(兼容开源Solr标准接口), 具备全文检索、聚合计算、复杂多维查询等能力,帮助加速检索查询,满足用户实时复杂分析需求。

大数据生态

  • 无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品,支持API访问和文件读取等多种对接方式,简单高效满足用户海量数据分析需求。

适用客户:

使用MySQL存储订单、账单数据总量超过数千万行,MySQL性能开始出现下降,存储成本持续攀升。
数据需要长期或者永久保留并提供查询

典型场景

image.png

  • 用户交易记录通过APP写入MySQL,LTS将MySQL中实时同步到Lindorm,近三个月状态不断变化的记录查询MySQL,三个月以上历史交易记录查询Lindorm,历史交易记录存储在容量型存储中,存储成本下降90%以上。
  • 对于用户复杂条件实时检索需求,例如按时间、地点、金额大小、交易备注内容等任意组合查询,可以结合Lindorm搜索引擎的全文检索、聚合计算、复杂多维查询等能力,不需要业务改造就能轻松满足用户需求。
  • 通过LTS支持将Lindorm账单数据同步到Spark/MapCompuct等离线计算平台进行计算按照业务需求分析生成运营报表数据,然后回流到Lindorm供用户进行实时查询。

使用说明

RDS全增量同步
存的起,看得见—云原生多模数据库Lindorm技术解析

技术咨询请点击

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
4月前
|
数据采集 存储 监控
探索数据治理的实践路径:构建高效、合规的数据生态系统
在当今这个数据驱动的时代,数据已成为企业最宝贵的资产之一,它不仅驱动着业务决策,还塑造着企业的竞争优势。然而,随着数据量的爆炸性增长和来源的多样化,如何有效管理这些数据,确保其质量、安全性及合规性,成为了企业面临的重大挑战。数据治理作为一套指导数据管理和使用的框架,其重要性日益凸显。本文将探讨推动数据治理的实践路径,旨在帮助企业构建高效、合规的数据生态系统。
|
5月前
|
存储 监控 数据可视化
SLS 虽然不是直接使用 OSS 作为底层存储,但它凭借自身独特的存储架构和功能,为用户提供了一种专业、高效的日志服务解决方案。
【9月更文挑战第2天】SLS 虽然不是直接使用 OSS 作为底层存储,但它凭借自身独特的存储架构和功能,为用户提供了一种专业、高效的日志服务解决方案。
239 9
|
7月前
|
监控 C++ 运维
开发与运维数据问题之实现商业版和开源版在发送可观测数据方面的差异如何解决
开发与运维数据问题之实现商业版和开源版在发送可观测数据方面的差异如何解决
76 1
|
7月前
|
Java Serverless API
云原生应用问题之将文档中的代码部署在函数计算平台上会提升用户体验如何解决
云原生应用问题之将文档中的代码部署在函数计算平台上会提升用户体验如何解决
58 0
|
9月前
|
运维 监控 持续交付
构建高效稳定的云基础设施:最佳实践与案例分析
【5月更文挑战第31天】本文旨在探讨如何通过采纳现代云基础设施的最佳实践,构建一个高效且稳定的运维环境。文章将详细讨论云计算资源管理、自动化工具的应用、持续集成/持续部署(CI/CD)流程的优化以及监控和日志分析的重要性。通过对具体案例的分析,我们展示了这些策略如何在实际环境中提升系统的可靠性和性能,同时减少潜在的风险和成本。
|
SQL 数据管理 数据库
NineData:帮助开发者用好数据和云
数据库工具是用于创建、设计、管理、开发、维护和优化数据库的一系列软件工具。NineData是一款全球领先的数据库工具,旨在帮助开发者更高效地管理和使用数据库。该工具支持多云架构和混合云架构下的数据管理,可以轻松完成数据库开发、数据安全访问、数据库权限管理、数据库备份恢复等任务。对于个人开发者,NineData提供免费的SQL开发能力,同时还提供全量数据迁移/复制功能。对于中大型企业,NineData的SQL开发企业版和实时数据复制是收费产品,可以大幅提升企业的数据安全和研发效能。
173 1
|
9月前
|
存储 数据采集 运维
构建高效日志管理系统:阿里云产品实践与技术解析
日志管理对于系统运维和故障排查至关重要。本文将详细介绍如何利用阿里云相关产品搭建一个高效、可扩展的日志管理系统。我们将使用Log Service、Elasticsearch、DataHub等阿里云产品,通过代码示例和详细说明,带你一步步完成整个流程。
436 0
|
监控 安全 Cloud Native
云原生环境下的安全实践:保护应用程序和数据的关键策略
云原生环境下的安全实践:保护应用程序和数据的关键策略
615 0
云原生环境下的安全实践:保护应用程序和数据的关键策略
|
存储 人工智能 NoSQL
MongoDB推出五项MongoDB Atlas新功能,帮助企业使用单一开发者数据平台构建新应用程序类别
Beamable、Pureinsights、Anywhere Real Estate及Hootsuite等客户和合作伙伴,正使用MongoDB Atlas新功能构建下一代应用程序
MongoDB推出五项MongoDB Atlas新功能,帮助企业使用单一开发者数据平台构建新应用程序类别
|
运维 关系型数据库 Serverless
《Serverless数据库技术研究报告》——三、 Serverless数据库技术趋势——(一)屏蔽底层数据库操作,提升易用性
《Serverless数据库技术研究报告》——三、 Serverless数据库技术趋势——(一)屏蔽底层数据库操作,提升易用性
307 0