低成本历史库最佳实践

本文涉及的产品
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
云数据库 Tair(兼容Redis),内存型 2GB
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
简介: 阿里巴巴集团内为淘宝、支付宝、菜鸟提供订单、账单、物流单的历史库最佳实践方案,帮助您解决历史库的成本和扩展性问题,提供可视化的历史库链路搭建,支持水平扩展,极低的存储成本和丰富的在线查询能力。

云HBase活动福利

【云HBase产品介绍】
3.jpg

更多活动内容请参考链接

背景

阿里巴巴集团内为淘宝、支付宝、菜鸟提供订单、账单、物流单的历史库最佳实践方案,帮助您解决历史库的成本和扩展性问题,提供可视化的历史库链路搭建,支持水平扩展,极低的存储成本和丰富的在线查询能力。

在移动互联网高度发达的今天,每天都会有大量的业务数据产生,随着时间的积累和业务的发展数据量成指数级增长,同时历史数据的访问频率随着时间的推移却越来越低。这些数据全部存储在关系型数据库中会带来了一系列的问题。

挑战:

  • 存储成本的升高,存储成本和数据量成正比,数据量指数级增长带来了存储成本的指数级增加。
  • 查询性能的下降,单实例存储空间超过TB以后查询性能将会急剧下滑。
  • 运维复杂度高,通过分库分表的方式来解决数据量增加造成性能下降,给运维和业务开发增加了巨大的成本。

需求:

  • 存储成本可控,历史数据的存储成本是在线数据的10分之一。
  • 能够弹性的伸缩, 计算和存储能力自动水平扩展,不再依赖分库分表解决运维难的痛点。
  • 修改schema成本低, 支持快速修改schema或者动态schema,解决历史库schema变更时间长的问题。
  • 改造成本低, 可以支持SQL进行访问。
  • 满足实时查询需求,例如消费账单、聊天记录等场景历史数据的查询RT要能够和在线数据的查询RT接近。
  • 能够满足数据分析需求,历史数据访问频度低,但是在某些业务场景下需要对全量数据进行挖掘分析,比如支付宝年账单。

解决方案架构图

image.png

  • LTS数据同步服务对接MySQL等关系行数据库支持数据的全增量一体化同步,同时提供多表迁移、数据变化、DDL感知等企业级同步能力,帮助用户简单高效完成数据的迁移;
  • 云原生多模数据库Lindorm提供海量数据的低成本存储能力(0.11元/GB/月)、弹性伸缩按需付费、多模多端处理能力满足用户多种场景下的数据存储需求,同时可以无缝对接spark、hive、flink、presto等开源分析生态满足用户对数据的复杂分析需求,最大程度挖掘数据价值;

方案优势

简单易用

  • 数据搬迁配置可视化,分钟级完成迁移配置。
  • 全增量一体化,最大程度降低用户使用成本。
  • 支持多表迁移、数据变换等能力帮助用户轻松完成多表合并、字段组合变化等需求。
  • 全面的监控报警,保证数据同步稳定性。

极致性价比

  • 支持容量型存储成本底至0.11元/GB/月,在极致优化存储成本的同时通过系统内置缓冲加速层,让查询实时性仍有较大的保障,是实时历史库的最佳存储选择。
  • 在性能上,Lindorm宽表引擎在吞吐延迟(参考链接)上做了非常多的突破,其基准性能是开源HBase的7倍(参考报告);Lindorm时序引擎融入了许多创新型的高性能结构设计,其基准性能在目前的信通院榜单中处于第一的位置,大幅领先于其他专用时序数据库。
  • 支持智能冷热分离,针对数据随着时间线逐渐热变冷的场景,典型如监控、社交聊天、交易账单等,Lindorm内部将自动识别数据的冷热,并进行分离存储到高性能介质和低成本介质(两者之间的单价成本差可高达10:1),而用户读写访问保持完全透明,并且热数据的访问性能还能有所加速。
  • 支持自适应压缩,针对数据的不同类型和特点,系统将自动选择混合的字典、前缀、Delta、熵编码等压缩算法,相比业界通用算法,整体压缩率提升10%~30%。

云原生弹性

  • Lindorm基于存储计算分离的架构,支持计算资源、存储资源的独立弹性伸缩,最大程度避免资源浪费;
  • 同时提供Serverless服务,实现按需即时弹性、按使用量付费的能力。Lindorm Serverless基于多租户隔离、智能调度、弹性IaaS底座构建,具备企业级SLA保障,满足内部大部分业务的可用性要求,从而让一线同学大幅降低容量管理的运维负担,消除因流量波动导致的稳定性风险。

多模&检索

  • 兼容HBase、Phoenix(SQL)、Cassandra(CQL)等主流开源标准接口,最大程度降低用户改造成本;同时具备全局二级索引、多维检索、动态列、TTL等能力, 满足元数据、订单、账单、画像、社交、feed流、日志等多种场景需求。
  • 支持一键开启搜索引擎(兼容开源Solr标准接口), 具备全文检索、聚合计算、复杂多维查询等能力,帮助加速检索查询,满足用户实时复杂分析需求。

大数据生态

  • 无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品,支持API访问和文件读取等多种对接方式,简单高效满足用户海量数据分析需求。

适用客户:

使用MySQL存储订单、账单数据总量超过数千万行,MySQL性能开始出现下降,存储成本持续攀升。
数据需要长期或者永久保留并提供查询

典型场景

image.png

  • 用户交易记录通过APP写入MySQL,LTS将MySQL中实时同步到Lindorm,近三个月状态不断变化的记录查询MySQL,三个月以上历史交易记录查询Lindorm,历史交易记录存储在容量型存储中,存储成本下降90%以上。
  • 对于用户复杂条件实时检索需求,例如按时间、地点、金额大小、交易备注内容等任意组合查询,可以结合Lindorm搜索引擎的全文检索、聚合计算、复杂多维查询等能力,不需要业务改造就能轻松满足用户需求。
  • 通过LTS支持将Lindorm账单数据同步到Spark/MapCompuct等离线计算平台进行计算按照业务需求分析生成运营报表数据,然后回流到Lindorm供用户进行实时查询。

使用说明

RDS全增量同步
存的起,看得见—云原生多模数据库Lindorm技术解析

技术咨询请点击

目录
相关文章
|
监控 关系型数据库 MySQL
MySQL创建索引的注意事项
在数据库设计和优化中,索引的合理使用是提高查询性能和加速数据检索的关键因素之一。通过选择适当的列、了解数据分布、定期维护和监控索引性能,我们能够最大程度地发挥索引的优势,提高数据库的效率和响应速度。
360 0
|
10月前
|
机器学习/深度学习 数据采集 供应链
使用Python实现智能食品库存管理的深度学习模型
使用Python实现智能食品库存管理的深度学习模型
504 63
|
负载均衡 大数据 测试技术
docker容器技术有哪些应用场景?
docker容器技术有哪些应用场景?
709 5
|
人工智能 Cloud Native Java
从云原生视角看 AI 原生应用架构的实践
本文核心观点: • 基于大模型的 AI 原生应用将越来越多,容器和微服务为代表的云原生技术将加速渗透传统业务。 • API 是 AI 原生应用的一等公民,并引入了更多流量,催生企业新的生命力和想象空间。 • AI 原生应用对网关的需求超越了传统的路由和负载均衡功能,承载了更大的 AI 工程化使命。 • AI Infra 的一致性架构至关重要,API 网关、消息队列、可观测是 AI Infra 的重要组成。
53045 107
|
10月前
|
机器学习/深度学习 数据采集 数据可视化
智能食品消费行为分析:基于Python与深度学习的实现
智能食品消费行为分析:基于Python与深度学习的实现
246 7
|
安全 Linux 网络安全
【工具使用】几款优秀的SSH连接客户端软件工具推荐FinalShell、Xshell、MobaXterm、OpenSSH、PUTTY、Terminus、mRemoteNG、Terminals等
【工具使用】几款优秀的SSH连接客户端软件工具推荐FinalShell、Xshell、MobaXterm、OpenSSH、PUTTY、Terminus、mRemoteNG、Terminals等
116925 0
|
消息中间件 存储 API
微服务间的通信机制
【8月更文第29天】随着微服务架构的普及,服务间的通信变得尤为重要。微服务架构强调将单一应用程序拆分为一组小型服务,每个服务运行在其独立的进程中,并使用轻量级机制(通常是HTTP资源API)进行通信。本文将详细介绍几种流行的微服务间通信方式,包括 RESTful API、gRPC 和消息队列,并探讨它们各自的优缺点。
737 1
|
分布式计算 搜索推荐 Hadoop
09 Hadoop推荐系统架构图
09 Hadoop推荐系统架构图
198 0
|
JavaScript Java Spring
springboot+vue 实现校园二手商城(毕业设计一)
这篇文章介绍了一个使用Spring Boot和Vue实现的校园二手商城系统的毕业设计,包括用户和商家的功能需求,如登录注册、订单管理、商品评价、联系客服等,以及项目依赖项的安装过程。
springboot+vue 实现校园二手商城(毕业设计一)
|
传感器 数据采集 物联网
物联网和仿真技术就是这对“双胞胎”的合体——数字孪生
【9月更文挑战第4天】在科技领域,物联网与仿真技术犹如一对互补的“双胞胎”。物联网擅长采集现实数据,而仿真技术则专长于虚拟模拟。二者结合,诞生了数字孪生,即在虚拟世界中创建与现实对应的“数字双胞胎”,利用物联网数据进行实时仿真分析,预测发展趋势,辅助决策。例如,在智能工厂中,当设备故障时,数字孪生可通过仿真分析提前发现问题并提出解决方案,减少实际损失。未来,数字孪生将在各领域发挥更大作用,带来更多便利。
261 0