低成本历史库最佳实践

2020-02-18 46852

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 阿里巴巴集团内为淘宝、支付宝、菜鸟提供订单、账单、物流单的历史库最佳实践方案，帮助您解决历史库的成本和扩展性问题，提供可视化的历史库链路搭建，支持水平扩展，极低的存储成本和丰富的在线查询能力。

云HBase活动福利

【云HBase产品介绍】

背景

阿里巴巴集团内为淘宝、支付宝、菜鸟提供订单、账单、物流单的历史库最佳实践方案，帮助您解决历史库的成本和扩展性问题，提供可视化的历史库链路搭建，支持水平扩展，极低的存储成本和丰富的在线查询能力。

在移动互联网高度发达的今天,每天都会有大量的业务数据产生,随着时间的积累和业务的发展数据量成指数级增长,同时历史数据的访问频率随着时间的推移却越来越低。这些数据全部存储在关系型数据库中会带来了一系列的问题。

挑战:

存储成本的升高,存储成本和数据量成正比,数据量指数级增长带来了存储成本的指数级增加。
查询性能的下降,单实例存储空间超过TB以后查询性能将会急剧下滑。
运维复杂度高,通过分库分表的方式来解决数据量增加造成性能下降,给运维和业务开发增加了巨大的成本。

需求:

存储成本可控，历史数据的存储成本是在线数据的10分之一。
能够弹性的伸缩, 计算和存储能力自动水平扩展，不再依赖分库分表解决运维难的痛点。
修改schema成本低, 支持快速修改schema或者动态schema,解决历史库schema变更时间长的问题。
改造成本低, 可以支持SQL进行访问。
满足实时查询需求，例如消费账单、聊天记录等场景历史数据的查询RT要能够和在线数据的查询RT接近。
能够满足数据分析需求,历史数据访问频度低,但是在某些业务场景下需要对全量数据进行挖掘分析,比如支付宝年账单。

解决方案架构图

LTS数据同步服务对接MySQL等关系行数据库支持数据的全增量一体化同步,同时提供多表迁移、数据变化、DDL感知等企业级同步能力,帮助用户简单高效完成数据的迁移;
云原生多模数据库Lindorm提供海量数据的低成本存储能力(0.11元/GB/月)、弹性伸缩按需付费、多模多端处理能力满足用户多种场景下的数据存储需求,同时可以无缝对接spark、hive、flink、presto等开源分析生态满足用户对数据的复杂分析需求,最大程度挖掘数据价值;

方案优势

简单易用

数据搬迁配置可视化,分钟级完成迁移配置。
全增量一体化,最大程度降低用户使用成本。
支持多表迁移、数据变换等能力帮助用户轻松完成多表合并、字段组合变化等需求。
全面的监控报警,保证数据同步稳定性。

极致性价比

支持容量型存储成本底至0.11元/GB/月,在极致优化存储成本的同时通过系统内置缓冲加速层,让查询实时性仍有较大的保障,是实时历史库的最佳存储选择。
在性能上，Lindorm宽表引擎在吞吐延迟(参考链接)上做了非常多的突破，其基准性能是开源HBase的7倍(参考报告)；Lindorm时序引擎融入了许多创新型的高性能结构设计，其基准性能在目前的信通院榜单中处于第一的位置，大幅领先于其他专用时序数据库。
支持智能冷热分离，针对数据随着时间线逐渐热变冷的场景，典型如监控、社交聊天、交易账单等，Lindorm内部将自动识别数据的冷热，并进行分离存储到高性能介质和低成本介质(两者之间的单价成本差可高达10:1)，而用户读写访问保持完全透明，并且热数据的访问性能还能有所加速。
支持自适应压缩，针对数据的不同类型和特点，系统将自动选择混合的字典、前缀、Delta、熵编码等压缩算法，相比业界通用算法，整体压缩率提升10%~30%。

云原生弹性

Lindorm基于存储计算分离的架构，支持计算资源、存储资源的独立弹性伸缩,最大程度避免资源浪费;
同时提供Serverless服务，实现按需即时弹性、按使用量付费的能力。Lindorm Serverless基于多租户隔离、智能调度、弹性IaaS底座构建，具备企业级SLA保障，满足内部大部分业务的可用性要求，从而让一线同学大幅降低容量管理的运维负担，消除因流量波动导致的稳定性风险。

多模&检索

兼容HBase、Phoenix(SQL)、Cassandra(CQL)等主流开源标准接口,最大程度降低用户改造成本;同时具备全局二级索引、多维检索、动态列、TTL等能力, 满足元数据、订单、账单、画像、社交、feed流、日志等多种场景需求。
支持一键开启搜索引擎(兼容开源Solr标准接口), 具备全文检索、聚合计算、复杂多维查询等能力，帮助加速检索查询，满足用户实时复杂分析需求。

大数据生态

无缝对接Spark、Hive、Flink、Presto等开源大数据生态产品,支持API访问和文件读取等多种对接方式,简单高效满足用户海量数据分析需求。

适用客户：

使用MySQL存储订单、账单数据总量超过数千万行，MySQL性能开始出现下降，存储成本持续攀升。
数据需要长期或者永久保留并提供查询

典型场景

用户交易记录通过APP写入MySQL,LTS将MySQL中实时同步到Lindorm,近三个月状态不断变化的记录查询MySQL,三个月以上历史交易记录查询Lindorm,历史交易记录存储在容量型存储中,存储成本下降90%以上。
对于用户复杂条件实时检索需求,例如按时间、地点、金额大小、交易备注内容等任意组合查询,可以结合Lindorm搜索引擎的全文检索、聚合计算、复杂多维查询等能力,不需要业务改造就能轻松满足用户需求。
通过LTS支持将Lindorm账单数据同步到Spark/MapCompuct等离线计算平台进行计算按照业务需求分析生成运营报表数据,然后回流到Lindorm供用户进行实时查询。

使用说明

• RDS全增量同步
• 存的起，看得见—云原生多模数据库Lindorm技术解析

低成本历史库最佳实践

云HBase活动福利

更多活动内容请参考链接

背景

挑战:

需求:

解决方案架构图

方案优势

简单易用

极致性价比

云原生弹性

多模&检索

大数据生态

适用客户：

典型场景

使用说明

技术咨询请点击

NoSQL数据库

热门文章

最新文章

相关电子书