2022云栖精选—Lindrom多模融合: 让海量数据存得起,看得见

本文涉及的产品
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
云数据库 Tair(兼容Redis),内存型 2GB
简介: 张为阿里巴巴集团研究员/NoSQL产品部负责人

lQLPJxbcF2cqNBvMiM0FeLCMz4ifcSGHeANpqgFLAEAA_1400_136.pngimage.png

过去20多年,互联网电商业务数据经历了快速增长,从传统处理结构化数据的OLTP数据库时代过渡到处理海量半结构化、非结构化数据的互联网业务平台新时代。新时代对大容量、高性能、低成本的海量数据处理平台的需求急速增长。

针对阿里巴巴电商业务,尤其是双十一数据海量增长和快速处理分析的需求,阿里巴巴开始自研数据库技术。2009年,Tair1.0内存数据库上线,支撑了电商交易的核心企业场景,在数十亿的QPS峰值下时延保持亚毫秒级别;2011年,Lindorm1.0数据库平台上线,支撑了阿里巴巴全系列业务在线大数据场景,在百PB存储下保持毫秒访问和极致低成本。

今天,随着网络技术进步以及对传感器技术的深入使用,各行各业数字化推进使得海量大数据的生产呈现出与以往更不一样的特征,同时对于高性能、低成本、大容量NoSQL数据库系统需求增加。

因此,阿里巴巴将诞生于电商互联网平台的大数据技术,以LindormTair为代表,结合阿里云上计算环境,推出一系列云上NoSQL数据库产品。2019年,阿里云与MongoDB强强联手,推出云上文档数据库;2020年,自研海量多模数据库Lindorm在阿里云正式上线;2022年,自研内存数据库Tair在阿里云正式上线。

image.png

 

Lindorm的诞生记录了数据库针对时代场景的挑战和变迁。

70年代开始,数据库的技术发展经历了三个阶段,第一个阶段以关系型数据库为代表,主要支撑企业和政府的关键业务数据。以处理结构化数据为主,处理的级别在GB级别,OracleDB2MySQL等都是常见的关系数据库产品。

2000年开始,随着互联网技术的发展,更多的业务对数据的管理和分析提出不一样的挑战。日志和文档等不同类型数据的产生,使得存储和处理半结构化数据、非结构化数据的非关系型数据库蓬勃发展,BigtableMongoDBRedisElasticSearch等都是非关系型数据库的典型代表,数据生产达到TB级别。

当下,随着万物数字化和各类传感器飞速发展,IDC预测到2025年全世界90%的数据将是以传感器生产的IoT数据为主。该数据的类型丰富多样,包括各式各样的传感器数据,例如图片、声音、GPS等,数据量可达到EB级别。因此,需要能够融合处理海量异构数据,并且提供极致低成本的原生多模数据库,这就是Lindorm诞生的原因。

image.png


Lindorm具备三个特性:

第一:Lindorm是一种多模超融合的数据,云原生地支持各种异构数据类型,包括半结构化和非结构化数据,如宽表、时序、时空等。Lindorm存储多种异构数据的同时,还能实现数据的在线分析和在线检索,向用户提供统一SQL接口。

第二:性能和成本的极致平衡。Lindorm是云原生的数据模型,它是典型的存储计算分离架构,可以让存储和计算事件实现独立弹性伸缩。Lindorm可无缝集成多种不同类型的存储,如对象存储、云盘存储、本地物理盘存储,还能综合管理不同类型存储服务的IO、性能及成本。针对海量数据在Lindorm的存储,Lindorm通过对数据冷热进行识别和分离,将不同级别的数据自适应到不同类型的存储上。以上特性让Lindorm实现高性能的同时降低了成本。

第三:Lindorm具备开源生态兼容的特性,可全面兼容各种开源体系,用户可零成本适配,支持HBaseCassandraOpenTSDBS3HDFSKafka等多种接口,使云下的大数据负载低成本、无缝地迁移至云上的多模数据库生态。


image.png

Lindorm多模融合架构分为三层。

第一层为存储融合主要解决海量数据在云原生大数据环境下存储效率问题,能够将云上存储能力无缝融合,降低用户对海量数据的管理和存储成本。针对新时代产生海量数据,Lindorm作为云原生模数据库,能够无缝地帮助用户管理多种不同层级存储介质,包括本地盘云盘云上对象存储等,用户可以将多种存储介质无缝呈现在一个存储池里,可根据特性自动多种异构数据分配到不同存储介质上。

同时Lindorm完全云原生的分布式文件系统作为底座,能够独立弹性扩缩存储容量。我们将不同存储介质能力Lindorm数据的负载做了自动适配,能够在不同级别上支持高效压缩与编码。比如,可以通过纠删码EC算法,将副本冗余系数降低至1.25,可以根据自适应压缩算法,最小化数据的存储。

image.png

第二层为结构融合。

用户在管理多组异构IoT或者万物互联网数据时,能够无缝地将多种异构数据通过一个平台系统进行管理,从而解决运维效率复杂度的问题。比如针对时序、时空数据,用户往往需要采用不同大数据系统针对每种负载独立构建数据服务在应用层将多种数据服务交互进行统一管理。Lindorm提供了灵活表格模型,比如Lindorm宽表既能支持传统关系型数据库Schema结构化数据,也可以通过增加动态链,向文档灵活增加Schema结构数据。宽表类型模型之外,Lindorm还支持多种其他异构数据存储引擎,比如支持JSON实时读取与处理,支持时序数据的融合分析,以及支持非结构化数据  Blob类型存储调用

通过将多种异构数据在一个数据库系统进行综合管理用户将无需分别构建多种数据库系统,大幅降低了用户对于海量异构数据运维管理成本,简化了用户系统架构。

image.png

第三层为多种负载计算融合,解决用户在处理分析多种异构数据时需要综合运用到多种计算能力以及开发复杂系统应用问题。

通过Lindorm底下内置多种数据分析引擎,比如传统Lindorm宽表引擎数据搜索引擎时空分析引擎批量离线计算引擎等分别处理不同类型异构数据同时无缝拉齐各种数据链路,使得异构数据可以流转被引擎拉起的多种异构数据进行融合分析。

传统开发模式需要构建多个数据服务,需要与多个数据服务器进行复杂交互,通过Lindorm SQL引擎,用户只需Lindorm一个系统打交道,极大简化开发数据应用成本,大幅提高开发效率。

image.png

Lindorm能够融合多种特性云上存储介质,能够智能识别用户在不同的负载里冷热数据的访问模式。Lindorm能够智能识别用户对于冷热数据的需求,将不同的冷热数据分散到不同存储介质上。可以用快速压缩算法将热数据存储到高性能存储介质上,经过智能识别以后可以实现冷热数据的转换,将数据进行深度压缩,最大化降低用户存储成本同时最大化用户的性能。

以上一切工作均在存储引擎内部完成用户无需手动分别处理冷数据与热数据。

image.png

Lindorm实现了SearchIndex加速检索分析。

数据写入以后进入宽表引擎用户只需经过简单配置,即可启动Lindorm搜索引擎,用户写入数据创建全量与增量索引用户无需再额外构建一套搜索服务,也无需将数据流转,可以在内部完成全局内容检索,大幅简化了用户应用开发流程。

 

image.png

物联网时代最典型应用是车联网数据,无数汽车无时无刻不在向车联网数据中心上传车机数据包括车辆运行状态时空位置车辆摄头以及雷达数据,数据量极大并且具有明显的异构特征而我们可以通过Lindorm提供的不同引擎,在同一个系统中处理与分析不同类型的车联网数据,大幅简化车联网应用的开发流程,开发、运维的效率均有大幅提升。

image.png

可观测场景下的数据包括tracingloggingmetrics等几种不同类型,传统方式下,我们需要使用不同的数据处理系统针对几种不同类型数据进行处理,比如tarcing需要使用宽表数据库,logging使用搜索引擎,metrics使用时序数据库。而有了Lindorm后,通过一个系统即可对三种数据统一进行融合管理与处理并且无需区分三种系统,无需使用三种不同接口与语言交互,只需统一使用SQL即可一站式完成监测场景应用开发。

image.png

Lindorm提供了HBase平滑迁移方案。通过高速数据通道LTS能够将客户已经建立HBase集群双向同步与迁移至云上Lindorm数据库。并且Lindorm支持使用HBase客户端或Lindorm客户端无缝访问迁移到Lindorm的数据,且存储成本降低50%,性能吞吐提高300%

lQLPJxbcF2cqM2TM-M0CnrCgW_7LDpyh1wNpqgFKAPsA_670_248.png

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
相关文章
|
5月前
|
存储 人工智能 文件存储
云栖速递,面向大规模数据智能的阿里云存储创新
云栖速递:面向大规模数据智能的阿里云存储创新
1417 2
云栖速递,面向大规模数据智能的阿里云存储创新
|
人工智能 编解码 云栖大会
|
存储 人工智能 自然语言处理
悦数图数据库:图技术加速行业大模型智能化应用落地|WAIC 2023 精彩回顾
7月8日,以“智联世界,生成未来”为主题的 2023 世界人工智能大会(WAIC)在上海顺利闭幕,悦数图数据库最新版本 v3.5.0在大会上首次亮相,并带来了悦数图数据库与 AI 大模型结合的实践成果分享,获得现场观众及媒体的广泛关注。
悦数图数据库:图技术加速行业大模型智能化应用落地|WAIC 2023 精彩回顾
|
存储 SQL 人工智能
贾扬清演讲实录:阿里云一体化大数据智能平台的演进丨2022云栖一体化大数据智能峰会
贾扬清在一体化大数据智能峰会论坛上分享立足于数据这个领域,数据和智能之间创新的火花。
贾扬清演讲实录:阿里云一体化大数据智能平台的演进丨2022云栖一体化大数据智能峰会
|
存储 人工智能 运维
QCon大会精彩分享:数据湖、可观测、自动驾驶训练,阿里云存储独家技术详解与案例实践!
QCon 全球软件开发大会是由极客邦科技旗下 InfoQ 中国主办的综合性技术盛会,每年在伦敦、北京、纽约、圣保罗、上海、旧金山召开。自2007年3月份开始举办以来,已经有超万名有多年从业经验的技术人员参加过QCon大会。QCon 内容源于实践并面向社区,演讲嘉宾依据热点话题,面向5年以上工作经验的技术团队负责人、架构师、工程总监、开发人员分享技术创新和实践。
1074 2
QCon大会精彩分享:数据湖、可观测、自动驾驶训练,阿里云存储独家技术详解与案例实践!
|
分布式计算 DataWorks Cloud Native
2022阿里云大数据公开课第一季 — 云原生一体化数仓产品新能力解读
为培育专业化、场景化的大数据解决方案,构建多层次的工业互联网平台、建设行业的大数据平台,阿里云整合自研大数据产品MaxCompute、DataWorks、Hologres,提出云原生一体化数仓,为企业提供一站式大数据处理平台。
701 0
2022阿里云大数据公开课第一季 — 云原生一体化数仓产品新能力解读
|
Cloud Native 多模数据库 物联网
1月7日直播预告| 面向工业物联网的Lindorm云原生超融合数据云
工业物联网行业发展介绍;云原生多模数据库Lindorm如何支撑企业数字化转型升级;超融合数据云存储系统为企业践行工业物联网带来的参考
311 0
1月7日直播预告| 面向工业物联网的Lindorm云原生超融合数据云
|
人工智能 边缘计算 Cloud Native
阿里云新品发布会周刊第82期 丨 重磅!大数据实时分析与决策&当AI遇上展会
12月23日阿里云新品发布会带您了解阿里云实时数仓如何助力企业实时决策;12月25日更有新栏目“云计算情报局”登场展现-当AI遇上展会。更多精彩内容敬请关注阿里云新品发布会!
791 0
阿里云新品发布会周刊第82期 丨 重磅!大数据实时分析与决策&当AI遇上展会
|
存储
数据湖的终极奥秘,无招胜有招 |《阿里云数据湖存储解决方案蓝皮书》江湖亮相
作为海量数据存储与分析的重要承载方式的数据湖,从2011年概念诞生至今,已经发展了9个年头。而数据湖是什么?又能为数字化经济带来什么?《阿里云数据湖存储解决方案蓝皮书》将为您揭开数据湖的"江湖"——无招胜有招‘
1569 0
数据湖的终极奥秘,无招胜有招 |《阿里云数据湖存储解决方案蓝皮书》江湖亮相
|
边缘计算
2019阿里云峰会-边缘计算专场,邀您共话大连接低时延场景下的技术探索与实践
随着视频大量应用、万物智联时代的到来,云计算将发展到下一个技术阶段,如何满足新一代的计算、传输需求,本论坛多位行业专家将在MEC、IoT、视频、AI等多个方向,分享边缘计算最新技术探索和实践,并对阿里云ENS2.0及视频监控等新品进行详细解读。
6974 0