上去就是一梭子代码。
本文主要介绍 Tablestore SQL中的数据类型与 MySQL 数据类型之间的映射关系。 ## 背景介绍 ### Tablestore 数据类型 Tablestore 中的数据类型支持如下表所示,其中主键列支持的数据类型包括String、Integer和Binary,属性列支持的数据类型包括String、Integer、Double、Boolean和Binary。 - 主键列支持的数
本文主要介绍表格存储 SQL 支持的元数据操作。 ## 背景说明 如下表所示,目前表格存储 SQL 支持的元数据操作主要分为两大类:DDL操作和Admin操作。其中DDL操作包括:CREATE TABLE, DROP MAPPING TABLE, DESCRIBE TABLE。Admin操作包括:SHOW INDEX, SHOW TABLES。更多的元数据操作将在后续的版本迭代中支持,敬请期待。
使用Spark的DataFrame方式访问表格存储,并在本地和集群上分别进行运行调试。 ### 前提条件 - 了解Spark访问表格存储的依赖包,并在使用时通过maven方式引入项目中。 - Spark相关:spark-core、spark-sql、spark-hive - Spark Tablestore connector:emr-tablestore-.jar
批计算中的多元索引查询方式可以自定义谓词下推配置。目前只能设置与Long、String类型的列做大小比较的谓词是否下推。 ## 背景信息 谓词下推适用于当多元索引中多字段过滤的中间结果数据量较大,则中间结果的合并较为耗时的场景。此时可以将某些字段的过滤从存储层(表格存储)提到计算层(Spark)处理,提高查询效率。 例如`select * from table where a =
通过在E-MapReduce集群中使用Spark SQL访问表格存储。对于批计算,Tablestore on Spark提供索引选择、分区裁剪、Projection列和Filter下推、动态指定分区大小等功能,利用表格存储的全局二级索引或者多元索引可以加速查询。 ## 前提条件 - 已创建E-MapReduce Hadoop集群。具体操作,请参见[创建集群](https://help.al
通过在E-MapReduce集群中使用Spark SQL访问表格存储。对于流计算,基于通道服务,利用CDC(数据变更捕获)技术完成Spark的mini batch流式消费和计算,同时提供了at-least-once一致性语义。 ## 前提条件 - 已创建E-MapReduce Hadoop集群。具体操作,请参见[创建集群](https://help.aliyun.com/document_
使用Spark的DataFrame方式访问表格存储,并在本地和集群上分别进行运行调试。 ## 前提条件 - 了解Spark访问表格存储的依赖包,并在使用时通过maven方式引入项目中。 - Spark相关:spark-core、spark-sql、spark-hive - Spark Tablestore connector:emr-tablestore-.jar
本文介绍如何在E-MapReduce集群中使用Spark SQL访问表格存储的多元索引。 ### 前置准备 1. 创建E-MapReduce Hadoop集群,步骤参见[E-MapReduce快速入门](https://help.aliyun.com/document_detail/65683.html)。创建时挂载公网地址,用于后续的Shell远程登陆。 ![1.png](http
## 背景 表格存储可以为Spark提供**KV查询(主表,全局二级索引表)**、**多元索引查询**两套数据访问方式,以支持海量结构化数据快速读写和丰富的SQL查询分析能力。其分布式存储的特点和强大的索引引擎能够支持PB级存储、千万TPS以及毫秒级延迟的服务能力。 KV访问方式指的是主表和全局二级索引访问方式,其中主表指的是Tablestore的源数据主表,全局二级索引和多元索引的介绍见
## 前言 在大数据时代,数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产要素。随着业务和数据量的不断增长,性能和成本的权衡变成了大数据系统设计面临的关键挑战,这里甚至会导致原有系统进行架构改造或者数据迁移。所以在架构设计之初,我们就需要把整套架构的成本考虑进来,这对应的就是数据的分层存储和存储计算引擎的选择。Delta Lake是DataBricks公司推出的一种新型数据湖方案,围绕
本文介绍如何在E-MapReduce中通过Tablestore Spark Streaming Source将TableStore中的数据实时导入到Delta Lake中。 背景介绍 近些年来HTAP(Hybrid transaction/analytical processing)的热度越来越高,通过将存储和计算组合起来,既能支持传统的海量结构化数据分析,又能支持快速的事务更新写入,是设计数据密集型系统的一个成熟的架构。
本文将介绍如何在E-MapReduce中实时流式的处理Tablestore中的数据。 场景设计 随着互联网的发展,企业中积累的数据越来越多,数据的背后隐藏着巨大的价值,在双十一这样的节日中,电子商务企业都会在大屏幕上实时显示订单总量,由于订单总量巨大,不可能每隔一秒就到数据库中进行一次SQL统计,此时就需要用到流计算,而传统的方法都是需要借助Kafka消息队列来做流式计算,数据订单需要写入数据库与Kafka中,Spark Streaming 消费来自Kafka中的订单信息。
### 前言 数据复制主要指通过互联的网络在多台机器上保存相同数据的副本,通过数据复制方案,人们通常希望达到以下目的:1)使数据在地理位置上更接近用户,进而降低访问延迟;2)当部分组件出现故障时,系统依旧可以继续工作,提高可用性;3)扩展至多台机器以同时提供数据访问服务,从而提升读吞吐量。
# TableStore: 海量结构化数据实时备份实战 ## 数据备份简介 在信息技术与数据管理领域,备份是指将文件系统或数据库系统中的数据加以复制,一旦发生灾难或者错误操作时,得以方便而及时地恢复系统的有效数据和正常运作。
### 摘要 2018年5月10号,表格存储新版控制台的监控功能正式上线,优化后的监控功能,不仅可以为用户提供自定义时间段的监控信息查看,增加了对错误率的展示,还提供了更丰富的监控指标,能够清晰的看到指定时间段内诸如总访问量、CU总消耗、请求行数、流量等监控指标,同时,对监控的粒度也进行了提升,从5分钟提高到60秒。
#### 摘要 表格存储(TableStore)是构建在阿里云飞天分布式系统之上的 NoSQL 数据存储服务,提供海量结构化数据的存储和实时访问,数据读写是表格存储产品化最重要的功能之一。 本文首先介绍了表格存储原有的数据读写工具及不足之处,接着介绍了表格存储的数据模型,然后对控制台的数据读写功能进行了详尽的阐述,最后对控制台的数据读写功能进行了总结和展望。