[Phoenix] 九、分页查询
所谓分页查询就是从符合条件的起始记录,往后遍历“页大小”的行。对于Phoenix的分页查询,怎么使用?性能怎么样?需要注意什么?将会在文章中通过示例和数据说明。
浅谈HBase的数据分布
HBase的rowkey设计一直都是难点和痛点,不合适的rowkey设计会导致读写性能、吞吐不佳等诸多问题。本文从数据分布问题展开,介绍HBase基于Range的分布策略与region的调度问题,详细讨论了rowkey的比较规则及其应用,希望能够加深用户对HBase数据分布机制和rowkey的理解,从而做出更合适的设计,精准、高效的使用HBase。
从MapReduce的执行来看如何优化MaxCompute(原ODPS) SQL
SQL基础有这些操作(按照执行顺序来排列):
from
join(left join, right join, inner join, outer join ,semi join)
where
group by
select
sum
distinct
count
order by
如果我们能理解mapreduce是怎么实现这些SQL中的基本操作的,那么我们将很容易理解怎么优化SQL写法。
关于SQL+NoSQL : NewSQL数据库
一、什么是数据库?
一般一个数据库系统(Database System)可分为两个部分:
数据库(Database)
数据管理系统(Database Management System,DBMS)
A Database is an organized collection of data. —— Wikipedia数据库 就是 有组织的数据集合 ,存储在一个或多个磁盘文件中,俗称「数据的仓库」。
降本、赋能、链接:阿里巴巴全域数据建设 ——云栖大会阿里大数据分论坛精彩演讲1
2017云栖大会-阿里大数据分论坛,我们通过串联7个演讲,将阿里十余年在大数据领域 沉淀的技术能力和应用实践对外分享,系统性介绍我们是如何构建一个从底层的数据采集、处理,到挖掘算法、应用、产品服务的全链路、标准化的大数据体系,使得超过EB级别的海量数据能够高效融合,并以秒级的响应速度,服务并驱动阿里巴巴的业务和外部千万用户的发展。
MySQL · 答疑解惑 · GTID不一致分析
背景
server A,B 为双主结构,对于 server A 当gtid_next设置为AUTOMATIC时,A上执行的事务在binlog刷盘时递增获取事务的gtid,从而保证了在binlog中属于A的gtid是连续递增的。
A的binlog在B应用时,B会通过 Executed_Gtid_S