长期从事大数据系统与产品研发。
暂时未有相关通用技术能力~
阿里云技能认证
详细说明做在线业务的开发者经常会碰到这样的难题:在线数据库上面运行稍微复杂点的查询,在线业务就挂了!不管是单机数据库如MySQL、PG,还是分布式数据库,HBase、MongoDB、Cassandra都有这个问题。
在大数据场景中,HBase由于其高吞吐,高并发,实时可见等特性往往被作为在线主存储,云HBase团队融合了在线存储引擎和全文引擎的优势,解决了针对在线大数据存储的复杂查询难题,并提供SQL统一表达,降低用户使用门槛。通过一站式产品能力,用户可以更加灵活高效地解决业务问题。
阿里云HBase SQL基于Phoenix 5.0版本,为云HBase2.0赋予NewSQL特性,降低kv接口使用复杂性,并提供Schema、Secondary Indexes、View 、Bulk Loading(离线大规模load数据)、Atomic Upsert、Salted Tables、Dynamic Columns、Skip Scan等特性的能力,大大降低了用户的使用门槛。
数据库发展有三个明显的趋势:1. 越来越多的数据库会做云原生(CloudNative);2. NoSQL正在解决BigData领域的问题;3. 越来越多的公司或者产品都是融合多个能力。 阿里云HBase经过公共云两年(单独的HBase在阿里内部已经发展快9年)的发展,融合开源Apache HBase、Apache Phoenix、Apache Spark、Apache Solr等开源项目,再加上一系列自研特性,满足 【一体化数据处理平台,提供一站式能力】。
开源版Phoenix对于时区的处理比较混乱,容易造成用户误解、误用。本文梳理了开源Phoenix对于时区的处理逻辑,以及介绍了阿里云Phoenix对时区问题的解决方案。
数据爆炸使得传统单机数据库面临一系列挑战,HBase作为NoSQL数据库,解决了大规模数据实时读写的难题。Phoenix项目在HBase的基础上增加了SQL语言表达,算子原地执行,二级索引,加盐表等特性,进化成为了NewSQL数据库,更好用也更强大。
动态伸缩参数,可以生效
用--jars之类,要把jar包上传的
npe一般是bug,升级版本或者尝试阅读下源码吧
扩容hbase吧
可以考虑hudi,delta这种支持增量更新的数据格式
如果是mysql本身随着数据量增大而变慢,只能考虑扩容,或者使用polardb之类的方案。
配置spark.executor.instances参数
没有
目前还没有现有的接口,不过可以通过解析hbase wal实现
不会
不是必须的
count本来就很慢的,不建议在phoenix上执行count
要具体问题具体分析了
最好不要用
支持的
yarn可以设置额外内存申请,你可以找下相关参数
没有这个强制要求
参考下文档吧,需要用到mr
phoenix的删除不是原子的,你可以手动清理下
可以的,xpack spark提供了livy接口可以提交作业