暂时未有相关云产品技术能力~
微信公众号:数据社,专注大数据架构,数据仓库,MPP数据库技术干货分享,中国DBA联盟成员,墨天伦、51CTO多个社区技术专家。
GreenPlum数据库介绍
hive数据迁移
Flink部署
Flink开发环境搭建
推荐一款可视化+NoteBook工具
Hive改表结构的两个坑|避坑指南
一文了解GreenPlum
畅想数据湖
谈谈大数据采集和常见问题
数据湖比数据仓库香在哪?
ETL的灵魂:调度系统
数仓中如何管控数据?
数仓如何选择计算引擎?
最近在做数据治理相关的工作,说下数据治理里面很重要的一块,同时也可以作为数据治理的一个成果—数据地图。
我的博客即将入驻“云栖社区”,诚邀技术同仁一同入驻。 $(function () { $('pre.prettyprint code').each(function () { var lines = $(this).text().split('\n').le
HPVertica是一款MPP数据库,其列式存储对于OLAP分析很方便。 HPE Vertica is the most advanced SQL database analytics portfolio built from the very first line of code to address the most demanding Big Dat
—备份资源池 SELECT 'CREATE RESOURCE POOL ' || name || CASE WHEN memorysize IS NULL THEN ' ' ELSE ' MEMORYSIZE ' || '''' || memorysize
1、字符串判断 str1 = str2 当两个串有相同内容、长度时为真 str1 != str2 当串str1和str2不等时为真 -n str1 当串的长度大于0时为真(串非空) -z str1 当串的长度为0时为真(空串) str1 当串str1为非空时为真 2、数字的判断
vertica中没有类似Oracle中的ws_concat函数功能,需要开发UDF,自己对C++不熟悉,所有只有想其他方法解决了。 上代码: SELECT node_state, MAX(DECODE(row_number, 1, a.node_name)) || NVL(MAX(DECODE(row_number, 2, ',' || a.node_
1、版本信息 dbadmin=> SELECT version(); version ------------------------------------ Vertica Analytic Database v7.
基本格式 : * * * * * command 分 时 日 月 周 命令 第1列表示分钟1~59 每分钟用或者 /1表示 第2列表示小时1~23(0表示0点) 第3列表示日期1~31 第4列表示月份1~12 第5列标识号星期0~6(0表示星期天) 第6列要运行的命令 crontab文件的一些例子: 30 21 * *
vertica group by优化语句,先对语句进行explain 操作查看预执行计划,其中group by 分为 GROUPBY PIPELINED 和 GROUPBY HASH,通过执行计划可以清楚的看到vertica到底采用的那种执行方式,优化一般就是吧GROUPBY HASH优化为GROUPBY PIPELINED 下面讲一下官网举得例子 CRE
1、查看各个节点的状态,保证没有节点出现down状态 select * from nodes; 2、设置最大会话数 => SELECT CURRENT_VALUE FROM CONFIGURATION_PARAMETERS WHERE parameter_name='MaxClientSessions'; CURRENT_VALUE -----------
最近在生产中发现vertica有个别节点老是宕机(又碰到的童鞋交流下),实际业务中有Python通过odbc连接vertica,还有Java通过jdbc连接vertica。假如你连接的那个节点正好是down的节点或者是standby节点,那么就会连接失败,程序就会报错,影响正常业务。其实vertica官方文档已经给出了解决方法,下面我们来看一下如何实现。 ODBC Conn
比如需要把生产的hive集群数据迁移到另一个集群,hive提供了2个命令工具,可以实现表的批量迁移。 [export/import] 设置默认需要导出的hive数据库 在hive目录/etc/alternatives/hive-conf下添加.hiverc vi ~/.hiverc use test; 创建数据临时目录 hdfs dfs -mkdir /tmp/
Transformations map,filter spark最长用的两个Transformations:map,filter,下面就来介绍一下这两个。 先看下面这张图: 从上图中可以清洗的看到 map和filter都是做的什么工作,那我们就代码演示一下。 val input = sc.parallelize(List(1,2,3,4))
1、SparkContext [经常简称为 sc] spark app 的起点和入口,一般用来加载数据集,生成第一个 rdd。 2、定义一个 spark 应用程序所需要的三大步骤的逻辑:加载数据集,处理数据,结果展示。 加载数据集 加载数据集,这里的数据集大概分为两组: - 一种是不变的,静态数据集,大多数场景都是从数据库,文件系统上面加载进来
Linux环境下,一般都是使用vsql客户端连接vertica来执行命令的,下面就介绍一下vsql常用的命令有哪些。 导出数据 /opt/vertica/bin/vsql -U $usr -p 5433 -h 172.17.12.208 -w $pwd -At -o /home/zyzx/20160809.dat -c "select * from tb_test;"
SQL Server、Oracle、MySQL和Vertica数据库常用函数对比 Vertica数据库是HP公司新收购的用于BI方面的数据库。 绝对值 S:select abs(-1) value O:select abs(-1) value from dual M:select abs(-1) value from dual V:select abs(-1)
通过创建 Secure Access Policies可以对vertica中的某一列数据进行加密: CREATE ACCESS POLICY ON [schema][tablename] FOR COLUMN columnname expression [ENABLE/DISABLE]; 例如: CREATE ACCESS POLICY ON customers
vertica存储统计信息: 表数量: select count(distinct table_name) FROM tables; 分区表数量: select count(distinct table_name) from PARTITION_COLUMNS; 总表占大小: SELECT sum(used_bytes)/1024/1024/102
一、首先准备需要安装的软件 scala-2.10.4 下载地址:http://www.scala-lang.org/download/2.10.4.html scala-SDK-4.4.1-vfinal-2.11-win32.win32.x86_64 下载地址:http://scala-ide.org/ spark-1.6.2-bin-hadoop2.6 下载地址
Json格式对于现在所有的软件开发者都不陌生,很多数据格式都用他来存储,我们来看一下vertica是怎么处理json数据的。这就是vertica的flex table! 首先创建一个json文件: {"name": "Everest", "type":"mountain", "height":29029, "hike_safety": 34.1} {"name":
今天碰到一个问题,原shell写的是截取固定的长度,今天发现,文件名格式和之前的一样,但是长度不一致,之前截取固定长度的脚本就没有成功。 所以就采用截取有特征的字符串,由于文件中带有标志符号".",所以就截取它。 file="abcdefg.verf.20160704" str1=`expr index $file '.'` echo ${$str1:7:str1-7-1} 这样
DELETE_VECTORS 数据模型: 1、 规范化你的表 2、 使用核实的压缩格式 表设计: 1、 使用分区 2、 定义主键外键 3、 默认的数字类型长度可能比实际需要的大。例如:NUMBERC 该类型默认的长度是38位,如果实际的长度比这个小,那你建表的时候最好加上适合的长度。 4、 对于一个True/False值,Boolean类型比char(1)类型和
Anatomy of a Projection The CREATE PROJECTION statement defines the individual elements of a projection, as the following graphic shows. The previous example contains the following
坑一:改变字段类型后更新数据不成功 关于hive插入数据的一个小坑,今天插入一个表中数据,插入时写的是常数,比如0.01 ,表中的字段也是DECIMAL(5,2) 按照常理插入的应该是0.01,但是插入后查询是0,为甚! 就分析呀,看语句没问题啊,上网查,上hive官网查,呀~ 发现了原因哦 https://cwiki.apach
最近在使用vertica,上网找了很多资料都没有,只有自己看官方文档动手搞一下了,今天搞了vertica的备份与恢复 以下是整理的过程,分享给大家,如有问题欢迎大家指正~ 可以发邮件到 windyqinchaofeng@163.com 也可加QQ群交流:412191494 1、vertica备份 1.1 vertica备份配置: [dbadmin@local
在shell 中 不能直接打印出ftp链接失败的日志,可通过以下方式间接实现: #判断FTP登陆是否成功#!/bin/shftp -i -n 10.87.25.221 2>&1>output.txt <<EOFuser jyfx jyfx byeEOFrCount=`cat output.txt|wc -l`echo $rCountif [ $rCount
error:ANT FTP upload file: 425 Unable to build data connection: Connection timed out 以下是xml原配置: <ftp action="put" server="10.254.21.117" userid="***" password="****" dir
取绝对值:select abs(-1); 向上取整:select ceil(-1.001); 向下取整:select floor(-1.001); 取整:select trunc(-1.002); 四舍五入:select round(1.23456,4.0); 取随机数:select random(); 数值比较:select greatest(1,-2,4,3)
在工作中用到vertica,环境都是直接HP的人来部署的,在网上查也很少有学习资料,一下总结了一部分常用操作,仅供参考: 进入vertica的sql环境:vsql -d dbname -w passwd 创建序列:CREATE SEQUENCE sq1 MAXVALUE 5000 START 1; 使用序列:SELECT NEXTVAL('my_seq'); 删除序列:DROP S
前天收到一个任务,要统计每天ETL的运行情况,感觉每天从给的SQL语句一个一个的查询影响效率。 就行用写一个存储过程来实现,然后通过shell调用这个存储过程来自动跑数据,写到相应的文件里~ 思路就是这样,废话不说,上一下写好的代码。 DELIMITER // create procedure sp_etl_info_day (in statis_date int) begin
从本地导入数据到hive: load data local inpath '/home/hive/tb_dw_cu_three_type_list_dtal/*.dat' overwrite into table csap.tb_dw_cu_three_type_list_dtal partition(statis_date=20160121); 从HDFS直接导入数据到hive:
今天在跑过程是发现老师提示表空间不足,但是查找了好一会才知道原因 下面说一下: 1、表空间分配 这个查询是查到的总共该用户下表空间的试用情况(注意并非这一个用户拥有这个表空间) SELECT tbs 表空间名, sum(totalG) 总共大小G, sum(usedG) 已使用空间G, sum(remainedG) 剩余空间G
1分区表的一些操作 1.1创建分区带有子分区的分区表 2种方法 一种是模板式的,只要增加分区,就会自动增加相应的子分区,创建方法如下: 我们开始做啦~~ –创建分区带有子分区的分区表 1 create table tb_test11 ( STATIS_DATE DATE, SERV_NUMBER VARCHAR2(100), CUST_TYPE INTEGE
今天在一个技术讨论群里有人问了一个问题,@我了一下,我就看了一眼。问题给了一个字符串,字符串里有数字有字母有特殊符号,需求是取该字符串中连续的数字。要求用正则表达式。我对正则表达式也不是精通,一知半解。就帮他看了一下,想了一个思路: 1、先找到第一个数字出现的位置; 2、从第一个数字的位置开始,找到第一个非数字出现的位置; 3、然后从第一个出现数字的位置开始截取字符,截取到第一个非字