开发者社区> 问答> 正文

greenplum使用gpfdist导入数据性能问题

postgres_up 2016-01-24 18:21:44 4759

@digoal
德哥,目前我用四台服务器做了一个1master、3primary、3mirror的集群,额外增加一台做gpfdist服务器。数据入库基本维持在10MB/s,10w行/s。感觉不应该这么慢,但是无法定位问题出在哪里。
服务器配置如下:
主板:DELL C1600
CPU: X5650*2(主频:2.66Ghz,十二核二十四线程)
内存:服务器专用RRD3 REG ECC 32G
硬盘:希捷 2TB 7200转 64M SATA3机械
交换机:千兆

表结构如下,很简单:
screenshot
数据格式如下:
screenshot

目前是1小时入库一次,同一天数据入同一个子表,每次创建新的外部表指定唯一外部文件,
单个数据文件大概是100MB-2GB不等,数据行数100万-2000万不等。
每日数据入库全部完成前对应子表不创建索引。
尝试过在两台额外服务器上搭建两个gpfdist,同时入不同表的数据,整体速度并没有提升,互相有影响。
数据入库期间观察磁盘IO、cpu、网络带宽都有很大空闲。内存倒是基本都用了,但top查看繁忙进程,内存使用并不高,都是shared_buffer,work_mem等参数限定的大小。
单个子表随数据量的增大,入库速度会越来越慢。
期间也调过一些gp的参数,效果都不明显。
麻烦您帮忙分析下,是否还有优化空间或者分析瓶颈的方向。

数据格式 索引
分享到
取消 提交回答
全部回答(1)
  • 德哥
    2019-07-17 18:26:19

    用perf top跟踪一下

    0 0
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

推荐文章
相似问题