greenplum使用gpfdist导入数据性能问题-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

greenplum使用gpfdist导入数据性能问题

2016-01-24 18:21:44 7829 1

@digoal
德哥,目前我用四台服务器做了一个1master、3primary、3mirror的集群,额外增加一台做gpfdist服务器。数据入库基本维持在10MB/s,10w行/s。感觉不应该这么慢,但是无法定位问题出在哪里。
服务器配置如下:
主板:DELL C1600
CPU: X5650*2(主频:2.66Ghz,十二核二十四线程)
内存:服务器专用RRD3 REG ECC 32G
硬盘:希捷 2TB 7200转 64M SATA3机械
交换机:千兆

表结构如下,很简单:
screenshot
数据格式如下:
screenshot

目前是1小时入库一次,同一天数据入同一个子表,每次创建新的外部表指定唯一外部文件,
单个数据文件大概是100MB-2GB不等,数据行数100万-2000万不等。
每日数据入库全部完成前对应子表不创建索引。
尝试过在两台额外服务器上搭建两个gpfdist,同时入不同表的数据,整体速度并没有提升,互相有影响。
数据入库期间观察磁盘IO、cpu、网络带宽都有很大空闲。内存倒是基本都用了,但top查看繁忙进程,内存使用并不高,都是shared_buffer,work_mem等参数限定的大小。
单个子表随数据量的增大,入库速度会越来越慢。
期间也调过一些gp的参数,效果都不明显。
麻烦您帮忙分析下,是否还有优化空间或者分析瓶颈的方向。

取消 提交回答
全部回答(1)
  • 德哥
    2019-07-17 18:26:19

    用perf top跟踪一下

    0 0
相关问答

4

回答

Spark 【问答合集】

社区小助手 2019-05-29 14:13:40 127121浏览量 回答数 4

38

回答

干货分享:DBA专家门诊一期:索引与sql优化问题汇总

xiaofanqie 2014-12-25 15:13:38 92075浏览量 回答数 38

8

回答

OceanBase 使用动画(持续更新)

mq4096 2019-02-20 17:16:36 336989浏览量 回答数 8

28

回答

钉钉开放平台“常见问题常见问题常见问题“重要请关注

竹梅 2015-12-03 00:39:14 93753浏览量 回答数 28

3

回答

Logstash采集文件名称以及自定义格式的日志文件采集

Snorlax 2019-06-18 11:51:28 114891浏览量 回答数 3

1

回答

出现这个问题求解决This XML file does not appear to have any

淘合肥 2017-04-08 21:07:00 93038浏览量 回答数 1

42

回答

【精品问答集锦】Python热门问题

小六码奴 2019-05-30 15:27:34 136933浏览量 回答数 42

24

回答

【精品问答】python技术1000问(1)

问问小秘 2019-11-15 13:25:00 475558浏览量 回答数 24

27

回答

阿里云开源软件镜像站点上线啦!!

qilu 2014-01-06 18:14:06 96087浏览量 回答数 27

11

回答

【精品问答合集】MongoDB热门问答

李博 bluemind 2019-05-29 16:50:19 121316浏览量 回答数 11
+关注
postgres_up
一枚PGer
0
文章
11
问答
问答排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载