开发者社区> 问答> 正文

Postgresql stream replication slow

Postgresql stream replication slow

目前有两台postgres db, 使用stream replication 做主从同步,在比较重的写操作时发生了比较重的延迟.

通过对 
pg_xlog_location_diff(pg_current_xlog_location(), sent_location) AS not_sent,
pg_xlog_location_diff(sent_location, write_location) AS not_written,
pg_xlog_location_diff(write_location, flush_location) AS not_flushed,
pg_xlog_location_diff(flush_location, replay_location) AS not_replayed
FROM pg_stat_replication;
这几个参数的监控,我们发现在
pg_current_xlog_location() - (sent_location)有比较重的延迟,延迟的size将近在100MB+ ,网络吞吐量最大值在10MB/s.
最大的延迟将近5分钟.

展开
收起
jaywu 2016-03-22 18:27:45 3802 0
2 条回答
写回答
取消 提交回答
  • 公益是一辈子的事, I am digoal, just do it. 阿里云数据库团队, 擅长PolarDB, PostgreSQL, DuckDB, ADB等, 长期致力于推动开源数据库技术、生态在中国的发展与开源产业人才培养. 曾荣获阿里巴巴麒麟布道师称号、2018届OSCAR开源尖峰人物.

    wal sender发送xlog的前提是xlog已经在本地落盘,如果没有落盘是不能发的。
    另外有几种情况会触发主walsender往备发送xlog

    1. 事务结束时
    2. xlog flush调用后
    3. 切换时间线文件时
    4. 达到wal sender的循环
      理论上不应该存在非常大的延迟,wal sender ptr是在每次发送后更新的
            /*
             * Fill the send timestamp last, so that it is taken as late as possible.
             */
            resetStringInfo(&tmpbuf);
            pq_sendint64(&tmpbuf, GetCurrentIntegerTimestamp());
            memcpy(&output_message.data[1 + sizeof(int64) + sizeof(int64)],
                       tmpbuf.data, sizeof(int64));
    
            pq_putmessage_noblock('d', output_message.data, output_message.len);
    
            sentPtr = endptr;

    current location则是在flush xlog后更新的。
    你获取到的值,只能是一个参考,因为没有办法同时获得这两个值的一致状态。
    你这个例子主要是产生XLOG的速度太快,可能造成了这个看起来的差异。实际的差异不应该这么大。
    如果要更精准的值,可以hack一下,在walsender中获取到当前的current xlog location并存下来,返回时使用这个值。

    2019-07-17 18:35:18
    赞同 展开评论 打赏
  • 本地模拟:
    更新数据表的字段 一个表将近110w数据 ,size 是 612 MB.
    我们在观察主从两边的wal log 的数目时发现,此次操作总归会生产104个wal 文件 size =16MB* 104 =1.644268775GB.
    手工对比主从库wal 文件状态,从库远远落后于主库,将近落后30多个wal file.

    我也使用了iperf去测试了网络情况

    Client connecting to 192.168.6.55, TCP port 5001

    TCP window size: 125 KByte (default)

    [ 3] local 192.168.6.56 port 41489 connected with 192.168.6.55 port 5001
    [ ID] Interval Transfer Bandwidth
    [ 3] 0.0-10.0 sec 1.09 GBytes 939 Mbits/sec

    网卡最大值为1G.

    数据库 MAX_SEND_SIZE (XLOG_BLCKSZ * 16)
    XLOG_BLCKSZ= 8K

    理论上 延迟最大值为一秒.

    Postgres version:psql (PostgreSQL) 9.2.13

    有没有其他参数会影响到stream replication的性能?

    期待大家的回复,讨论.


    本地模拟:
    更新数据表的字段 一个表将近110w数据 ,size 是 612 MB.
    我们在观察主从两边的wal log 的数目时发现,此次操作总归会生产104个wal 文件 size =16MB* 104 =1.644268775GB.
    手工对比主从库wal 文件状态,从库远远落后于主库,将近落后30多个wal file.

    我也使用了iperf去测试了网络情况

    Client connecting to 192.168.6.55, TCP port 5001

    TCP window size: 125 KByte (default)

    [ 3] local 192.168.6.56 port 41489 connected with 192.168.6.55 port 5001
    [ ID] Interval Transfer Bandwidth
    [ 3] 0.0-10.0 sec 1.09 GBytes 939 Mbits/sec

    网卡最大值为1G.


    本地模拟:
    更新数据表的字段 一个表将近110w数据 ,size 是 612 MB.
    我们在观察主从两边的wal log 的数目时发现,此次操作总归会生产104个wal 文件 size =16MB* 104 =1.644268775GB.
    手工对比主从库wal 文件状态,从库远远落后于主库,将近落后30多个wal file.
    我也使用了iperf去测试了网络情况



    Client connecting to 192.168.6.55, TCP port 5001

    TCP window size: 125 KByte (default)

    [ 3] local 192.168.6.56 port 41489 connected with 192.168.6.55 port 5001
    [ ID] Interval Transfer Bandwidth
    [ 3] 0.0-10.0 sec 1.09 GBytes 939 Mbits/sec

    网卡最大值为1G.


    数据库 MAX_SEND_SIZE (XLOG_BLCKSZ * 16)
    XLOG_BLCKSZ= 8K

    理论上 延迟最大值为一秒.

    Postgres version:psql (PostgreSQL) 9.2.13

    有没有其他参数会影响到stream replication的性能?

    期待大家的回复,讨论.

    2019-07-17 18:35:17
    赞同 5 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
One Box: 解读事务与分析一体化数据库 HybridDB for MySQL 立即下载
One Box:解读事务与分析一体化数据库HybridDB for MySQL 立即下载
如何支撑HTAP场景-HybridDB for MySQL系统架构和技术演进 立即下载

相关镜像