大数据处理之如何确保断电不丢数据

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

 

作者:杰菊

在Hadoop 2.0.2-alpha之前,HDFS在机器断电或意外崩溃的情况下,有可能出现正在写的数据丢失的问题。而最近刚发布的CDH4中HDFS在Client端提供了hsync()的方法调用(HDFS-744),从而保证在机器崩溃或意外断电的情况下,数据不会丢失。这篇文件将围绕这个新的接口对其实现细节进行简单的分析,从而希望找出一种合理使用hsync()的策略,避免重要数据丢失。

HDFS中sync(),hflush()和hsync()的差别

在hsync()之前,HDFS就已经提供了sync()和hflush()的调用,单从方法的名称上看,很难分辨这三个方法之间的区别。咱们先从这几个方法之间的差别介绍起。

 

在HDFS中,调用hflush()会将Client端buffer中的存放数据更新到Datanode端,直到收到所有Datanode的ack响应时结束调用。这样可保证在hflush()调用结束时,所有的Client端都可以读到一致的数据。HDFS中的sync()本质也是调用hflush()。

 

hsync()则是除了确保会将Client端buffer中的存放数据更新到Datanode端外,还会确保Datanode端的数据更新到物理磁盘上,这样在hsync()调用结束后,即使Datanode所在的机器意外断电,数据并不会因此丢失。而hflush()在机器意外断电的情况下却有可能丢失数据,因为Client端传给Datanode的数据可能存在于Datanode的cache中,并未持久化到磁盘上。下图描述了从Client发起一次写请求后,在HDFS中的数据包传递的流程。

31

hsync()的实现本质

hsync()执行时,实际上会在对应Datanode的机器上产生一个fsync的系统调用,从而将内存中的相关文件的数据更新到磁盘。

 

Client端执行hsync时,Datanode端会识别到Client发送过来的数据包中的syncBlock_字段为true,从而判定需要将内存中的数据更新到磁盘。此时会在BlockReceiver.java的flushOrSync()中执行如下语句:

((FileOutputStream)cout).getChannel().force(true);

 

而FileChannel的force(boolean metadata)方法在JDK中,底层为于FileDispatcherImpl.c中调用fsync或fdatasync。metadata为true时执行fsync,为false时执行fdatasync。

Java_sun_nio_ch_FileDispatcherImpl_force0(JNIEnv *env, jobject this, 
jobject fdo, jboolean md)
{
    jint fd = fdval(env, fdo);
    int result = 0;

    if (md == JNI_FALSE) {
        result = fdatasync(fd);
    } else {
        result = fsync(fd);
    }
    return handle(env, result, "Force failed");
}

 

当Datanode将数据持久化到磁盘上后,会发ack响应给Client端。当收到所有Datanode的ack响应时,hsync()的调用结束。

 

值得注意的是,fsync或fdatasync本身是一个非常耗时的调用,因为磁盘的读写速度远低于内存的读写速度。在不调用fsync或fdatasync的情况下,数据可能保存在各级cache中。

32

最开始笔者在测hsync()的读写性能时,发现不同机器上测试结果hsync()耗时差别巨大,有的集群平均调用耗时为4ms,而有的集群平均调用耗时则需25ms。后来在公司各位大神的点拨下才意识到是跟Linux文件系统的机制有关。在这种情况下,只有一探Linux相关部分的源码才能解开心中的疑惑,下面这节就将从更底层的角度来解析与hsync()密切相关的系统调用fsync及fdatasync方法。

 

 

fsync和fdatasync的大致实现过程

对ext4格式的文件系统来说,fsync和fdatasync方法的实现代码位于fs/ext4/fsync.c这个文件中。在追加写文件的情况下,fsync和fdatasync的流程几乎一致,因为对HDFS的写操作基本都是追加写,下面我们只讨论追加写文件下的情景。ext4格式的文件系统中布局大致如下:

Group 0 Padding Super Block Group Descriptors Reserved GDT Blocks Data Data Block Bitmap inode Bitmap inode Table Data Blocks
1024 bytes 1 block many blocks many blocks 1 block 1 block many block many more blocks

 

在我们追加写文件时,涉及到修改的有DataBlock BitMap、inode BitMap、inode Table、Data Blocks。但从代码中来看,实际上对文件的追加会被合并成两次写(这里是指逻辑意义上的两次写,实际在从系统Cache刷新到磁盘时,读写操作会被再次合并),第一次为写DataBlock和DataBlock Bitmap,第二次为写inode BitMap和更新inode BitMap中的inode。ext4为了支持更大的容量,使用了extend tree来实现块映射。在追加文件的情况下,fsync和fdatasync除了更新inode中的extend tree外,还会更新inode中文件大小,块计数这些metadata。对fsync来说,还会修改inode中的文件修改时间、文件访问时间(在mount选项不含noatime的情况下)和inode修改时间。

 

写障碍和Disk Cache的影响

在了解了fsync()和fdatasync()方法会对文件系统进行的改动后,离找出之前为什么在不同集群上hsync()的调用平均耗时的原因仍还有一段距离。这时我发现了不同的磁盘挂载选项会影响到fsync()和fdatasync()的执行时间,进而确定是写障碍和Disk Cache在搞怪。下面这节就将分析写障碍和Disk Cache对hsync()方法调用耗时的影响。

 

 

由于市面上大部分的磁盘都是带Disk Cache的,这导致在不开启写障碍的情况下,机器意外断电可能会对其造成metadata的不一致。对ext4这种journal文件系统来说,journal写入一个事务后,会对metadata进行更新,更新完成后会将该事务标记从未执行修改为完成。举个例子,加入我们要创建并写一个文件,那么在journal中可能会产生三个事务。那么创建并写一个文件的执行流程如下:

33

 

在磁盘没有Disk Cache的情况下,即时机器意外断电,那么重启自检时,可通过journal中最后事务的状态来对metadata进行重新执行修复或者废弃该事务。从而保证了metadata的一致性。但在磁盘有Disk Cache的情况下,IO事件会当数据写到Disk Cache中就响应完成。虽然journal按上图的流程进行执行,但是执行完成后这些数据仍可能有部分并未持久化到磁盘上。假如在执行第6个步骤的时候机器意外断电,同时第4个步骤中的数据暂未更新到磁盘,而第1,2,3,5个步骤的数据已经同步到磁盘的话。这时机器重启自检时,由于第5个步骤中journal的执行状态为未完成,会重新执行第6个步骤一次。但第6个步骤对metadata的修改是建立在第4个步骤已经完成的基础之上的,由于第4个步骤并未持久化到磁盘,所以重新执行第6个步骤时会发生异常,造成metadata的错误。

34

 

Linux中为了避免这一情况,可以在ext4的mount选项中加barrier=1,data=ordered开启写障碍,来确保数据持久化到磁盘的顺序。在写障碍前的数据会先于写障碍后的数据刷新到磁盘,Linux会在journal的事务写到Disk Cache中后放置一个写障碍。这样journal的事务位于写障碍之前,而对应的metadata的修改数据位于写障碍之后。避免了Disk Cache中合并IO时,对读写操作进行重排序后,由于读写操作执行顺序的改变而造成意外断电后metadata无法修复的情况。

 

 

关闭写障碍,即ext4的mount选项为barrier=0时,除了有可能造成在机器断电或异常崩溃重启后metadata错误外,fsync和fdatasync的调用还会在数据更新到Disk Cache时就返回,而非等到数据刷新到磁盘上后才结束调用。因为在不开写障碍的情况下,Linux会将此时的磁盘当做没有Disk Cache的磁盘来处理,当数据只是更新到Disk Cache,就会认为该IO操作已完成,这也正是前文中提到的不同集群上hsync()的平均调用时长差别巨大的原因。所以关闭写障碍的情况下,调用fsync或fdatasync并不能确保数据在机器断电或异常崩溃时不丢失。

 

Disk Cache的存在可以提高磁盘每秒的吞吐量,通过重排序IO,尽量将IO读写变成顺序读写提高速率,同时减少文件系统碎片。而通过开启写障碍,可避免意外断电情形下metadata异常,同时确保调用fsync或fdatasync时Disk Cache中的数据持久到磁盘。

 

开启journal的影响

除了写障碍和Disk Cache会影响到hsync()的调用时长外,Datanode上文件系统有没有打开journal也是影响因素之一。关闭journal的情况下可以减少hsync()的调用时长。

 

在不开启journal的情况下,调用fsync或fdatasync主要是由generic_file_fsync这个方法来实现将数据刷新到磁盘。在追加写文件的情况下,不论是fsync还是fdatasync,在generic_file_fsync这个方法中都会先更新Data Block数据,再更新inode数据。如果执行fsync或fdatasync的文件为新创建的文件,在不开启journal的情况下,还会在更新完文件的inode后,更新该文件的父结点的Data Block和inode。

 

而开启journal的情况下,调用fsync或fdatasync会先写Data Block,然后提交journal的事务。虽然调用fsync或fdatasync是指定对某个文件进行操作,但在ext4中,整个文件系统只有一个journal文件,提交journal的修改事务时会将整个文件系统的metadata的修改事务一并提交。在文件系统写入操作频繁时,这一步操作会比较耗时。

 

 

fsync及fdatasync耗时测试

测试使用的代码如下:

代码中以追加的方式向一个已存在的文件写入4k数据,4k刚好为内存页和磁盘块的大小。下面分别以几种模式来测试fsync和fdatasync的耗时。

#define BLOCK_LEN 1024

static long long microseconds(void) {
        struct timeval tv;
        long long mst;

        gettimeofday(&tv, NULL);
        mst = ((long long)tv.tv_sec) * 1000000;
        mst += tv.tv_usec;
        return mst;
}

int main(void) {
        int block = open("./block", O_WRONLY|O_APPEND, 0644);
        long long block_start, block_end, fdatasync_time, fsync_time;

        char block_buf[BLOCK_LEN];
        int i = 0;
        for(i = 0; i < BLOCK_LEN; i++){
                block_buf[i] = i % 50;
        }

        if (write(block, block_buf, BLOCK_LEN) == -1) {
                perror("write");
                exit(1);
        }
        block_start = microseconds();
        fdatasync(block);
        block_end = microseconds();
        fdatasync_time = block_end - block_start;

        if (write(block, block_buf, BLOCK_LEN) == -1) {
                perror("write");
                exit(1);
        }
        block_start = microseconds();
        fsync(block);
        block_end = microseconds();
        fsync_time = block_end - block_start;

        printf("fdatasync spent: %lld, fsync spent: %lld\n",
               fdatasync_time,
               fsync_time);

        close(block);
        exit(0);
}

 

 

测试准备

  • 文件系统:ext4
  • 操作系统内核:Linux 2.6.18-164.el5
  • 硬盘型号:WDC WD1003FBYX-1 1V02,SCSI接口
  • 通过sdparm–set=WCE /dev/sdx开启Disk Write Cache,sdparm–clear=WCE /dev/sdx关闭Disk Write Cache
  • 通过barrier=1,data=ordered开启写障碍,barrier=0关闭写障碍
  • 通过tune4fs-O has_journal /dev/sdxx开启Journal,tune4fs-O ^has_journal /dev/sdxx关闭Journal

 

关闭Disk Cache,关闭Journal

类型 耗时(微秒)
fdatasync 8368
fsync 8320
Device wrqm/s w/s wkB/s avgrq-sz avgqu-sz await svctm %util
sdi 0.00 120.00 480.00 8.00 1.00 8.33 8.33 100.00

 

可以看到,iostat为8ms,对inode、Data Block、inode Bitmap、DataBlock Bitmap的数据更新合并为了一次写操作。

 

关闭Disk Cache,开启Journal

类型 耗时(微秒)
fdatasync 33534
fsync 33408
Device wrqm/s w/s wkB/s avgrq-sz avgqu-sz await svctm %util
sdi 37.00 74.00 444.00 11.95 1.22 16.15 13.32 99.90

 

通过使用blktrace跟踪对磁盘块的读写,发现此处写journal会比较耗时,下面的记录为fsync过程中对磁盘发送的写操作,已预处理掉了大部分不重要的信息,可以看到,后面三条记录都是journal的写操作(通过此处kjournald的进程id为3001来识别)。

0,0 13 1 0.000000000 8835 A W 2855185 + 8 <- (8,129) 2855184
0,0 4 5 0.000313001 3001 A W 973352281 + 8 <- (8,129) 973352280
0,0 4 1 0.000305325 3001 A W 973352273 + 8 <- (8,129) 973352272
0,0 4 12 0.014780357 3001 A WS 973352289 + 8 <- (8,129) 973352288

 

开启Disk Cache,开启写障碍,开启Journal

类型 耗时(微秒)
fdatasync 23759
fsync 25006

 

从结果可以看到,Disk Cache的开启可以合并更多IO,从而减少耗时。

 

值得注意的是,在开启Disk Cache时,iostat的await是按照从内存写完到Disk Cache中来统计耗时,并非是按照写到磁盘上来计时,所以此种情况下iostat的await参数会比较小,并无参考意义。

 

小结

从这次测试结果可以看到,虽然CDH4提供了hsync()方法,但是若我们对每次写操作都执行hsync(),会严重加剧磁盘的写延迟。通过一些策略,比方说定期执行hsync()或当存在于Cache中的数据达到一定数目时,执行hsync()会是更可行的方案,从而尽量减少机器意外断电所带来的影响。

 

附:术语解释

  • Hadoop: Apache基金会的开源项目,用于海量数据存储与计算。
  • CDH4: Cloudera公司在Apache社区发行版基础之上进行改进后的发行版,更稳定更适用于生产环境。
  • Namenode: Hadoop的HDFS模块中管理所有文件元数据的组件。
  • Datanode: Hadoop的HDFS模块中存储文件实际数据的组件。
  • HDFS Client: 这里指连接HDFS对其中文件进行读写操作的客户端。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
3月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
2月前
|
存储 分布式计算 数据挖掘
数据架构 ODPS 是什么?
数据架构 ODPS 是什么?
479 7
|
2月前
|
存储 分布式计算 大数据
大数据 优化数据读取
【11月更文挑战第4天】
61 2
|
5天前
|
分布式计算 Shell MaxCompute
odps测试表及大量数据构建测试
odps测试表及大量数据构建测试
|
2月前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
105 1
|
3月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
60 3
|
2月前
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
104 4
|
2月前
|
存储 大数据 数据管理
大数据分区简化数据维护
大数据分区简化数据维护
28 4
|
2月前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
67 3
|
2月前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
90 2
下一篇
开通oss服务