1 简介
文件时间信息在测试中也有妙用~
通过记录模块运行前后的文件时间信息来识别运行前后发生变化的文件,从而识别模块运行前后的新增文件、删除的文件和内容发生变化的文件。
利用识别出来的发生变化的文件来减少复杂模块回归测试中采用新旧对比回归测试方法的测试时间,并且能为复杂模块的数据准备工作服务。
如何妙用呢,请看下文~
2 Linux下文件时间简单介绍
在Linux下,一个文件也有三种时间,分别是:访问时间、修改时间、状态改动时间 。
如何查一个文件的三个时间呢?
(1) 先用下面的命令来建立一个文件
$ date ; echo "" >filetime.txt ; ll --full-time filetime.txt
Wed May 5 13:49:57 CST 2010
-rw-rw-r-- 1 work work 1 2010-05-05 13:49:57.000000000 +0800 filetime.txt
(2) 通过stat filetime.txt来查, 如
$ stat filetime.txt
File: `filetime.txt'
Size: 1 Blocks: 8 IO Block: 4096 regular file
Device: 803h/2051d Inode: 147408 Links: 1
Access: (0664/-rw-rw-r--) Uid: ( 500/ work) Gid: ( 502/ work)
Access: 2010-05-05 13:49:57.000000000 +0800
Modify: 2010-05-05 13:49:57.000000000 +0800
Change: 2010-05-05 13:49:57.000000000 +0800
因为这是一个新的文件(filetime.txt),没做过内容、属性的更改,也没读过这个文件,所以三者(访问时间、修改时间、状态改动时间)的时间是一致的。
(1) Access访问时间
读一次这个文件的内容,这个时间就会更新,比如对这个文件运用 more、cat等命令。
(2) Modify修改时间
文件内容最后一次被修改时间,比如:vi后保存文件。ls -l列出的时间就是这个时间。
(3) Change状态改动时间
该文件的i节点最后一次被修改的时间,通过chmod、chown命令修改一次文件属性,这个时间就会更新。
3 常用操作对文件时间的影响
在这里大家要注意的mv操作,mv操作不修改文件的读写时间,一般大家认为一个文件如果读写没有发生变化则该文件没有被操作过,但是该文件很可能被mv处理过,导致时间发生了非预期的改变。
比如存在一个文件a和b,具有相同的文件时间信息,执行mv a b,发现b的读写时间都没有变化就认为b的内容肯定没有改变这个结论是错误的,其实b的内容已经变成a的内容了。
这个结论非常重要,涉及到下面文件时间利用时候为啥需要以?开头的文件出现的必要性。
4 文件时间信息在测试中的应用
4.1 应用原理
通过记录模块运行前后的文件时间信息来识别运行前后发生变化的文件,从而识别模块运行前后的新增文件、删除的文件和内容发生变化的文件。
利用识别出来的发生变化的文件来减少回归测试中采用新旧对比回归测试方法的测试时间,并且能为复杂模块的数据准备工作服务。
具体应用步骤如下面各个小结的描述。
4.2 步骤1:递归获取运行前运行目录下所有文件的时间信息
(1) 代码get_file_timeinfo.sh
function get_file_timeinfo()
{
local target_file=$1
local file=""
if [ -f "$target_file" ]
then
echo -n -e "${target_file}\t" | sed 's/[\/][\/]*/\//g'
stat -c "%X==%Y==%Z" "$target_file" | sed 's/==/\t/g'
return 0
elif [ -d "$target_file" ]
then
for file in `ls -l $target_file | awk 'NF==9{print $9}'`
do
get_file_timeinfo $target_file/$file
done
return 0
else
echo "[error]$target_file is not a file or directory!"
return 1
fi
}
function usage()
{
echo "usage: $0 FileOrDir"
exit 1
}
if [ "$#" -ne 1 -o "$1" == "-h" -o "$1" == "-v" ]
then
usage
fi
get_file_timeinfo $1
(2) 执行程序get_file_timeinfo.sh
./get_file_timeinfo.sh extr-info/ &>before.txt
(3) 查看结果before.txt
文件格式说明:
第1列:文件路径
第2列:访问时间
第3列:修改时间
第4列:状态改动时间
test/AT_InvokeRelation.sh 1273045348 1273045348 1273045348
test/diff-dir.sh 1273045348 1273045348 1273045348
test/diff-file-list.sh 1273045348 1273045348 1273045348
test/diff_file_time.sh 1273045348 1273045348 1273045348
test/get_dir_info.sh 1273045348 1273045348 1273045348
test/get-file-list.sh 1273045348 1273045348 1273045348
test/GetFilesFromDiff.new.sh 1273045348 1273045348 1273045348
test/GetFilesFromDiff.sh 1273045348 1273045348 1273045348
test/get_file_timeinfo.sh 1273045348 1273045348 1273045348
test/GetSysInfo.sh 1273045348 1273045348 1273045348
test/get_var.sh 1273045348 1273045348 1273045348
test/MakeTable.sh 1273045348 1273045348 1273045348
test/MonitorNetwork.sh 1273045348 1273045348 1273045348
test/monrsscpu.sh 1273045415 1273045415 1273045415
test/monrsscpu.sh.1 1273045416 1273045416 1273045416
test/my_many_diff.sh 1273045348 1273045348 1273045348
test/MyProgMonitor.sh 1273045348 1273045348 1273045348
test/process-diff.sh 1273045348 1273045348 1273045348
test/PsMonMemCpu.sh 1273045348 1273045348 1273045348
test/VmstatMonMemCpu.sh 1273045348 1273045348 1273045348
4.3 步骤2:执行程序
此处运行你需要运行的程序
4.4 步骤3:递归获取运行后运行目录下所有文件的时间信息
该部分重复步骤(1)得到运行后的时间信息保存在after.txt中
4.5 步骤4:比较运行前和运行后的时间信息,得到新增的文件、删除的文件、修改的文件
(1) 代码diff_file_time.sh
function usage()
{
echo "usage:$0 before.txt after.txt"
exit 1
}
if [ "$#" -ne 2 -o ! -f "$1" -o ! -f "$2" ]
then
usage
fi
before_file=$1
after_file=$2
awk -F '\t' '
file==1{
index_arr[$1]=1;
access_arr[$1]=$2;
modifty_arr[$1]=$3;
change_arr[$1]=$4;
}
file==2{
if($1 in index_arr)
{
if($3 > modifty_arr[$1] ) ##
{
print "! "$1;
}else if($3 < modifty_arr[$1])
{
print "? "$1;
}else if($2 > access_arr[$1])##
{
print "| "$1;
}else if($2 < access_arr[$1])
{
print "? "$1;
}else if(change_arr[$1] != $4)##
{
print "? "$1;
}
index_arr[$1]=0;
}else
{
index_arr[$1]=2;
}
}
END{
for(file_name in index_arr)
{
if(index_arr[file_name]==1)
{
print "< "file_name;
}else if(index_arr[file_name]==2)
{
print "> "file_name;
}else if(index_arr[file_name]==0)
{
print " "file_name;
}
}
}' file=1 $before_file file=2 $after_file
(2) 执行程序diff_file_time.sh
./diff_file_time.sh before.txt after.txt &>all.filediff
(3) 查看结果all.filediff
文件格式说明:
a) 以| 开头文件:运行前后被读过
b) 以!开头文件:运行前后被修改过
c) 以< 开头文件:运行后被删除了
d) 以> 开头文件:运行后新产生的
e) 以 开头文件:运行前后文件无变化
f) 以? 开头文件:运行前后发生了变化,变化不符合一般文件时间改变逻辑(只改变读写时间并且读写时间都变大了),该处的文件一般为mv操作或者仅仅进行属性修改操作的文件。
| test/GetSysInfo.sh
? test/my_many_diff.sh
! test/process-diff.sh
test/my_many_diff.sh
test/diff-dir.sh
< test/monrsscpu.sh.1
test/MonitorNetwork.sh
test/diff-file-list.sh
test/process-diff.sh
test/diff_file_time.sh
test/PsMonMemCpu.sh
test/GetFilesFromDiff.sh
> test/add
test/MyProgMonitor.sh
< test/get_var.sh
test/GetSysInfo.sh
test/GetFilesFromDiff.new.sh
test/get-file-list.sh
test/get_file_timeinfo.sh
test/MakeTable.sh
< test/VmstatMonMemCpu.sh
test/monrsscpu.sh
test/AT_InvokeRelation.sh
test/get_dir_info.sh
4.6 测试应用场景
(1) 减少回归测试中新旧对比回归测试的时间
若你的回归测试方法是采用跑新旧环境然后对新旧环境的结果进行对比的方式,就意味你需要对环境中所有的文件进行md5比较包括从上游获取的大量只读数据,对于复杂模块而言,对所有的文件进行md5值操作是很费时间的。
由于你利用前面的时间信息已经获得了发生变化的文件(以<>!|?的文件),所以你可以仅仅比较发生了变化的文件,节省了大量的diff时间。
另外一个节省时间的地方,在一个复杂的环境里面,你不用care哪些跟该子模块无关的数据了,即使他们在两个环境里面不一样。过去为了能够让新旧对比的结果准确,我们总是施法将两个环境里面所有的数据实现同步,现在不需要了,同步了该子模块需要的数据已经足够。
(2) 准备数据
现在要开始测试了,需要准备的输入有哪些呢?如果你不清楚,干脆把该子模块跑一下吧,用开始的方法你很容易知道你要准备哪些数据了(以<|?! 开头的文件)。
这个地方有个问题就是哪些需要文件但是不会改变文件时间属性而只是获取某些文件属性的操作需要的文件识别不出来比如-f,不过这种情况在实际程序中出现的非常少( 除了一些标志文件),因为程序获取属性的目的是为了进一步对这个文件进行处理,所以该文件还是会被识别出来(前面说了除了标志文件除外)。
若真遇到标志文件怎么办呢?目前来看俺们这种方法是解决不了了。
4.7 适用范围和应用情况
应用情况:
● 在***进行重构的时候了,为了回归该模块众多的子脚本,我采用了前面的方法来进行子模块回归的数据准备。
***模块情况:
脚本个数:60个左右
线上模块规模:900G左右
运行时间:1天
升级特点:主要为结构调整和小功能升级,每行脚本代码都是diff。
测试特点:主要为回归工作,整体回归和子模块局部回归,众多子模块新旧输入数据同步是难点。
● 在***升级的时候,为了节省新旧diff的时间,我采用了前面的方法来进行新旧回归。
***模块情况:
脚本个数:100个左右
线上模块规模:1T左右
运行时间:2天
升级特点:新策略的添加和旧策略的优化
测试特点:整体回归新旧各跑一次就4天过去了,新旧1T逐个diff不知道要几天!
适用情况:
从现有的试用情况来看,该种方法比较适合复杂模块,因为对于简单或者中等复杂的模块而言,新旧回归对比的时间最多可以在一个晚上空余的时间就可以进行完毕,准备输入数据也不是很难的事情,在这种情况下就没有必要应用这种方法了。
4.8 后序计划
(1) 前面的这两种应用都可以开发配套的自动化结构来支持
(2) 这种方式显然无法适应分布式的情况,因为分布式的数据都不在本地机器,当然若有需求我们也可以开发分布式版本以支持分布式的情况。
(全文完)
本文转自百度技术51CTO博客,原文链接:http://blog.51cto.com/baidutech/743555,如需转载请自行联系原作者