某日,与公司海外推广部MM聊天。MM在与我一边聊天的同时,还一边处理着手头上的工作。于是,我好奇的问了一下MM的工作情况。她告诉我她现在正在处理一个excel文件,此文件中密密麻麻的记录着一些信息。有一列中完全是公司某一网站的的url,类似于这样
她说,她要逐个点击其中的url地址,并在IE中查看该url中下面项的值
当Wholesale price (如上图)所在行的us$后面值大于20时,就将该url记录下来(MM的本意是只要Wholesale price 后面的us$后面的值大于20时,即将该行标注成红色,这里稍微修改一下)。起初,MM是click one by one,该文件中此类的url不下100个,MM手都点酸了,眼也看花了,终于把工作做完了。之后,我说,你就是这样天天工作的呀,不烦才怪呢,效率不高不说,而且容易出错。好了吧,GG我帮你写个程序,这样的工作怎么能由MM的纤纤玉手亲自来做呢,一切交给电脑来处理吧。
要用perl来处理这个问题,需要用到两个module,一个是LWP::Simple,另一个则是Spreadsheet::ParseExcel,初次不知道怎么用的,请perldoc modulename.
这里附上perl 代码
- #!/usr/bin/perl -w
- use strict;
- use LWP::Simple;
- use Spreadsheet::ParseExcel;
- my @array;
- my $parser = Spreadsheet::ParseExcel->new();
- my $workbook = $parser->parse('第二期统计.xls');
- if ( !defined $workbook ) {
- die $parser->error(),".\n";
- }
- for my $worksheet ( $workbook->worksheets() ) {
- my ( $row_min,$row_max ) = $worksheet->row_range();
- #本来下面一句应该是这样写的
- #for my $row ( $row_min..$row_max ),之所以换成2,是因为想过滤掉第一行中的那几个中文字符,哈哈
- for my $row ( 2..$row_max ) {
- #下面一句换成1的目的是为了与第二列数据相匹配
- my $cell = $worksheet->get_cell( $row,1 );
- next unless $cell;
- my $tmp_url = $cell->value();
- push @array,$tmp_url;
- }
- }
- for my $url ( @array ) {
- my $content = get $url or die "can't get $url\n";
- print $url,"\n";
- if ( $content =~ /wholesale_price/ ) {
- $content =~ m{<\S+\s+\w+="\S+"\s+\w+="\S+">US\$\s+(\d+.\d+)</\w+>};
- open RES,'>>','results.txt' or die "$!\n";
- if ( $1 > 20 ) {
- print "$url\n";
- print RES "$url\n";
- }
- close RES;
- }
- }
结果在results.txt中
- [root@web ~]# cat results.txt
- http://www.wholesale-dress.net/lapel-long-sleeve-single-button-front-suit-light-grey-g1158909.html
- http://www.wholesale-dress.net/korea-style-zipped-stand-collar-jacket-khaki-g1228884.html
本文转自dongfang_09859 51CTO博客,原文链接:http://blog.51cto.com/hellosa/572004,如需转载请自行联系原作者