Perl帮MM轻松搞定Excel数据-阿里云开发者社区

开发者社区> 科技小先锋> 正文

Perl帮MM轻松搞定Excel数据

简介:
+关注继续查看

某日,与公司海外推广部MM聊天。MM在与我一边聊天的同时,还一边处理着手头上的工作。于是,我好奇的问了一下MM的工作情况。她告诉我她现在正在处理一个excel文件,此文件中密密麻麻的记录着一些信息。有一列中完全是公司某一网站的的url,类似于这样

她说,她要逐个点击其中的url地址,并在IE中查看该url中下面项的值

当Wholesale price (如上图)所在行的us$后面值大于20时,就将该url记录下来(MM的本意是只要Wholesale price 后面的us$后面的值大于20时,即将该行标注成红色,这里稍微修改一下)。起初,MM是click one by one,该文件中此类的url不下100个,MM手都点酸了,眼也看花了,终于把工作做完了。之后,我说,你就是这样天天工作的呀,不烦才怪呢,效率不高不说,而且容易出错。好了吧,GG我帮你写个程序,这样的工作怎么能由MM的纤纤玉手亲自来做呢,一切交给电脑来处理吧。

要用perl来处理这个问题,需要用到两个module,一个是LWP::Simple,另一个则是Spreadsheet::ParseExcel,初次不知道怎么用的,请perldoc modulename.

这里附上perl 代码


  1. #!/usr/bin/perl -w 
  2.  
  3. use strict; 
  4. use LWP::Simple; 
  5. use Spreadsheet::ParseExcel; 
  6.  
  7. my @array
  8.  
  9. my $parser   = Spreadsheet::ParseExcel->new(); 
  10. my $workbook = $parser->parse('第二期统计.xls'); 
  11.  
  12. if ( !defined $workbook ) { 
  13.     die $parser->error(),".\n"
  14.  
  15. for my $worksheet ( $workbook->worksheets() ) { 
  16.  
  17.     my ( $row_min,$row_max ) = $worksheet->row_range(); 
  18.  
  19. #本来下面一句应该是这样写的
  20. #for my $row ( $row_min..$row_max ),之所以换成2,是因为想过滤掉第一行中的那几个中文字符,哈哈
  21.     for my $row ( 2..$row_max ) { 
  22.  
  23. #下面一句换成1的目的是为了与第二列数据相匹配
  24.         my $cell = $worksheet->get_cell( $row,1 ); 
  25.         next unless $cell; 
  26.  
  27.         my $tmp_url = $cell->value(); 
  28.         push @array,$tmp_url; 
  29.  
  30.     } 
  31.  
  32.  
  33. for my $url ( @array ) { 
  34.  
  35.     my $content = get $url or die "can't get $url\n"
  36.     print $url,"\n"
  37.  
  38.     if ( $content =~ /wholesale_price/ ) { 
  39.         $content =~ m{<\S+\s+\w+="\S+"\s+\w+="\S+">US\$\s+(\d+.\d+)</\w+>}; 
  40.  
  41.         open RES,'>>','results.txt' or die "$!\n"
  42.  
  43.         if ( $1 > 20 ) { 
  44.             print "$url\n"
  45.             print RES "$url\n"
  46.         } 
  47.  
  48.         close RES; 
  49.  
  50.     } 
  51.  
结果在results.txt中

  1. [root@web ~]# cat results.txt  
  2. http://www.wholesale-dress.net/lapel-long-sleeve-single-button-front-suit-light-grey-g1158909.html 
  3. http://www.wholesale-dress.net/korea-style-zipped-stand-collar-jacket-khaki-g1228884.html

本文转自dongfang_09859 51CTO博客,原文链接:http://blog.51cto.com/hellosa/572004,如需转载请自行联系原作者

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
[转]数据库连接方式读取不到Excel数据值的解决方法
由于工作的需要,最近做了一个读取Excel文件与CSV文件关联的数据处理程序,主要用于PDA采集数据的后期处理。 当时有两种方法可用来读取Excel数据,一种是引用Excel的类库,另一种是将其作为扩展数据文件,用ADO连接方式来处理。
828 0
poi方式写入数据到Excel
在java数据库编程中,常常会用到向excel中读写数据,一方面可以将数据从数据库导出到Excel,进行数据展示,另一方面可以批量的向数据库插入多条数据,这对于软件开发是必不可少的,今天先介绍如何使用java向excel中写入数据,这里以2003版本的excel版本为例,分享我的实战经验。(在后续的经验中会介绍excel数据导出,敬请浏览) 工具/原料 eclipse, java poi
1410 0
通过ZeppelinHub viewer来分享zeppelin的notebook和报表数据
最近有使用E-MapReduce的同学咨询如果将zeppelin中的表表数据进行共享。这里就介绍一下在Aliyun E-MapReduce的集群中使用ZeppelinHub来进行notebook和报表的分享。
6517 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4350 0
微软Sql server analysis service数据挖掘技术
原文:微软Sql server analysis service数据挖掘技术 最新在一个项目中要求用到微软SSAS中的数据挖掘功能,虽然以前做项目的时候也经常用到SSAS中的多维数据集 (就是CUBE),但是始终没有对SSAS中的数据挖掘功能进行过了解。
1048 0
c# 导出数据到Excel模板
最近在做一个发邮件的功能,客户要求需要导出一个Excel附件,并给了附件的格式, eg: Last Name 姓 First Name 名 Chinese Characters汉字书写(仅大陆人填写)               实现方式有两种: 一、使用Microsoft.
1218 0
ArcEngine在地图上加载Server图层数据
版权声明:欢迎评论和转载,转载请注明来源。 https://blog.csdn.net/zy332719794/article/details/22183775         加载Server图层数据需要指定两个参数,第一是服务的Url地址,第二是服务中的数据对象名称Name。
759 0
4571
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载