Perl帮MM轻松搞定Excel数据

简介:

某日,与公司海外推广部MM聊天。MM在与我一边聊天的同时,还一边处理着手头上的工作。于是,我好奇的问了一下MM的工作情况。她告诉我她现在正在处理一个excel文件,此文件中密密麻麻的记录着一些信息。有一列中完全是公司某一网站的的url,类似于这样

她说,她要逐个点击其中的url地址,并在IE中查看该url中下面项的值

当Wholesale price (如上图)所在行的us$后面值大于20时,就将该url记录下来(MM的本意是只要Wholesale price 后面的us$后面的值大于20时,即将该行标注成红色,这里稍微修改一下)。起初,MM是click one by one,该文件中此类的url不下100个,MM手都点酸了,眼也看花了,终于把工作做完了。之后,我说,你就是这样天天工作的呀,不烦才怪呢,效率不高不说,而且容易出错。好了吧,GG我帮你写个程序,这样的工作怎么能由MM的纤纤玉手亲自来做呢,一切交给电脑来处理吧。

要用perl来处理这个问题,需要用到两个module,一个是LWP::Simple,另一个则是Spreadsheet::ParseExcel,初次不知道怎么用的,请perldoc modulename.

这里附上perl 代码


 
 
  1. #!/usr/bin/perl -w 
  2.  
  3. use strict; 
  4. use LWP::Simple; 
  5. use Spreadsheet::ParseExcel; 
  6.  
  7. my @array
  8.  
  9. my $parser   = Spreadsheet::ParseExcel->new(); 
  10. my $workbook = $parser->parse('第二期统计.xls'); 
  11.  
  12. if ( !defined $workbook ) { 
  13.     die $parser->error(),".\n"
  14.  
  15. for my $worksheet ( $workbook->worksheets() ) { 
  16.  
  17.     my ( $row_min,$row_max ) = $worksheet->row_range(); 
  18.  
  19. #本来下面一句应该是这样写的
  20. #for my $row ( $row_min..$row_max ),之所以换成2,是因为想过滤掉第一行中的那几个中文字符,哈哈
  21.     for my $row ( 2..$row_max ) { 
  22.  
  23. #下面一句换成1的目的是为了与第二列数据相匹配
  24.         my $cell = $worksheet->get_cell( $row,1 ); 
  25.         next unless $cell; 
  26.  
  27.         my $tmp_url = $cell->value(); 
  28.         push @array,$tmp_url; 
  29.  
  30.     } 
  31.  
  32.  
  33. for my $url ( @array ) { 
  34.  
  35.     my $content = get $url or die "can't get $url\n"
  36.     print $url,"\n"
  37.  
  38.     if ( $content =~ /wholesale_price/ ) { 
  39.         $content =~ m{<\S+\s+\w+="\S+"\s+\w+="\S+">US\$\s+(\d+.\d+)</\w+>}; 
  40.  
  41.         open RES,'>>','results.txt' or die "$!\n"
  42.  
  43.         if ( $1 > 20 ) { 
  44.             print "$url\n"
  45.             print RES "$url\n"
  46.         } 
  47.  
  48.         close RES; 
  49.  
  50.     } 
  51.  
结果在results.txt中

 
 
  1. [root@web ~]# cat results.txt  
  2. http://www.wholesale-dress.net/lapel-long-sleeve-single-button-front-suit-light-grey-g1158909.html 
  3. http://www.wholesale-dress.net/korea-style-zipped-stand-collar-jacket-khaki-g1228884.html

本文转自dongfang_09859 51CTO博客,原文链接:http://blog.51cto.com/hellosa/572004,如需转载请自行联系原作者
相关文章
|
18天前
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
|
2月前
|
数据采集 存储 JavaScript
自动化数据处理:使用Selenium与Excel打造的数据爬取管道
本文介绍了一种使用Selenium和Excel结合代理IP技术从WIPO品牌数据库(branddb.wipo.int)自动化爬取专利信息的方法。通过Selenium模拟用户操作,处理JavaScript动态加载页面,利用代理IP避免IP封禁,确保数据爬取稳定性和隐私性。爬取的数据将存储在Excel中,便于后续分析。此外,文章还详细介绍了Selenium的基本设置、代理IP配置及使用技巧,并探讨了未来可能采用的更多防反爬策略,以提升爬虫效率和稳定性。
138 4
|
4月前
|
关系型数据库 MySQL Shell
不通过navicat工具怎么把查询数据导出到excel表中
不通过navicat工具怎么把查询数据导出到excel表中
51 0
|
2月前
|
数据处理 Python
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
这篇文章介绍了如何使用Python读取Excel文件中的数据,处理后将其保存为txt、xlsx和csv格式的文件。
75 3
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
|
2月前
|
easyexcel Java UED
SpringBoot中大量数据导出方案:使用EasyExcel并行导出多个excel文件并压缩zip后下载
在SpringBoot环境中,为了优化大量数据的Excel导出体验,可采用异步方式处理。具体做法是将数据拆分后利用`CompletableFuture`与`ThreadPoolTaskExecutor`并行导出,并使用EasyExcel生成多个Excel文件,最终将其压缩成ZIP文件供下载。此方案提升了导出效率,改善了用户体验。代码示例展示了如何实现这一过程,包括多线程处理、模板导出及资源清理等关键步骤。
|
3月前
|
数据采集 存储 数据挖掘
使用Python读取Excel数据
本文介绍了如何使用Python的`pandas`库读取和操作Excel文件。首先,需要安装`pandas`和`openpyxl`库。接着,通过`read_excel`函数读取Excel数据,并展示了读取特定工作表、查看数据以及计算平均值等操作。此外,还介绍了选择特定列、筛选数据和数据清洗等常用操作。`pandas`是一个强大且易用的工具,适用于日常数据处理工作。
|
4月前
|
SQL JSON 关系型数据库
n种方式教你用python读写excel等数据文件
n种方式教你用python读写excel等数据文件
|
4月前
|
存储 Java Apache
|
4月前
|
数据可视化 Python
我是如何把python获取到的数据写入Excel的?
我是如何把python获取到的数据写入Excel的?
59 2
|
4月前
|
索引 Python
Python基于Excel多列长度不定的数据怎么绘制折线图?
本文档详述了如何运用Python从CSV格式的Excel文件中读取特定范围的数据,并基于这些数据绘制多条折线图。文件的第一列代表循环增长的时间序列,后续各列包含不同属性的数据。通过指定起始与结束行数,可选取一个完整的时间循环周期内的数据进行绘图。每列数据以不同颜色和线型表示,并且图片长度会根据时间序列的长度动态调整,确保图表清晰易读。最终生成的图表将保存至指定文件夹。