perl抓取文件内容

简介: 本文用Web::Scraper抓取新浪中的文本 #!/usr/bin/perl -wuse strict;use utf8;use URI;use Web::Scraper;binmode( STDOUT, ':encoding(utf8)' );my $url   = "http://news.

本文用Web::Scraper抓取新浪中的文本

#!/usr/bin/perl -w
use strict;
use utf8;
use URI;
use Web::Scraper;
binmode( STDOUT, ':encoding(utf8)' );
my $url   = "http://news.sina.com.cn/c/2010-06-04/203520413927.shtml";
my $proce = scraper {
    process '.blkContainerSblk >h1',   "news[]"  => "TEXT";
    process '.blkContainerSblkCon >p', "texts[]" => "TEXT";
};
my $res = $proce->scrape( URI->new($url) );
for my $result ( @{ $res->{news} } ) {
    print "$result\n";
}
for my $result ( @{ $res->{texts} } ) {
    print "$result\n";
}

相关文章
|
4月前
|
数据采集 JavaScript 前端开发
Python 爬虫实战:抓取和解析网页数据
【8月更文挑战第31天】本文将引导你通过Python编写一个简单的网络爬虫,从网页中抓取并解析数据。我们将使用requests库获取网页内容,然后利用BeautifulSoup进行解析。通过本教程,你不仅能够学习到如何自动化地从网站收集信息,还能理解数据处理的基本概念。无论你是编程新手还是希望扩展你的技术工具箱,这篇文章都将为你提供有价值的见解。
|
6月前
|
数据库 Python
Python网络数据抓取(8):正则表达式
Python网络数据抓取(8):正则表达式
64 2
|
7月前
|
监控 Linux 开发者
【专栏】`head`命令是Linux系统中用于快速查看文件开头内容的工具,常用于处理日志文件
【4月更文挑战第28天】`head`命令是Linux系统中用于快速查看文件开头内容的工具,常用于处理日志文件。基本用法包括指定查看行数(如`head -n 10 file.txt`)和与其他命令(如`grep`)结合使用。高级用法涉及动态查看日志、过滤内容、管道操作及在脚本中的应用。实际应用案例包括监控系统日志、排查错误和分析应用日志。使用时注意文件存在性、行数选择及权限问题。熟练掌握head命令能提升工作效率,结合其他工具可实现更多功能,助力Linux用户提升技能。
100 1
|
7月前
|
数据采集 存储 JSON
解析Perl爬虫代码:使用WWW::Mechanize::PhantomJS库爬取stackoverflow.com的详细步骤
在这篇文章中,我们将探讨如何使用Perl语言和WWW::Mechanize::PhantomJS库来爬取网站数据。我们的目标是爬取stackoverflow.com的内容,同时使用爬虫代理来和多线程技术以提高爬取效率,并将数据存储到本地。
|
C++ Python
Python 给自己的博客做个目录,从网页中抓取标题和创建日期
Python 给自己的博客做个目录,从网页中抓取标题和创建日期
110 0
|
文件存储 Python
用 Python 抓取公号文章保存成 HTML
用 Python 抓取公号文章保存成 HTML
226 0
用 Python 抓取公号文章保存成 HTML
|
数据采集 Web App开发 JavaScript
10分钟教你用Python爬取Baidu文库全格式内容
10分钟教你用Python爬取Baidu文库全格式内容
1388 0
10分钟教你用Python爬取Baidu文库全格式内容
|
PHP
php抓取远程的图片,远程图片名字包含空格和中文
总结:urlencode和rawurlencode两个方法在处理字母数字,特殊符号,中文的时候结果都是一样的,唯一的不同是对空格的处理,urlencode处理成“+”,rawurlencode处理成“%20”。
148 0
|
Web App开发 Python 安全
Python 发送HTML格式邮件脚本
coding: utf-8 import smtplib from email.mime.text import MIMEText #导入MIMEText类 HOST = "smtp.
1271 0