使用正则表达式抓取博客园列表数据

简介: 鉴于我在要完成的asp.net MVC 3 仿照博客园企业系统要用到测试数据,我自己输入太累,所以我就抓取了博客园的部分列表数据,还请dudu不要见怪。 在抓取博客园数据的时候采用了正则表达式,所以有不熟悉正则表达式的朋友可以参考相关资料,其实很容易掌握,就是在具体的实例中会花些时间。

鉴于我在要完成的asp.net MVC 3 仿照博客园企业系统要用到测试数据,我自己输入太累,所以我就抓取了博客园的部分列表数据,还请dudu不要见怪。

在抓取博客园数据的时候采用了正则表达式,所以有不熟悉正则表达式的朋友可以参考相关资料,其实很容易掌握,就是在具体的实例中会花些时间。

现在我就来把我抓取博客园数据的过程叙述一下,如果有朋友有更好的意见,欢迎提出来。

要使用正则表达式抓取数据,首先就要创建一个正则表达式进行匹配,我推荐使用regulator,这个正则表达式工具,我们可以先使用这个工具把我们要使用的正则表达式拼接出来,然后在程序中使用。

我发现博客园的首页列表可以通过http://www.cnblogs.com/p1,p2...这种方式来直接访问,这样我们就可以直接通过url获取数据,而不用模拟数据点击事件来虚拟的点击下一页的那个按钮获取数据,更加方便。因为我的目的就是抓取一些数据,所以就简单点。

1.首先就是要写对应的sql Helper类,相信这是很多程序员都会掌握的,无非就是增删改查的操作。在创建好了sqlhelper类之后,我们就可以开始进行抓取数据的逻辑处理。

2.创建BlogRegexController

 1 public class BlogRegexController : Controller
 2     {
 3 
 4         public void ExecuteRegex()
 5         {
 6             string strBaseUrl = "http://www.cnblogs.com/p"; //定义博客园可以访问的列表数据的基地址
 7             for (int i = 1; i <= 200; i++)//因为博客园首页列表最大只有200页,所以我们这个循环就执行200次
 8             {
 9                 string strUrl = strBaseUrl + i.ToString();
10                 BlogRege blogRegex = new BlogRege(); //定义的具体的Regex类 抓取博客园地址
11                 string result = blogRegex.SendUrl(strUrl);
12                 blogRegex.AnalysisHtml(result);
13 
14                 Response.Write("获取成功");
15             }
16         }
17 
18 
19         //
20         // GET: /BlogRegex/
21 
22         public ActionResult Index()
23         {
24             ExecuteRegex();
25             return View();
26         }
27 
28     }

在controller中的ExecuteRegex()方法就是执行抓取博客园列表数据的功臣。

3.首先就是其中定义的BlogRege类,他负责抓取博客园列表数据并将其插入到数据库中

 1 public class BlogRege
 2     {      //负责把数据插入到数据库中 使用到的是sqlhelper类
 3         public void Insert(string title, string content,string linkurl, int categoryID = 1)
 4         {
 5             SqlHelper helper = new SqlHelper();
 6             helper.Insert(title, content, categoryID,linkurl);
 7         }
 8 
 9         /// <summary>
10         /// 通过Url地址获取具体网页内容 发起一个请求获得html内容
11         /// </summary>
12         /// <param name="strUrl"></param>
13         /// <returns></returns>
14         public string SendUrl(string strUrl)
15         {
16             try
17             {
18                 WebRequest webRequest = WebRequest.Create(strUrl);
19                 WebResponse webResponse = webRequest.GetResponse();
20                 StreamReader reader = new StreamReader(webResponse.GetResponseStream());
21                 string result = reader.ReadToEnd();
22                 return result;
23             }
24             catch (Exception ex)
25             {
26                 throw ex;
27             }
28         }
29 
30         /// <summary>
31         /// 分析Html  解析出里面具体的数据
32         /// </summary>
33         /// <param name="htmlContent"></param>
34         public void AnalysisHtml(string htmlContent)
35         {//这个就是我在regulator正则表达式工具中拼接获取到的正则表达式  还有一点请注意就是转义字符的问题
36             string strPattern = "<div\\s*class=\"post_item\">\\s*.*\\s*.*\\s*.*\\s*.*\\s*.*\\s*.*\\s*.*\\s*<div\\s*class=\"post_item_body\">\\s*<h3><a\\s*class=\"titlelnk\"\\s*href=\"(?<href>.*)\"\\s*target=\"_blank\">(?<title>.*)</a>.*\\s*<p\\s*class=\"post_item_summary\">\\s*(?<content>.*)\\s*</p>";
37 
38             Regex regex = new Regex(strPattern, RegexOptions.IgnoreCase | RegexOptions.Multiline | RegexOptions.CultureInvariant);
39             if (regex.IsMatch(htmlContent))
40             {
41                 MatchCollection matchCollection = regex.Matches(htmlContent);
42                 foreach (Match match in matchCollection)
43                 {
44                     string title = match.Groups[2].Value;//获取到的是列表数据的标题
45                     string content = match.Groups[3].Value;//获取到的是内容
46                     string linkurl=match.Groups[1].Value;//获取到的是链接到的地址
47                    Insert(title, content,linkurl);//执行插入到数据库的操作
48                 }
49             
50             
51             }
52         
53         }
58     }

4.通过上面的代码我们可以很轻松的从博客园中获取我们用来测试的数据,方便快捷,而且真实,比我们手动输入的速度要快很多。

正则表达式其实不应该算是一种语言,只能算是一种语法,因为任何的语言包括C#,javascript等语言都对正则表达式有很好的支持,只是他们的使用语法稍有不同,其实只要我们可以正确的拼接出正则表达式,那么我们抓取任何网站的内容都可以很轻松的做到。前一段我试着抓取了淘宝的数据,一共抓取了有几百万条,我想应该还有很多没有抓取到,不得不佩服淘宝,数据量太大。

回到我们使用的C#语言上,其实对正则表达式也有着非常好的支持,Regex就是用来对正则表达式进行操作的类,所有的对正则表达式的操作都在这个类中。

如果你对正则表达式还不是太熟悉,网上有一篇正则表达式30分钟入门教程,大家可以参考一下,写的很不错。再加上使用一个正则表达式工具,相信可以抓取到任何你想的内容。

在拼接正则表达式的时候,可能会花费很长时间,毕竟要分析html结构,从中抓取内容。希望大家可以沉住气,因为只要正则表达式拼接正确,那么一定可以抓取正确的内容。

为了避免大家说只说不做,那么我就把我抓取的博客园首页内容秀一下,因为博客园首页数据会有更新,所以大家可以看到这些数据都是在博客园中顺序存在的。

博客园每页列表是20条,一共200页,所以一共是4000条。数据抓取正确。

我以前说过,只是会代码的程序员不一定是合格程序员,程序员应该尽可能的减少自己的工作量,因为我们都是高智商的人。所以我们应该积极的学习各种对我们的工作有帮助的框架或者是方法,比如IOC、Entity Framework或Nhibernate框架来减轻我们开发维护代码的负担,毕竟我们听到需求要更改的反映,一般都是愤怒,然后大骂,最后才是修改。有些框架能够帮助我们,给我们维护代码带来好心情,何乐而不为呢。

我最后说一句,因为我要开发一个简单的仿照博客园的网站(MVC3),所以会用到各种技术准备,我提前写出来把这些要用到的内容整理一下,为以后的开发加速。

下一次,我准备整理一下在MVC中使用文本编辑器KindEditor的方法,希望大家如果有好的意见或者资料可以提供一下,让我也增加一些见识。谢谢各位

索引:

Asp.net MVC 使用Autofac的简单使用 IOC (2012-12-12 13:16)            
Asp.net MVC 仿照博客园的简单网站首页 列表设计 (2012-12-11 22:21)            
为什么要从Web form过渡到MVC中 (2012-12-09 22:4)            
Asp.net MVC3 企业网站系统高仿博客园 首页左侧列表页面 实现效果 (2012-12-08 19:11)            
Asp.net MVC 3 开发企业网站系统仿照博客园部分功能--总体设计 (2012-12-05 23:41)            
Asp.net MVC 3 开发简单的企业系统开篇--数据库 (2012-12-03 21:03)            
Asp.net MVC 3 开发一个简单的企业网站系统
我又回来了,回到了技术最前线,
相关文章
|
2月前
|
数据采集 Web App开发 iOS开发
如何使用 Python 语言的正则表达式进行网页数据的爬取?
使用 Python 进行网页数据爬取的步骤包括:1. 安装必要库(requests、re、bs4);2. 发送 HTTP 请求获取网页内容;3. 使用正则表达式提取数据;4. 数据清洗和处理;5. 循环遍历多个页面。通过这些步骤,可以高效地从网页中提取所需信息。
|
7月前
|
SQL 关系型数据库 数据处理
实时计算 Flink版产品使用问题之在同步数据时,是否可以使用正则表达式匹配进行源表到目标表的分库分表同步
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
XML 存储 数据采集
如何使用Python和正则表达式处理XML表单数据
如何使用Python和正则表达式处理XML表单数据
Python-初识正则表达式-指定匹配简单的日志数据
Python-初识正则表达式-指定匹配简单的日志数据
111 0
|
人工智能 编译器 Python
Python re 正则表达式 数据匹配提取 基本使用
模式字符串使用特殊的语法来表示一个正则表达式: 字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。 多数字母和数字前加一个反斜杠时会拥有不同的含义。 标点符号只有被转义时才匹配自身,否则它们表示特殊的含义。 反斜杠本身需要使用反斜杠转义。 正则表达式通常都包含反斜杠"\\"以及小括号"\(\)",模式元素(如 r'\t',等价于 '\\t')匹配相应的特殊字符。
272 0
Python re 正则表达式 数据匹配提取 基本使用
|
数据采集 测试技术
【正则表达式测试工具】使用正则表达式快速找出两列数据中不同的行
【正则表达式测试工具】使用正则表达式快速找出两列数据中不同的行
121 0
|
物联网 Linux Android开发
|
关系型数据库 MySQL
MySQL必知必会使用通配符和正则表达式数据过滤
MySQL必知必会使用通配符和正则表达式数据过滤
308 0
|
数据采集 Python
【资料下载】Python 第三讲——正则表达式爬取糗事百科数据
直播时间:2月20日 直播讲师:罗攀——林学研究生《从零开始学Python网络爬虫》作者《从零开始学Python数据分析》作者。擅长网络爬虫、数据分析,在web开发,数据库,机器学习等领域有所涉猎 随着Internet的飞速发展,互联网每天都会产生大量的非结构化数据。
用IHTMLDocument2接口获取页面上想要的数据,代替正则表达式
原文:用IHTMLDocument2接口获取页面上想要的数据,代替正则表达式 原文发布时间为:2010-07-01 —— 来源于本人的百度文章 [由搬家工具导入]1. 用 IHTMLDocument2::all 获得所有元素; 2. 用 IHTMLElementCollection::tags 获得标签为 span 的元素; 3. 用 IHTMLElement::className 获得 class 名为 EX 的元素; 4. 用 IHTMLElement::innerText 获得文本。
1096 0