HTML Agility Pack 搭配 ScrapySharp,彻底解除Html解析的痛苦

简介: 原文:HTML Agility Pack 搭配 ScrapySharp,彻底解除Html解析的痛苦自从 Web 应用程序自 1993 年 W3C 设立以来就开始发展,而且 HTML 也历经了数个版本的演化(1.0 – 2.0 – 3.0 – 3.2 – 4.0 – 4.01),现在也已经成为Web网页或应用程序的最基础,想要学习如何设计 Web 网页或开发 Web 应用程序,这已经是绝对必须要学的东西了,就算是方便的控件(例如 ASP.NET),但 HTML 仍然有学习它的必要性,因此如果不会 HTML,就等于没学过 Web 网页一般。
原文: HTML Agility Pack 搭配 ScrapySharp,彻底解除Html解析的痛苦

自从 Web 应用程序自 1993 年 W3C 设立以来就开始发展,而且 HTML 也历经了数个版本的演化(1.0 – 2.0 – 3.0 – 3.2 – 4.0 – 4.01),现在也已经成为Web网页或应用程序的最基础,想要学习如何设计 Web 网页或开发 Web 应用程序,这已经是绝对必须要学的东西了,就算是方便的控件(例如 ASP.NET),但 HTML 仍然有学习它的必要性,因此如果不会 HTML,就等于没学过 Web 网页一般。

拜 HTML 与 Web 浏览器蓬勃发展之赐,各式各样的应用都在网络上迅速发展,举凡电子商务、企业门户、在线下单、企业间协同应用等,乃至于社交、个性化、Web 2.0 等商务与组织运用等能力,而在信息爆炸的时代,很多信息整合的应用也随之出炉,而这些信息整合的应用程序都会连接到不同的网站下载其信息,并且在重重的 HTML 中剖析出想要的数据(例如每股价格、涨跌幅、成交量等)。

但是 HTML 本身并不是一个结构严谨的语言,它允许卷标(tag)可以在不 close 的情况下继续使用。这也是因为浏览器设计的高容错性(Fault Tolerance)所致,如此一来,想要依照规则来剖析 HTML 文件几乎变得不可能,而且对方的网站的 HTML 结构也可能会随时变化,在这种情况下,剖析 HTML 变得非常辛苦,虽然 W3C 有另外推展 XHTML(遵守 XML 严谨格式的 HTML),但使用它来设计网页的案例仍为少数,大多数的网站仍然是使用 HTML。因此我们会需要一个工具,能够有方法快速的解析 HTML 以取出我们需要的数据。

大家都知道,HTML 本身其实只是一个 HTML 标记的字符串而已,因此一般说到要解析 HTML,第一个会想到的大概就是字符串比对(string comparison),自己针对 HTML 的结构写一个 pattern,然后由函式去做逐一的比对,例如:

[C#]

1. string pattern = "<td id='stockPrice'>";

2. html.IndexOf(pattern);

不过传统的字符串比对效能太差,也没有一个规则性,因而才发展出正则表达式(Regular Expression)技术,例如下列这样的语法:

[Regular Expression]

1. </?\w+((\s+\w+(\s*=\s*(?:".*?"|'.*?'|[^'">\s]+))?)+\s*|\s*)/?>

但 Regular Expression 的学习曲线很高,若要使用它来解析 HTML,并且再加以定制化(Customization)的话,对于一般开发人员来说,实在没有什么亲和力。

HTML 还有一个特色,就是它是具层性(Hierarchy)的,因此浏览器在解译它的时候都会以文件树(document tree)的方式,再用递归(recursive)的方法来处理它,但 Regular Expression 没有支持层级性的剖析,而最接近阶层剖析又好用的工具,莫过于 XML Parser 了,它的 DOM 以及 XPath 的特性,都可以让解析 XML 的工作变得轻松,然而 XML Parser 无法读取一般的 HTML(XHTML 可以),因为一般的 HTML 是结构松散的类型,XML Parser 会在读入时检查语法结构是否完整(也就是 Well-known 的结构),若读入的是结构松散的内容的话会掷出例外讯息,因此无法直接使用 XML Parser 来辅助。

HTML Agility Pack 是由法国的一位软件架构师 Simon Mourier 所开发,并且由 DarthObiwan 以及 Jessynoo 辅助开发出来的一个软件工具,它可以让剖析松散格式 HTML 的工作就像剖析 XML 一样简单,它也有类似于 System.Xml 命名空间中的 XML DOM 的许多类别,除了可以使用阶层的方式存取 HTML 以外,它也支持使用 XPath 的方式来搜寻 HTML,这会较以往使用文字比对或是 Regular Expression 的比对方式来得更明确。

若要使用 HTML Agility Pack 组件,可先上 Codeplex 的 HTML Agility Pack 网站下载二进制文件(同时也提供源代码、说明文件以及 HAP Explorer 工具程序可下载),并解压缩后,在项目加入对 HtmlAgilityPack.dll 的引用。

Html Agility Pack 源码中的类大概有28个左右,其实不算一个很复杂的类库,但它的功能确不弱,为解析DOM已经提供了足够强大的功能支持,可以跟jQuery操作DOM媲美:)Html Agility Pack最常用的基础类其实不多,对解析DOM来说,就只有HtmlDocument和HtmlNode这两个常用的类,还有一个 HtmlNodeCollection集合类。

HTML Agility Pack的操作起来还是很麻烦,下面我们要介绍的这个组件是ScrapySharp,他在2个方面针对Html Agility Pack进行了包装,使得解析Html页面不再痛苦,幸福指数直线上升到90分哈。

ScapySharp有了一个真实的浏览器包装类(处理Reference,Cookie等),另外一个就是使用类似于jQuery一样的Css选择器和Linq语法。让我们使用起来非常的爽。它的代码放在 https://bitbucket.org/rflechner/scrapysharp。也可以通过Nuget添加

image

下面我们来看一段解析博客园的博客文章的代码:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using HtmlAgilityPack;
using ScrapySharp.Extensions;
using ScrapySharp.Network;

namespace HTMLAgilityDemo
{
    class Program
    {
        static void Main(string[] args)
        {
            var uri = new Uri("http://www.cnblogs.com/shanyou/archive/2012/05/20/2509435.html");
            var browser1 = new ScrapingBrowser();
            var html1 = browser1.DownloadString(uri);
            var htmlDocument = new HtmlDocument();
            htmlDocument.LoadHtml(html1);
            var html = htmlDocument.DocumentNode;

            var title = html.CssSelect("title");
            foreach (var htmlNode in title)
            {
                Console.WriteLine(htmlNode.InnerHtml);
            }
            var divs = html.CssSelect("div.postBody");

            foreach (var htmlNode in divs)
            {
                Console.WriteLine(htmlNode.InnerHtml);
            }

            divs = html.CssSelect("#cnblogs_post_body");
            foreach (var htmlNode in divs)
            {
                Console.WriteLine(htmlNode.InnerHtml);
            }
        }
    }
}

Basic examples of CssSelect usages:

 

var divs = html.CssSelect("div");  //all div elements

var nodes = html.CssSelect("div.content"); //all div elements with css class ‘content’

var nodes = html.CssSelect("div.widget.monthlist"); //all div elements with the both css class

var nodes = html.CssSelect("#postPaging"); //all HTML elements with the id postPaging

var nodes = html.CssSelect("div#postPaging.testClass"); // all HTML elements with the id postPaging and css class testClass 

var nodes = html.CssSelect("div.content > p.para"); //p elements who are direct children of div elements with css class ‘content’ 

var nodes = html.CssSelect("input[type=text].login"); // textbox with css class login 

We can also select ancestors of elements:

var nodes = html.CssSelect("p.para").CssSelectAncestors("div.content > div.widget");

参考文章:

HTML Agility Pack:簡單好用的快速 HTML Parser

开源项目Html Agility Pack实现快速解析Html

c#中的jQuery——HtmlAgilityPack

Html Agility Pack基础类介绍及运用

.Net解析html文档类库HtmlAgilityPack完整使用说明--采集软件开发尤其好用

Crawler-Lib Crawler Engine

挖掘百度关键词示例:BaiduTools.zip

目录
相关文章
|
9月前
|
XML 前端开发 C#
C#编程实践:解析HTML文档并执行元素匹配
通过上述步骤,可以在C#中有效地解析HTML文档并执行元素匹配。HtmlAgilityPack提供了一个强大而灵活的工具集,可以处理各种HTML解析任务。
384 19
|
数据采集 存储 调度
BeautifulSoup VS Scrapy:如何选择适合的HTML解析工具?
在Python网页抓取领域,BeautifulSoup和Scrapy是两款备受推崇的工具。BeautifulSoup易于上手、灵活性高,适合初学者和简单任务;Scrapy则是一个高效的爬虫框架,内置请求调度、数据存储等功能,适合大规模数据抓取和复杂逻辑处理。两者结合使用可以发挥各自优势,例如用Scrapy进行请求调度,用BeautifulSoup解析HTML。示例代码展示了如何在Scrapy中设置代理IP、User-Agent和Cookies,并使用BeautifulSoup解析响应内容。选择工具应根据项目需求,简单任务选BeautifulSoup,复杂任务选Scrapy。
476 1
BeautifulSoup VS Scrapy:如何选择适合的HTML解析工具?
|
数据采集 前端开发 API
SurfGen爬虫:解析HTML与提取关键数据
SurfGen爬虫:解析HTML与提取关键数据
|
XML 数据采集 数据格式
Python 爬虫必备杀器,xpath 解析 HTML
【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言,通过路径表达式选取节点或节点集。它不仅适用于 XML,也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择,如 `//p` 选择所有段落标签,`//a[@href=&#39;example.com&#39;]` 选择特定链接。在 Python 中,常用 lxml 库结合 XPath 进行网页数据抓取,支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用,如 `contains()` 用于模糊匹配。
504 7
|
XML JavaScript 前端开发
如何解析一个 HTML 文本
【10月更文挑战第23天】在实际应用中,根据具体的需求和场景,我们可以灵活选择解析方法,并结合其他相关技术来实现高效、准确的 HTML 解析。随着网页技术的不断发展,解析 HTML 文本的方法也在不断更新和完善,
|
JavaScript API 开发工具
<大厂实战场景> ~ Flutter&鸿蒙next 解析后端返回的 HTML 数据详解
本文介绍了如何在 Flutter 中解析后端返回的 HTML 数据。首先解释了 HTML 解析的概念,然后详细介绍了使用 `http` 和 `html` 库的步骤,包括添加依赖、获取 HTML 数据、解析 HTML 内容和在 Flutter UI 中显示解析结果。通过具体的代码示例,展示了如何从 URL 获取 HTML 并提取特定信息,如链接列表。希望本文能帮助你在 Flutter 应用中更好地处理 HTML 数据。
572 1
|
XML 数据格式
HTML 实例解析
本文介绍了HTML中常见元素的使用方法,包括`&lt;p&gt;`、`&lt;body&gt;`和`&lt;html&gt;`等。详细解析了这些元素的结构和作用,并强调了正确使用结束标签的重要性。此外,还提到了空元素的使用及大小写标签的规范。
|
12月前
|
存储 前端开发 JavaScript
仿真银行app下载安装, 银行卡虚拟余额制作app,用html+css+js实现逼真娱乐工具
这是一个简单的银行账户模拟器项目,用于学习前端开发基础。用户可进行存款、取款操作,所有数据存储于浏览器内存中
|
人工智能 程序员 UED
【01】完成新年倒计时页面-蛇年新年快乐倒计时领取礼物放烟花html代码优雅草科技央千澈写采用html5+div+CSS+JavaScript-优雅草卓伊凡-做一条关于新年的代码分享给你们-为了C站的分拼一下子
【01】完成新年倒计时页面-蛇年新年快乐倒计时领取礼物放烟花html代码优雅草科技央千澈写采用html5+div+CSS+JavaScript-优雅草卓伊凡-做一条关于新年的代码分享给你们-为了C站的分拼一下子
884 21
【01】完成新年倒计时页面-蛇年新年快乐倒计时领取礼物放烟花html代码优雅草科技央千澈写采用html5+div+CSS+JavaScript-优雅草卓伊凡-做一条关于新年的代码分享给你们-为了C站的分拼一下子

推荐镜像

更多
  • DNS