上一节简单介绍了 Html Agility Pack (HAP):c# HTML 解析利器 。
本节以一个简单的例子说说 Html Agility Pack (HAP) 的应用。
一、下载 or 安装
1、下载
使用 VS 2015 之前的版本,需要将 Html Agility Pack (HAP) 发布版本下载到本地,然后添加引用。
下载地址:HAP 1.4.6 1.4.0 Stable
打开下载页面,点击“RECOMMENDED DOWNLOAD(推荐下载)”下面的下载链接
你会得到一个zip压缩包,左侧为1.4.6 包含各个版本,右侧为1.4.0,只有一份文件:
我使用的VS2010,项目使用 .NET Framew 2.0, HAP 使用的 1.4.0 版本,
我习惯将 引用的文件放到项目的 Resource 目录下
然后添加引用:
在项目引用上单击鼠标右键》添加引用,引用来源选择“浏览”,找到项目的 Resource 文件夹,选择文件
2、安装
安装方式:
package-manager
PM>Install-Package HtmlAgilityPack -Version 1.6.8.NET CLI
dotnet add package HtmlAgilityPack --version 1.6.8Paket CLI
paket add HtmlAgilityPack --version 1.6.8
二、示例:Html Agility Pack Examples
这里先上一个官方的例子,后续我再结合自己在抓取自己的博客信息时使用示例。例如,下面是如何提取 HTML 文件中的所有链接:
HtmlDocument doc = new HtmlDocument(); doc.Load("file.htm"); foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"]) { HtmlAttribute att = link["href"]; att.Value = FixLink(att); } doc.Save("file.htm");
常见问题:表达式的计算结果必须为节点集。