.Net Core下使用HtmlAgilityPack解析采集互联网数据

简介: .Net Core下使用HtmlAgilityPack解析采集互联网数据
+关注继续查看

HtmlAgilityPack应该算是.Net下最好用的html解析库了。

 

因为最近帮朋友采集一些数据,在nuget里面搜索了好几个库,最后决定就用HtmlAgilityPack。并简单的记录下使用的姿势。

直接使用nuget包安装

Install-Package HtmlAgilityPack -Version 1.11.16

1.下载网页

该库提供了一个下载网页的类:HtmlWeb

var webGet = new HtmlWeb(); 
var document = webGet.Load(url);

如果网络正常的话,就会拿到一个HtmlDocument的对象。后面我们所有的操作都是基于该类做的。

我个人更喜欢使用HttpClient来下载网页,然后使用HtmlDocument来LoadHtml。因为自己使用HTMLClient可控性更高。比如要加代理IP,随机设置UA等操作。

当然简单的使用,使用HtmlWeb就差不多了。

2.解析网页

第一步拿到的htmlDocument对象,里面提供了很多操作。

image

 

举个栗子,比如我们要获取网页的文章的作者,直接在Chrome中右键->审查元素->elements->右键->Copy->Copy Xpath

document.DocumentNode.SelectSingleNode("Chrome复制的xpath")?.InnerText

然后就成功采集到了作者名字

如何解析列表?

用博客园举栗子,首页就是一个列表文章页。我们如何获取到这个列表所有的项呢?

var nodes =  document.DocumentNode.SelectNodes("xpath表达式")

如果熟悉xpath的老哥们就知道使用双斜杠开头的,就可以获取到多项节点的结果。比如博客园的表达式为: //div[@class='post_item'],然后获取到HtmlDocument的一个集合,再解析集合的子节点,就行了!

如何删除标签?

有些文章中,会隐藏a标签来给批量采集的人下毒。

可以直接使用Descendants方法找到所有的a标签,然后删除

var aNodes = 获取到的HtmlDocument对象.DocumentNode.Descendants("a")
 foreach (var anode in aNodes.ToArray())
            {
                anode.Remove();
            }

如果要采集图片呢?

一般图片地址放在img的src属性上,

var imgNodes = detail.DocumentNode.Descendants("img");
            foreach (var img in imgNodes)
            {
                string imgurl = img.GetAttributeValue("src","");
            }

获取到地址,就可以使用HTTPClient来下载图片并保存到文件夹中

 

如何修改节点属性?

举个栗子,如果我们把图片上传到我们的服务器,然后要在文章中替换掉别人的图片地址,那应该怎么做呢?

var imgNodes = detail.DocumentNode.Descendants("img");
            foreach (var img in imgNodes)
            {
                img.SetAttributeValue("src", "图片地址");
            }

基本上,掌握这几点,就能到处去采集别人的网站了。

当然HtmlAgilityPack的功能远远不止本文所描述的这些,更多的功能,可能需要有更深入的需求才会用到,

目录
相关文章
|
25天前
|
JSON 数据格式
.NET Core - 配置绑定:使用强类型对象承载配置数据
.NET Core - 配置绑定:使用强类型对象承载配置数据
|
3月前
|
数据库 C#
C#,.net,winform导入Excel功能以及下载Excel文件到本地,并使用SqlBulkCopy把DataTable类型的数据写入到sqlserver数据库中
C#,.net,winform导入Excel功能以及下载Excel文件到本地,并使用SqlBulkCopy把DataTable类型的数据写入到sqlserver数据库中
43 0
|
11月前
|
前端开发
.NET MVC第五章、模型绑定获取表单数据
.NET MVC第五章、模型绑定获取表单数据
42 0
.NET MVC第五章、模型绑定获取表单数据
|
11月前
|
前端开发
.NET MVC第四章、模型绑定获取表单数据
.NET MVC第四章、模型绑定获取表单数据
64 0
.NET MVC第四章、模型绑定获取表单数据
|
12月前
|
小程序 安全 API
.NET企业微信回调配置(数据回调URL和指令回调URL验证)(一)
.NET企业微信回调配置(数据回调URL和指令回调URL验证)
720 0
.NET企业微信回调配置(数据回调URL和指令回调URL验证)(一)
|
12月前
|
JSON 数据格式
【.NET开发福音】使用Visual Studio将JSON格式数据自动转化为对应的类
【.NET开发福音】使用Visual Studio将JSON格式数据自动转化为对应的类
493 0
【.NET开发福音】使用Visual Studio将JSON格式数据自动转化为对应的类
|
开发框架 关系型数据库 MySQL
.NET Core使用NPOI将Excel中的数据批量导入到MySQL
.NET Core使用NPOI将Excel中的数据批量导入到MySQL
200 0
.NET Core使用NPOI将Excel中的数据批量导入到MySQL
|
SQL 安全 数据可视化
.NET Core开发的iNeuOS工业互联网平台,发布 iNeuDA 数据分析展示组件,快捷开发图形报表和数据大屏
经过一段时间的努力,iNeuDA产品组件已经开发和测试完成,现在正式上线。现在iNeuOS工业互联网操作系统的技术体系和产品体系更佳完善,为中小企业提供更佳全面解决方案。
399 0
.NET Core开发的iNeuOS工业互联网平台,发布 iNeuDA 数据分析展示组件,快捷开发图形报表和数据大屏
|
SQL .NET C#
.Net并行编程(一)-TPL之数据并行
前言 许多个人计算机和工作站都有多个CPU核心,可以同时执行多个线程。利用硬件的特性,使用并行化代码以在多个处理器之间分配工作。 应用场景 文件批量上传并行上传单个文件。也可以把一个文件拆成几段分开上传,加快上传速度。
1563 0
|
JSON 数据格式
.NET读取json数据并绑定到对象
原文:.NET读取json数据并绑定到对象 需要引用的命名空间:       读取的具体应用: this代表本实体(对象),通过PopulateObject,直接将读取到的json数据与对象进行绑定       Json保存的具体应用: 将对象保存为Json     JOb...
814 0
相关产品
云迁移中心
推荐文章
更多