HTML解析HtmlAgilityPack

简介: 原文:HTML解析HtmlAgilityPack//解析页面源代码           Uri surl = new Uri(url);           Uri uriCategory = null;           HttpWebRequest requst = (HttpWebRequest)WebRequest.
原文: HTML解析HtmlAgilityPack

//解析页面源代码
           Uri surl = new Uri(url);
           Uri uriCategory = null;
           HttpWebRequest requst = (HttpWebRequest)WebRequest.Create(url);
           WebResponse response = requst.GetResponse();

           Stream stream = response.GetResponseStream();
           StreamReader read = new StreamReader(stream, Encoding.GetEncoding("gb2312"));
           return read.ReadToEnd();
//定位到需要截取的部分
HtmlAgilityPack.HtmlDocument html = new HtmlAgilityPack.HtmlDocument();
            html.LoadHtml(str);
            HtmlNode rootNode = html.DocumentNode;

            HtmlNodeCollection categoryNodeList = rootNode.SelectNodes("//html[1]/body[1]/div[9]/div[1]/div[1]/div[1]/ul/li");
            HtmlNode temp = null;
            List<Category> list = new List<Category>();
//截取部分循环
foreach (HtmlNode categoryNode in categoryNodeList)
            {
                temp = HtmlNode.CreateNode(categoryNode.OuterHtml);
                HtmlNode singleNode = temp.SelectSingleNode(“//li/a[1]”);
Category category = new Category();
                    category.IndexUrl = singleNode.Attributes["href"].Value.ToString();
                    category.Subject = singleNode.Attributes["title"].Value.ToString();
list.Add(category);
}
public class Category
{
public string Subject { get; set; }
public string IndexUrl { get; set; }
}
////html[1]/body[1]/div[9]/div[1]/div[1]/div[1]/ul/li  截取规则
Articles/Article[1]:选取属于Articles子元素的第一个Article元素。 
/Articles/Article[last()]:选取属于Articles子元素的最后一个Article元素。 
/Articles/Article[last()-1]:选取属于Articles子元素的倒数第二个Article元素。 
/Articles/Article[position()<3]:选取最前面的两个属于 bookstore 元素的子元素的Article元素。 
//title[@lang]:选取所有拥有名为lang的属性的title元素。 
//CreateAt[@type='zh-cn']:选取所有CreateAt元素,且这些元素拥有值为zh-cn的type属性。 
/Articles/Article[Order>2]:选取Articles元素的所有Article元素,且其中的Order元素的值须大于2。 
/Articles/Article[Order<3]/Title:选取Articles元素中的Article元素的所有Title元素,且其中的Order元素的值须小于3。


目录
相关文章
|
1月前
|
JavaScript 前端开发 数据可视化
html解析过程
html解析过程【2月更文挑战第26天】
22 6
|
1月前
|
XML 前端开发 数据格式
请描述如何使用`BeautifulSoup`或其他类似的库来解析 HTML 或 XML 数据。
【2月更文挑战第22天】【2月更文挑战第67篇】请描述如何使用`BeautifulSoup`或其他类似的库来解析 HTML 或 XML 数据。
|
3月前
|
小程序 JavaScript 数据库
小程序解析富文本html内容
小程序解析富文本html内容
|
13天前
|
前端开发 JavaScript
HTML深度解析:更改文本颜色
【4月更文挑战第1天】
29 0
HTML深度解析:更改文本颜色
|
4月前
|
前端开发 BI 开发者
Javaweb之HTML,CSS的详细解析
新浪新闻-正文实现 2.3.2.1 正文排版 2.3.2.1.1 分析 整个正文部分的排版,主要分为这么四个部分: 1). 视频 (当前这种新闻页面,可能也会存在音频)
49 0

推荐镜像

更多