c#采集网页用得几个函数

简介: 代码 public  string GetHtmlSource(string Url, string charset)        {            if (charset == "" || charset == null) charset = "gb2312";        ...
img_405b18b4b6584ae338e0f6ecaf736533.gif 代码
public    string  GetHtmlSource( string  Url,  string  charset)
        {
            
if  (charset  ==   ""   ||  charset  ==   null ) charset  =   " gb2312 " ;
            
string  text1  =   "" ;
            
try
            {
                HttpWebRequest request1 
=  (HttpWebRequest)WebRequest.Create(Url);
                HttpWebResponse response1 
=  (HttpWebResponse)request1.GetResponse();
                Stream stream1 
=  response1.GetResponseStream();
                StreamReader reader1 
=   new  StreamReader(stream1, Encoding.GetEncoding(charset));
                text1 
=  reader1.ReadToEnd();
                stream1.Close();
                response1.Close();
            }
            
catch  (Exception exception1)
            {
            }
            
return  text1;
        }

 
public   string  SniffwebCode( string  code,  string  wordsBegin,  string  wordsEnd)
        {
            
string  NewsTitle  =   "" ;
            Regex regex1 
=   new  Regex( ""   +  wordsBegin  +   @" (?<title>[\s\S]+?) "   +  wordsEnd  +   "" , RegexOptions.Compiled  |  RegexOptions.IgnoreCase);
            
for  (Match match1  =  regex1.Match(code); match1.Success; match1  =  match1.NextMatch())
            {
                NewsTitle 
=  match1.Groups[ " title " ].ToString();
            }
            
return  NewsTitle;

        }

public  ArrayList SniffwebCodeReturnList( string  code,  string  wordsBegin,  string  wordsEnd)
        {
            ArrayList urlList 
=   new  ArrayList();
            
// string NewsTitle = "";
            Regex regex1  =   new  Regex( ""   +  wordsBegin  +   @" (?<title>[\s\S]+?) "   +  wordsEnd  +   "" , RegexOptions.Compiled  |  RegexOptions.IgnoreCase);
            
for  (Match match1  =  regex1.Match(code); match1.Success; match1  =  match1.NextMatch())
            {
                urlList.Add(match1.Groups[
" title " ].ToString());
            }
            
return  urlList;

        }

 

目录
相关文章
|
5天前
|
网络安全 C#
C# HttpWebRequest 获取 HTTPS 网页内容
C# HttpWebRequest 获取 HTTPS 网页内容
10 0
|
2月前
|
数据采集 API C#
网页解析高手:C#和HtmlAgilityPack教你下载视频
使用C#和HtmlAgilityPack解析小红书网页,下载其视频内容。文章涵盖了解析网页、获取视频链接、C#实现、HtmlAgilityPack简化解析、代理IP确保下载稳定及多线程提高下载效率。提供的代码示例展示了如何设置代理和多线程下载视频。实验结果显示,该方法能有效、高效地下载小红书视频。
网页解析高手:C#和HtmlAgilityPack教你下载视频
|
2月前
|
API C# 数据安全/隐私保护
C# 实现网页内容保存为图片并生成压缩包
C# 实现网页内容保存为图片并生成压缩包
|
11月前
|
数据采集 C#
使用c#和selenium获取网页
selenium 和 c# 的应用之一是创建一个网络爬虫,它可以从网页中抓取数据进行分析。网络爬虫是一种访问网页并从中提取信息的程序。 Selenium 是一个框架,它允许我们自动执行浏览器操作,例如单击、键入或导航。 C# 是一种编程语言,可用于编写网络爬虫的逻辑和功能。
110 0
|
12月前
|
开发框架 移动开发 前端开发
如何使用C#和HTMLAgilityPack抓取网页
HTMLAgilityPack是一款备受欢迎的用于解析和操作HTML文档的库。在使用之前,开发者需要考虑一些优缺点。下面是一些值得注意的优点: 1. 强大的错误容忍性 2. 灵活的API 3. 广泛的应用场景 然而,也有一些缺点需要考虑: 1. 性能问题 2. 对最新HTML特性的支持限制 3. 可能存在依赖和冲突
|
Web App开发 监控 前端开发
C# WPF 嵌入网页版WebGL油田三维可视化监控
C# WPF 嵌入网页版WebGL油田三维可视化监控
C# WPF 嵌入网页版WebGL油田三维可视化监控