简单的C#爬虫

简介: using System; using System.Collections.Generic; using System.
using System;  
using System.Collections.Generic;  
using System.IO;  
using System.Linq;  
using System.Net;  
using System.Text;  
using System.Text.RegularExpressions;  
using System.Threading.Tasks;  
  
namespace _2015._5._23通过WebClient类发起请求并下载html  
{  
    class Program  
    {  
        static void Main(string[] args)  
        {  
            #region 抓取网页邮箱  
            //string url = "http://zhidao.baidu.com/link?url=cvF0de2o9gkmk3zW2jY23TLEUs6wX-79E1DQVZG7qaBhEVT_xlh6TO7p0W4qwuAZ_InLymC_-mJBBcpdbzTeq_";  
            //WebClient wc = new WebClient();  
            //wc.Encoding = Encoding.UTF8;  
            //string str = wc.DownloadString(url);  
            //MatchCollection matchs=  Regex.Matches(str,@"\w+@([-\w])+([\.\w])+",RegexOptions.ECMAScript);  
            //foreach (Match item in matchs)  
            //{  
            //    Console.WriteLine(item.Value);  
            //}  
            //Console.WriteLine(matchs.Count);  
            #endregion   
 
            #region 抓取网页图片  
  
            //WebClient wc = new WebClient();  
            //wc.Encoding = Encoding.UTF8;  
            ////下载源网页代码  
            //string html = wc.DownloadString("http://dongxi.douban.com/?dcs=top-nav&dcm=douban");  
            //MatchCollection matches= Regex.Matches(html,"<img.*src=\"(.+?)\".*>");  
            //foreach (Match item in matches)  
            //{  
            //    //下载图片到指定路径  
            //    wc.DownloadFile(item.Groups[1].Value,@"c:\mv\"+Path.GetFileName(item.Groups[1].Value));  
            //}  
            //Console.WriteLine(matches.Count);  
 
            #endregion 爬一些信息  
  
            WebClient wc = new WebClient();  
            wc.Encoding = Encoding.UTF8;  
            string html = wc.DownloadString("http://www.lagou.com/");  
  
            MatchCollection matches= Regex.Matches(html,"<a.*jobs.*>(.*)</a>");  
            foreach (Match item in matches)  
            {  
                Console.WriteLine(item.Groups[1].Value);  
            }  
            Console.WriteLine(matches.Count);  
            Console.ReadKey();                                    
        }  
    }  
}  

目录
相关文章
|
数据采集 JSON API
C#网络爬虫实例:使用RestSharp获取Reddit首页的JSON数据并解析
C#网络爬虫实例:使用RestSharp获取Reddit首页的JSON数据并解析
|
2月前
|
数据采集 JavaScript C#
C#图像爬虫实战:从Walmart网站下载图片
C#图像爬虫实战:从Walmart网站下载图片
|
3月前
|
数据采集 存储 C#
C# 爬虫技术:京东视频内容抓取的实战案例分析
C# 爬虫技术:京东视频内容抓取的实战案例分析
|
3月前
|
数据采集 XML C#
C#简化工作之实现网页爬虫获取数据
C#简化工作之实现网页爬虫获取数据
48 1
|
5月前
|
数据采集 XML 存储
技术经验分享:C#构造蜘蛛爬虫程序
技术经验分享:C#构造蜘蛛爬虫程序
35 0
|
6月前
|
数据采集 C# 数据安全/隐私保护
掌握 C# 爬虫技术:使用 HttpClient 获取今日头条内容
本文介绍了如何使用C#的HttpClient与爬虫代理IP技术抓取今日头条内容,以实现高效的数据采集。通过结合亿牛云爬虫代理,可以绕过IP限制,增强匿名性。文中提供了一个代码示例,展示如何设置代理服务器信息、请求头,并用正则表达式提取热点新闻标题。利用多线程技术,能提升爬虫采集效率,为市场分析等应用提供支持。
149 1
掌握 C# 爬虫技术:使用 HttpClient 获取今日头条内容
|
6月前
|
数据采集 JSON API
C#爬虫项目实战:如何解决Instagram网站的封禁问题
C#爬虫项目实战:如何解决Instagram网站的封禁问题
|
6月前
|
数据采集 监控 调度
C#网络爬虫之TianyaCrawler实战经验分享
C#网络爬虫之TianyaCrawler实战经验分享
|
11月前
|
数据采集 开发框架 前端开发
使用C#和HtmlAgilityPack打造强大的Snapchat视频爬虫
Snapchat作为一款备受欢迎的社交媒体应用,允许用户分享照片和视频。然而,由于其特有的内容自动消失特性,爬虫开发面临一些挑战。本文将详细介绍如何巧妙运用C#和HtmlAgilityPack库,构建一个高效的Snapchat视频爬虫。该爬虫能够从Snapchat网页版中提取视频链接,并将其下载保存到本地。为了提升爬虫的效率和可靠性,我们将使用代理IP技术和多线程技术,以规避Snapchat的反爬机制。
|
Web App开发 测试技术 C#
C#HttpHelper爬虫类源码分享--苏飞版
C#HttpHelper实现了C#HttpWebRequest抓取时无视编码,无视证书,无视Cookie,并且实现的代理的功能,使用它您可以进行Get和Post请求,可以很方便 的设置Cookie,证书,代理,编码问题您不用管,因为类会自动为您识别网页的编码。
2439 0