想看小说,自己写个采集类,读网页文章写入txt文件

简介: using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Net;
using System.IO;
using System.Text.RegularExpressions;

namespace allen
{
    class Program
    {
        /// <summary>
        /// 根据网址取得HTML代码
        /// </summary>
        /// <param name="url"></param>
        /// <returns></returns>
        static string GetHtml(string url)
        {
            HttpWebRequest request = WebRequest.Create(url) as HttpWebRequest;
            HttpWebResponse response = request.GetResponse() as HttpWebResponse;
            Stream stream = response.GetResponseStream();
            StreamReader reader = new StreamReader(stream, Encoding.Default);
            string html = reader.ReadToEnd();
            stream.Close();
            return html;
        }
        static Regex reg;
        /// <summary>
        /// 过滤器,留下文章正文
        /// </summary>
        /// <param name="htmlStr"></param>
        /// <returns></returns>
        static string MyFilter(string htmlStr)
        {
            reg = new Regex(@"\s+");//先把任意空白符做掉
            htmlStr = reg.Replace(htmlStr, "");
            reg = new Regex("点此下载封神演义.txt</font></font></a></div></td>.*</div></td></tr><tr><tdclass=");//匹配出正文
            Match match = reg.Match(htmlStr);
            string result = match.Value;
            result = result.Replace("点此下载封神演义.txt</font></font></a></div></td>", "");
            result = result.Replace("</div></td></tr><tr><tdclass=","");
            result = result.Replace("</tr></table>", "");
            result = result.Replace("本文章下载于www.Txt66.com", "");
            result = result.Replace("<br>",Environment.NewLine);
            return result;
        }
        /// <summary>
        /// 循环读取每页的文章,写入记事本
        /// </summary>
        static void WriteFile()
        {
            int page_num = 1;
            string url = "http://www.txt66.com/read2.asp?id=8480&PageNum={0}";
            string url_temp = string.Empty;
            string html = string.Empty;
            string text = string.Empty;
            StreamWriter sw = new StreamWriter(@"F:\g.txt", true, Encoding.Unicode);
            while (page_num < 124)
            {
                url_temp = string.Format(url, page_num);
                html = GetHtml(url_temp);
                text = MyFilter(html);
                sw.Write(text);
                Console.WriteLine("写入第{0}页", page_num);
                System.Threading.Thread.Sleep(600);
                page_num++;
            }
            sw.Close();
        }
        /// <summary>
        /// 主函数
        /// </summary>
        /// <param name="args"></param>
        static void Main(string[] args)
        {
            WriteFile();
            Console.ReadKey();
        }
    }
}

目录
相关文章
|
7月前
|
数据采集 Web App开发 JSON
浏览器插件:WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)
本文以百度为实战案例演示使用WebScraper插件抓取页面内容保存到文件中。以及WebScraper用法【2月更文挑战第1天】
482 2
浏览器插件:WebScraper基本用法和抓取页面内容(不会编程也能爬取数据)
|
2月前
|
数据采集 存储
爬虫案例—根据四大名著书名抓取并存储为文本文件
爬虫案例—根据四大名著书名抓取并存储为文本文件
32 0
|
6月前
|
程序员 Python
老程序员分享:python爬取电影网站信息并写入文件
老程序员分享:python爬取电影网站信息并写入文件
60 0
|
7月前
|
数据安全/隐私保护 Python Windows
Python办公自动化【Word转换PDF、PDF读取内容、PDF合并文件、PDF拆分文件、PDF加密文件、PPT基本操作-增加幻灯片、增加内容】(六)-全面详解(学习总结---从入门到深化)
Python办公自动化【Word转换PDF、PDF读取内容、PDF合并文件、PDF拆分文件、PDF加密文件、PPT基本操作-增加幻灯片、增加内容】(六)-全面详解(学习总结---从入门到深化)
132 0
|
7月前
|
数据安全/隐私保护 Python
Python办公自动化【Word转换PDF、PDF读取内容、PDF合并文件、PDF拆分文件、PDF加密文件、PPT基本操作-增加幻灯片、增加内容】(六)-全面详解(学习总结---从入门到深化)(下)
Python办公自动化【Word转换PDF、PDF读取内容、PDF合并文件、PDF拆分文件、PDF加密文件、PPT基本操作-增加幻灯片、增加内容】(六)-全面详解(学习总结---从入门到深化)
83 1
|
7月前
|
数据安全/隐私保护 Python Windows
Python办公自动化【Word转换PDF、PDF读取内容、PDF合并文件、PDF拆分文件、PDF加密文件、PPT基本操作-增加幻灯片、增加内容】(六)-全面详解(学习总结---从入门到深化)(上)
Python办公自动化【Word转换PDF、PDF读取内容、PDF合并文件、PDF拆分文件、PDF加密文件、PPT基本操作-增加幻灯片、增加内容】(六)-全面详解(学习总结---从入门到深化)
122 0
|
数据处理 Windows
成信大ENVI_IDL第二周课堂内容:打开HDF4文件并读取文件以及简单的数据处理和保存+详细解析
成信大ENVI_IDL第二周课堂内容:打开HDF4文件并读取文件以及简单的数据处理和保存+详细解析
401 1
|
Python
|
数据采集
【详细步骤解析】爬虫小练习——爬取豆瓣Top250电影,最后以csv文件保存,附源码
【详细步骤解析】爬虫小练习——爬取豆瓣Top250电影,最后以csv文件保存,附源码
315 0
vba 在网页中抓取指定内容
vba 在网页中抓取指定内容
94 0