.NET多线程编程(14)——用C#实现蜘蛛/爬虫程序的多线程控制

简介:
 在爬虫/蜘蛛制作(C#语言)文中已经介绍了爬虫实现基本思路方法可以说已经实现了爬虫功能只是它存在个效率问题下载速度可能很慢这是两方面原因造成:   
         1.分析和下载不能同步进行在爬虫/蜘蛛制作
(C#语言)中已经介绍了爬虫两个步骤:分析和下载在单线程中两者是无法同时进行也就是说分析时会造成网络空闲分析时间越长下载效率越低反的也是样下载时无法同时进行分析只有停下下载后才能进行下步分析问题浮出水面我想大家都会想到:把分析和下载用区别线程进行问题不就解决了吗?
2.只是单线程下载相信大家都有用过网际快车等下载资源经历它里面是可以设置线程数(近年版本默认是10曾经默认是5)它会将文件分成和线程数相同部分然后每个线程下载自己那部分这样下载效率就有可能提高相信大家都有加多线程数提升下载效率经历但细心用户会发现在带宽定情况下并不是线程越多速度越快而是在某
点达到峰值爬虫作为特殊下载工具不具备多线程能力何以有效率可谈?爬虫在信息时代目难道不是快速获取信息吗?所以爬虫需要有多线程(可控数量)同时下载网页
好了认识、分析完问题就是解决问题了:
多线程在C#中并不难实现它有个命名空间:.Threading提供了多线程支持
要开启个新线程需要以下化:
ThreadStart startDownload = ThreadStart( DownLoad );
//线程起始设置:即每个线程都执行DownLoad注意:DownLoad必须为不带有参数思路方法
Thread downloadThread = Thread( startDownload ); //例子化要开启新类
downloadThread.Start;//开启线程  由于线程起始时启动思路方法不能带有参数这就为多线程共享资源添加
了麻烦不过我们可以用类级变量(当然也可以使用其它思路方法笔者认为此思路方法最简单易用)来解决这个问题
知道开启多线程下载思路方法后大家可能会产生几个疑问:
1.如何控制线程数量?
2.如何防止多线程下载同网页?
3.如何判断线程结束?
4.如何控制线程结束?
下面就这几个问题提出解决思路方法:
1.线程数量我们可以通过for循环来实现就如同当年初学编程打点样
比如已知用户指定了n(它是个型变量)个线程吧可以用如下思路方法开启 5个线程
Thread downloadThread;
//声名下载线程这是C#优势即化时不需要指定其长度可以在使用时才指定
这个声名应为类级这样也就为其它思路方法Control控件它们提供了可能
ThreadStart startDownload = ThreadStart( DownLoad );
//线程起始设置:即每个线程都执行DownLoad
downloadThread = Thread[ n ];//为线程申请资源确定线程总数
for( i = 0; i < n; i )//开启指定数量线程数
{
downloadThread[i] = Thread( startDownload );//指定线程起始设置
downloadThread[i].Start;//逐个开启线程
}  好了实现控制开启线程数是不是很简单啊?
 
2.下面出现个问题:所有线程都DonwLoad思路方法这样如何避免它们同时下载同个网页呢?
这个问题也好解决只要建立下Url地址表表中每个地址只允许被个线程申请即可具体实现:
可以利用数据库建立个表表中有 4列其中列专门用于存储Url地址另外两列分别存放地址对应线程以及该地
址被申请次数最后列存放下载内容(当然对应线程列不是必要)当有线程申请后将对应线程列设定为当前线程编号
并将是否申请过列设置为申请次这样别线程就无法申请该页如果下载成功则将内容存入内容列如果不成功内容
列仍为空作为是否再次下载依据的如果反复不成功则进程将于达到重试次数(对应该地址被申请次数用户可设)后
申请下个Url地址主要代码如下(以VFP为例):
<建立表>
CREATE TABLE (ctablename) ( curl M , ctext M , ldowned I , threadNum I )
&&建立个表ctablename.dbf含有地址、文本内容、已经尝试下载次数、
线程标志(初值为-1线程标志是从0开始整数) 4个字段
<提取Url地址>
cfullname = (ctablename) + '.dbf'&&为表添加扩展名
USE (cfullname) 
GO TOP
LOCATE FOR (EMPTY( ALLTRIM( ctext ) ) AND ldowned < 2 AND
( threadNum = thisNum OR threadNum = - 1) ) 
&&查找尚未下载成功且应下载属于本线程权限Url地址thisNum是当前线程编号
可以通过参数传递得到
gotUrl = curl
recNum = RECNO
IF recNum <= RECCOUNT THEN &&如果在列表中找到这样Url地址
UPDATE (cfullname) SET ldowned = ( ldowned + 1 ) , threadNum =
thisNum WHERE RECNO = recNum &&更新表将此记录更新为已申请即下载次数加1
线程标志列设为本线程编号
<下载内容>
cfulltablename = (ctablename) + '.dbf'
USE (cfulltablename)
SET EXACT _disibledevent= 0; i < n; i )//关闭指定数量n线程数
{
downloadThread[i].Abort;//逐个关闭线程
}  好了个蜘蛛就这样完成了在C#面前它实现原来如此简单
这里笔者还想提醒读者:笔者只是提供了个思路及个可以实现解决方案但它并不是最佳即使这个方案本身也
有好多可以改进地方留给读者研究
最后介绍说明下我所使用环境:
winXP sp2 Pro
VFP 9.0
Visual Studio 2003 .net中文企业版




本文转自 qianshao 51CTO博客,原文链接:http://blog.51cto.com/qianshao/203215,如需转载请自行联系原作者

目录
相关文章
|
6天前
|
Linux
Linux编程: 在业务线程中注册和处理Linux信号
本文详细介绍了如何在Linux中通过在业务线程中注册和处理信号。我们讨论了信号的基本概念,并通过完整的代码示例展示了在业务线程中注册和处理信号的方法。通过正确地使用信号处理机制,可以提高程序的健壮性和响应能力。希望本文能帮助您更好地理解和应用Linux信号处理,提高开发效率和代码质量。
38 17
|
15天前
|
Linux
Linux编程: 在业务线程中注册和处理Linux信号
通过本文,您可以了解如何在业务线程中注册和处理Linux信号。正确处理信号可以提高程序的健壮性和稳定性。希望这些内容能帮助您更好地理解和应用Linux信号处理机制。
50 26
|
2月前
|
存储 安全 Java
Java多线程编程秘籍:各种方案一网打尽,不要错过!
Java 中实现多线程的方式主要有四种:继承 Thread 类、实现 Runnable 接口、实现 Callable 接口和使用线程池。每种方式各有优缺点,适用于不同的场景。继承 Thread 类最简单,实现 Runnable 接口更灵活,Callable 接口支持返回结果,线程池则便于管理和复用线程。实际应用中可根据需求选择合适的方式。此外,还介绍了多线程相关的常见面试问题及答案,涵盖线程概念、线程安全、线程池等知识点。
221 2
|
2月前
|
安全 算法 Java
Java多线程编程中的陷阱与最佳实践####
本文探讨了Java多线程编程中常见的陷阱,并介绍了如何通过最佳实践来避免这些问题。我们将从基础概念入手,逐步深入到具体的代码示例,帮助开发者更好地理解和应用多线程技术。无论是初学者还是有经验的开发者,都能从中获得有价值的见解和建议。 ####
|
2月前
|
Java 调度
Java中的多线程编程与并发控制
本文深入探讨了Java编程语言中多线程编程的基础知识和并发控制机制。文章首先介绍了多线程的基本概念,包括线程的定义、生命周期以及在Java中创建和管理线程的方法。接着,详细讲解了Java提供的同步机制,如synchronized关键字、wait()和notify()方法等,以及如何通过这些机制实现线程间的协调与通信。最后,本文还讨论了一些常见的并发问题,例如死锁、竞态条件等,并提供了相应的解决策略。
72 3
|
2月前
|
算法 调度 开发者
多线程编程核心:上下文切换深度解析
在多线程编程中,上下文切换是一个至关重要的概念,它直接影响到程序的性能和响应速度。本文将深入探讨上下文切换的含义、原因、影响以及如何优化,帮助你在工作和学习中更好地理解和应用多线程技术。
54 4
|
2月前
|
安全 Java API
【JavaEE】多线程编程引入——认识Thread类
Thread类,Thread中的run方法,在编程中怎么调度多线程
|
3天前
|
Python
python3多线程中使用线程睡眠
本文详细介绍了Python3多线程编程中使用线程睡眠的基本方法和应用场景。通过 `time.sleep()`函数,可以使线程暂停执行一段指定的时间,从而控制线程的执行节奏。通过实际示例演示了如何在多线程中使用线程睡眠来实现计数器和下载器功能。希望本文能帮助您更好地理解和应用Python多线程编程,提高程序的并发能力和执行效率。
32 20
|
8天前
|
安全 Java C#
Unity多线程使用(线程池)
在C#中使用线程池需引用`System.Threading`。创建单个线程时,务必在Unity程序停止前关闭线程(如使用`Thread.Abort()`),否则可能导致崩溃。示例代码展示了如何创建和管理线程,确保在线程中执行任务并在主线程中处理结果。完整代码包括线程池队列、主线程检查及线程安全的操作队列管理,确保多线程操作的稳定性和安全性。
|
2月前
|
NoSQL Redis
单线程传奇Redis,为何引入多线程?
Redis 4.0 引入多线程支持,主要用于后台对象删除、处理阻塞命令和网络 I/O 等操作,以提高并发性和性能。尽管如此,Redis 仍保留单线程执行模型处理客户端请求,确保高效性和简单性。多线程仅用于优化后台任务,如异步删除过期对象和分担读写操作,从而提升整体性能。
79 1

相关课程

更多