想将数百个小文件分成多线程,每线程下载多个文件,不知写对没?

简介:

也是按自己的想法去实现的。

每个线程下载完分配的文件之后,就退出来。

感觉是比单个下载快,但如何提高了性能,现在只能是看时间。

至于在下载什么。。。真是不好细说,哈哈哈。。私用,私用。

复制代码
from BeautifulSoup import BeautifulSoup
import urllib2,urllib
import os,sys,time,re
from threading import Thread

local_proxies = {'http': 'http://131.139.58.200:8080'}

class AxelPython(Thread, urllib.FancyURLopener):
    '''Multi-thread downloading class.

        run() is a vitural method of Thread.
    '''
    def __init__(self, threadname, url, ranges=0, proxies={}):
        Thread.__init__(self, name=threadname)
        urllib.FancyURLopener.__init__(self, proxies)
        self.name = threadname
        self.url = url
        #self.filename = filename
        self.ranges = ranges
        self.downloaded = 0

    def run(self):
        '''vertual function in Thread'''
        downImg(self.url,save_path)


def grabHref(url,localfile):
    html = urllib2.urlopen(url).read()
    html = unicode(html,'gb2312','ignore').encode('utf-8','ignore')
    content = BeautifulSoup(html).findAll('a')
    myfile = open(localfile,'a')
    pat = re.compile(r'href="([^"]*)"')
    pat1 = re.compile(r'movie')
    pat2 = re.compile(r'http')
    for item in content:
        h = pat.search(str(item))
        href = h.group(1)
        if not(pat1.search(href)):
            continue
        if pat2.search(href):
            ans = href
        else:
            ans = url+href
        myfile.write(ans)
        myfile.write('\r\n')
        #print ans
        grabImg(ans)
        break
    myfile.close()
    
def grabImg(url):
    req = urllib2.Request(url);
    resp = urllib2.urlopen(req);
    respHtml = resp.read(); 
    songtasteHtmlEncoding = "GB2312";
    soup = BeautifulSoup(respHtml, fromEncoding=songtasteHtmlEncoding);
    foundClassH1user = soup.find(attrs={"class":"bigImage"});
    #print "foundClassH1user=%s",foundClassH1user;
    for item in foundClassH1user:
        pat = re.compile(r'src="([^"]*)"')
        h = pat.search(str(item))
        href = h.group(1)
        #downImg(href)
        #print href
        #downImg(href,save_path)
        #filename = href.split("/")[-1]
        paxel(href,save_path, blocks=2, proxies={} )


def downImg(imgurl,save_path):
    filename = imgurl.split("/")[-1]
    dist = os.path.join(save_path, filename)
    connection = urllib2.build_opener().open(urllib2.Request(imgurl))
    urllib.urlretrieve(imgurl, dist,None)
    print "Done: ", filename
    #time.sleep(1)

def SpliteBlocks(totalsize, blocknumber):
    blocksize = totalsize/blocknumber
    ranges = []
    for i in range(0, blocknumber-1):
        ranges.append((i*blocksize, i*blocksize +blocksize - 1))
    ranges.append(( blocksize*(blocknumber-1), totalsize -1 ))

    return ranges

def islive(tasks):
    for task in tasks:
        if task.isAlive():
            return True
    return False

def paxel(href,save_path, blocks=6, proxies=local_proxies):
    ''' paxel
    '''
    output = href.split("/")[-1]
    dist = os.path.join(save_path, output)
    ranges = SpliteBlocks( size, blocks )

    threadname = [ "thread_%d" % i for i in range(0, blocks) ]
    #filename = [ "tmpfile_%d" % i for i in range(0, blocks) ]
  
    tasks = []
    for i in range(0,blocks):
        task = AxelPython(threadname[i], href, ranges[i])
        task.setDaemon( True )
        task.start()
        tasks.append( task )
        
    time.sleep(0.2)
    while islive(tasks):
        sys.stdout.flush()
        time.sleep(0.1)
    
def main():
    
    localfile = sys.argv[1]+'.txt'
    
    if not os.path.exists(save_path):
        os.mkdir(save_path)
    for iHref in xrange(int(sys.argv[2]),int(sys.argv[3])):
        url = "http://www.XXX.XXX/search/" + sys.argv[1] +"-" + str('%0.3d'%(iHref))
        grabHref(url,localfile)

if __name__=="__main__":
    save_path = os.path.abspath("./" + sys.argv[1])
    size = int(sys.argv[3]) - int(sys.argv[2])
    main()
复制代码

 

目录
相关文章
|
9月前
|
数据采集 Java API
Jsoup库能处理多线程下载吗?
Jsoup库能处理多线程下载吗?
|
2月前
|
安全 算法 Java
Java 多线程:线程安全与同步控制的深度解析
本文介绍了 Java 多线程开发的关键技术,涵盖线程的创建与启动、线程安全问题及其解决方案,包括 synchronized 关键字、原子类和线程间通信机制。通过示例代码讲解了多线程编程中的常见问题与优化方法,帮助开发者提升程序性能与稳定性。
129 0
|
2月前
|
数据采集 监控 调度
干货分享“用 多线程 爬取数据”:单线程 + 协程的效率反超 3 倍,这才是 Python 异步的正确打开方式
在 Python 爬虫中,多线程因 GIL 和切换开销效率低下,而协程通过用户态调度实现高并发,大幅提升爬取效率。本文详解协程原理、实战对比多线程性能,并提供最佳实践,助你掌握异步爬虫核心技术。
|
3月前
|
Java 数据挖掘 调度
Java 多线程创建零基础入门新手指南:从零开始全面学习多线程创建方法
本文从零基础角度出发,深入浅出地讲解Java多线程的创建方式。内容涵盖继承`Thread`类、实现`Runnable`接口、使用`Callable`和`Future`接口以及线程池的创建与管理等核心知识点。通过代码示例与应用场景分析,帮助读者理解每种方式的特点及适用场景,理论结合实践,轻松掌握Java多线程编程 essentials。
226 5
|
7月前
|
Python
python3多线程中使用线程睡眠
本文详细介绍了Python3多线程编程中使用线程睡眠的基本方法和应用场景。通过 `time.sleep()`函数,可以使线程暂停执行一段指定的时间,从而控制线程的执行节奏。通过实际示例演示了如何在多线程中使用线程睡眠来实现计数器和下载器功能。希望本文能帮助您更好地理解和应用Python多线程编程,提高程序的并发能力和执行效率。
213 20
|
7月前
|
安全 Java C#
Unity多线程使用(线程池)
在C#中使用线程池需引用`System.Threading`。创建单个线程时,务必在Unity程序停止前关闭线程(如使用`Thread.Abort()`),否则可能导致崩溃。示例代码展示了如何创建和管理线程,确保在线程中执行任务并在主线程中处理结果。完整代码包括线程池队列、主线程检查及线程安全的操作队列管理,确保多线程操作的稳定性和安全性。
|
9月前
|
NoSQL Redis
单线程传奇Redis,为何引入多线程?
Redis 4.0 引入多线程支持,主要用于后台对象删除、处理阻塞命令和网络 I/O 等操作,以提高并发性和性能。尽管如此,Redis 仍保留单线程执行模型处理客户端请求,确保高效性和简单性。多线程仅用于优化后台任务,如异步删除过期对象和分担读写操作,从而提升整体性能。
153 1
|
10月前
|
数据采集 Java Python
爬取小说资源的Python实践:从单线程到多线程的效率飞跃
本文介绍了一种使用Python从笔趣阁网站爬取小说内容的方法,并通过引入多线程技术大幅提高了下载效率。文章首先概述了环境准备,包括所需安装的库,然后详细描述了爬虫程序的设计与实现过程,包括发送HTTP请求、解析HTML文档、提取章节链接及多线程下载等步骤。最后,强调了性能优化的重要性,并提醒读者遵守相关法律法规。
281 0
|
11月前
|
存储 消息中间件 资源调度
C++ 多线程之初识多线程
这篇文章介绍了C++多线程的基本概念,包括进程和线程的定义、并发的实现方式,以及如何在C++中创建和管理线程,包括使用`std::thread`库、线程的join和detach方法,并通过示例代码展示了如何创建和使用多线程。
135 1
C++ 多线程之初识多线程
|
11月前
|
Java 开发者
在Java多线程编程中,创建线程的方法有两种:继承Thread类和实现Runnable接口
【10月更文挑战第20天】在Java多线程编程中,创建线程的方法有两种:继承Thread类和实现Runnable接口。本文揭示了这两种方式的微妙差异和潜在陷阱,帮助你更好地理解和选择适合项目需求的线程创建方式。
188 3