噢百万结果抓取

简介:   import requests import re from lxml import etree '''噢百万抓取''' url = 'http://www.obaiwan.

 

 

import requests
import re
from lxml import etree

'''噢百万抓取'''

url = 'http://www.obaiwan.com/hk49/results/'

p = re.compile('''<tr >\r\n<td  >.+?</td>\r\n<td  >(.+?)</td>\r\n<td >(.+?)</td>\r\n<td ><b style=".+?">(.+?)</b></td>\r\n<td ><b style=".+?">(.+?)</b></td>\r\n<td ><b style=".+?">(.+?)</b></td>\r\n<td ><b style=".+?">(.+?)</b></td>\r\n<td ><b style=".+?">(.+?)</b></td>\r\n<td ><b style=".+?">(.+?)</b></td>\r\n<td  >.+?</td>\r\n<td >.+?</td>\r\n<td >.+?</td>\r\n<td >.+?</td>\r\n<td >.+?</td>\r\n<td >.+?</td>\r\n<td >.+?</td>\r\n<td ><b style=".+?">(.+?)</b></td>\r\n</tr>''')

f = open('history.txt','w')
res = ''

for i in range(2003, 2016):
    year = i
    data = {'qinum':year,'submit':'%CC%E1%BD%BB%B2%E9%D1%AF'}
    r = requests.post(url, data=data)
    r.encoding = 'gb2312'
    matchs = p.findall(r.text)
    for row in matchs:
        res += ','.join(row) + '\n'
        
f.write(res)
f.close()

 

目录
相关文章
|
6月前
|
自然语言处理 搜索推荐 数据挖掘
自制字节上万条招聘信息搜索网站,好玩!
自制字节上万条招聘信息搜索网站,好玩!
|
数据采集
爬虫基础-第二天
本次系列主要记录我学爬虫的一些精髓之处,值得一看。
68 1
|
数据采集 JSON 编解码
Python爬虫系列6-百度文库VIP付费数据的抓取
编程难不难?那可不是闹着玩的。不从事这一行的永远不知道这行的艰辛 俗话说的好;爬虫在手天下我有,自从学习了爬虫;看到什么都想盘它一番;直到遇到JS反爬。 不知大家有没有遇到过这种情况;就是你在网上不管是查阅资料也好还是做什么,你会发现其实很多人写的反爬一类的都只给你看结果,你根本不知道这个突破过程是怎么样的,哪怕获取到了代码又有何用;下次再给你一道题,你同样还是不会。你品,你细品...... 我觉得做任何事情一定有在短期内简单可行的方法。学习不应该是苦差事,而应该是快乐的,重要的是找到适合自己的学习方法。师者传道受业解惑!
Python爬虫系列6-百度文库VIP付费数据的抓取
|
数据采集 存储 Python
Python爬虫系列9-非诚勿扰等婚恋网数据批量抓取!
一般当大家遇到不顺心的时候,总是会焦虑,抱怨,我知道,这也是人软弱的一面,但是我们越是遇到困难,越是要振作起来,不要放弃自己,然后悄悄努力,只有这样才能让自己越来越好,如果一直沉浸在痛苦中,只会越来越糟。 适当的逼一逼自己,你会发现,人的潜力是无限的。
Python爬虫系列9-非诚勿扰等婚恋网数据批量抓取!
|
运维 搜索推荐 数据可视化
几百行代码完成百度搜索引擎,真的可以吗?(上)
Hello 大家好,我是鸭血粉丝,大家都叫我阿粉,搜索引擎想必大家一定不会默认,我们项目中经常使用的 ElasticSearch 就是一种搜索引擎,在我们的日志系统中必不可少,ELK 作为一个整体,基本上是运维标配了,另外目前的搜索引擎底层都是基于 Lucene 来实现的。
几百行代码完成百度搜索引擎,真的可以吗?(上)
|
运维 搜索推荐 数据可视化
几百行代码完成百度搜索引擎,真的可以吗?(下)
Hello 大家好,我是鸭血粉丝,大家都叫我阿粉,搜索引擎想必大家一定不会默认,我们项目中经常使用的 ElasticSearch 就是一种搜索引擎,在我们的日志系统中必不可少,ELK 作为一个整体,基本上是运维标配了,另外目前的搜索引擎底层都是基于 Lucene 来实现的。
几百行代码完成百度搜索引擎,真的可以吗?(下)
巧用搜索曝光、建商城、“闪回收”上线10个月用户量超过200万 | C位小程序访谈
你将通过闪回收支付宝小程序的案例了解到:如何巧妙地使用搜索入口拉新做活动如何利用社交链裂变拉新如何通过增加服务场景,缩短低频服务的复购周期一般人换手机的周期是18至22个月,手机数码回收商闪回收就处于这样一个低频的市场——完成回收行为的新用户很容易做成一锤子买卖,这是摆在这家公司面前的难题。
1458 0
巧用搜索曝光、建商城、“闪回收”上线10个月用户量超过200万 | C位小程序访谈
|
Web App开发 Windows
下一篇
无影云桌面