噢百万结果抓取

简介:   import requests import re from lxml import etree '''噢百万抓取''' url = 'http://www.obaiwan.

 

 

import requests
import re
from lxml import etree

'''噢百万抓取'''

url = 'http://www.obaiwan.com/hk49/results/'

p = re.compile('''<tr >\r\n<td  >.+?</td>\r\n<td  >(.+?)</td>\r\n<td >(.+?)</td>\r\n<td ><b style=".+?">(.+?)</b></td>\r\n<td ><b style=".+?">(.+?)</b></td>\r\n<td ><b style=".+?">(.+?)</b></td>\r\n<td ><b style=".+?">(.+?)</b></td>\r\n<td ><b style=".+?">(.+?)</b></td>\r\n<td ><b style=".+?">(.+?)</b></td>\r\n<td  >.+?</td>\r\n<td >.+?</td>\r\n<td >.+?</td>\r\n<td >.+?</td>\r\n<td >.+?</td>\r\n<td >.+?</td>\r\n<td >.+?</td>\r\n<td ><b style=".+?">(.+?)</b></td>\r\n</tr>''')

f = open('history.txt','w')
res = ''

for i in range(2003, 2016):
    year = i
    data = {'qinum':year,'submit':'%CC%E1%BD%BB%B2%E9%D1%AF'}
    r = requests.post(url, data=data)
    r.encoding = 'gb2312'
    matchs = p.findall(r.text)
    for row in matchs:
        res += ','.join(row) + '\n'
        
f.write(res)
f.close()

 

目录
相关文章
|
5月前
|
自然语言处理 搜索推荐 数据挖掘
自制字节上万条招聘信息搜索网站,好玩!
自制字节上万条招聘信息搜索网站,好玩!
|
数据采集
爬虫基础-第二天
本次系列主要记录我学爬虫的一些精髓之处,值得一看。
66 1
|
数据采集 数据安全/隐私保护
爬虫基础-第三天
第三天虽然内容不多,不过需要大量练习,最好自己总结一波
75 0
|
数据采集 JSON 编解码
Python爬虫系列6-百度文库VIP付费数据的抓取
编程难不难?那可不是闹着玩的。不从事这一行的永远不知道这行的艰辛 俗话说的好;爬虫在手天下我有,自从学习了爬虫;看到什么都想盘它一番;直到遇到JS反爬。 不知大家有没有遇到过这种情况;就是你在网上不管是查阅资料也好还是做什么,你会发现其实很多人写的反爬一类的都只给你看结果,你根本不知道这个突破过程是怎么样的,哪怕获取到了代码又有何用;下次再给你一道题,你同样还是不会。你品,你细品...... 我觉得做任何事情一定有在短期内简单可行的方法。学习不应该是苦差事,而应该是快乐的,重要的是找到适合自己的学习方法。师者传道受业解惑!
Python爬虫系列6-百度文库VIP付费数据的抓取
|
数据采集 存储 Python
Python爬虫系列9-非诚勿扰等婚恋网数据批量抓取!
一般当大家遇到不顺心的时候,总是会焦虑,抱怨,我知道,这也是人软弱的一面,但是我们越是遇到困难,越是要振作起来,不要放弃自己,然后悄悄努力,只有这样才能让自己越来越好,如果一直沉浸在痛苦中,只会越来越糟。 适当的逼一逼自己,你会发现,人的潜力是无限的。
Python爬虫系列9-非诚勿扰等婚恋网数据批量抓取!
|
JSON 数据可视化 API
粉丝让我爬取热搜话题,结果做成了实时热搜『跑马灯』可视化
之前有粉丝让我爬取网上热搜话题,根据粉丝的这个提议,我想到了爬取不同平台的热搜话题并做成了一个:**全网实时热搜话题『****跑马灯****』可视化**。 特点:**实时**、**可视化浏览** 这里的热搜数据来源主要是:**微博**和**知乎**,选择这两个平台的目的:1.用户流量大、2.直接的热搜数据Api接口。
254 0
粉丝让我爬取热搜话题,结果做成了实时热搜『跑马灯』可视化
|
运维 搜索推荐 数据可视化
几百行代码完成百度搜索引擎,真的可以吗?(下)
Hello 大家好,我是鸭血粉丝,大家都叫我阿粉,搜索引擎想必大家一定不会默认,我们项目中经常使用的 ElasticSearch 就是一种搜索引擎,在我们的日志系统中必不可少,ELK 作为一个整体,基本上是运维标配了,另外目前的搜索引擎底层都是基于 Lucene 来实现的。
几百行代码完成百度搜索引擎,真的可以吗?(下)
|
运维 搜索推荐 数据可视化
几百行代码完成百度搜索引擎,真的可以吗?(上)
Hello 大家好,我是鸭血粉丝,大家都叫我阿粉,搜索引擎想必大家一定不会默认,我们项目中经常使用的 ElasticSearch 就是一种搜索引擎,在我们的日志系统中必不可少,ELK 作为一个整体,基本上是运维标配了,另外目前的搜索引擎底层都是基于 Lucene 来实现的。
几百行代码完成百度搜索引擎,真的可以吗?(上)
|
Web App开发 Windows
下一篇
无影云桌面