Crawler:基于BeautifulSoup库+requests库+伪装浏览器的方式实现爬取14年所有的福彩网页的福彩3D相关信息,并将其保存到Excel表格中

简介: Crawler:基于BeautifulSoup库+requests库+伪装浏览器的方式实现爬取14年所有的福彩网页的福彩3D相关信息,并将其保存到Excel表格中

输出结果


本来想做个科学预测,无奈,我看不懂爬到的数据……

image.png


得到数据:3D(爬取的14年所有的福彩信息).rar


好吧,等我看到了再用机器学习算法预测一下……

完整代码,请点击获取http://1111111111111



核心代码


import requests

import BeautifulSoup

import xlwt

import time

#获取第一页的内容

def get_one_page(url):

headers = {

  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36'

}

response = requests.get(url,headers=headers)

if response.status_code == 200:

  return response.text

return None

#解析第一页内容,数据结构化

def parse_one_page(html):

  soup = BeautifulSoup(html,'lxml')

  i = 0

  for item in soup.select('tr')[2:-1]:

      yield{

          'time':item.select('td')[i].text,

          'issue':item.select('td')[i+1].text,

          'digits':item.select('td em')[0].text,

          'ten_digits':item.select('td em')[1].text,

          'hundred_digits':item.select('td em')[2].text,

          'single_selection':item.select('td')[i+3].text,

          'group_selection_3':item.select('td')[i+4].text,

          'group_selection_6':item.select('td')[i+5].text,

          'sales':item.select('td')[i+6].text,

          'return_rates':item.select('td')[i+7].text

    }

#将数据写入Excel表格中

def write_to_excel():

  f = xlwt.Workbook()                            

  sheet1 = f.add_sheet('3D',cell_overwrite_ok=True)

  row0 = ["开奖日期","期号","个位数","十位数","百位数","单数","组选3","组选6","销售额","返奖比例"]

  #写入第一行

  for j in range(0,len(row0)):

      sheet1.write(0,j,row0[j])

 

  #依次爬取每一页内容的每一期信息,并将其依次写入Excel

  i=0

  for k in range(1,247):

      url = 'http://kaijiang.zhcw.com/zhcw/html/3d/list_%s.html' %(str(k))

……

  f.save('3D.xls')

def main():

  write_to_excel()

if __name__ == '__main__':

  main()

 


相关文章
|
16天前
|
Python
使用OpenPyXL库实现Excel单元格其他对齐方式设置
本文介绍了如何使用Python的`openpyxl`库设置Excel单元格中的文本对齐方式,包括文本旋转、换行、自动调整大小和缩进等,通过具体示例代码展示了每种对齐方式的应用方法,适合需要频繁操作Excel文件的用户学习参考。
147 85
使用OpenPyXL库实现Excel单元格其他对齐方式设置
|
1月前
|
Java API Apache
Java编程如何读取Word文档里的Excel表格,并在保存文本内容时保留表格的样式?
【10月更文挑战第29天】Java编程如何读取Word文档里的Excel表格,并在保存文本内容时保留表格的样式?
136 5
|
1月前
|
数据格式 UED
记录一次NPOI库导出Excel遇到的小问题解决方案
【11月更文挑战第16天】本文记录了使用 NPOI 库导出 Excel 过程中遇到的三个主要问题及其解决方案:单元格数据格式错误、日期格式不正确以及合并单元格边框缺失。通过自定义单元格样式、设置数据格式和手动添加边框,有效解决了这些问题,提升了导出文件的质量和用户体验。
176 3
|
1月前
|
Java BI API
Java Excel报表生成:JXLS库的高效应用
在Java应用开发中,经常需要将数据导出到Excel文件中,以便于数据的分析和共享。JXLS库是一个强大的工具,它基于Apache POI,提供了一种简单而高效的方式来生成Excel报表。本文将详细介绍JXLS库的使用方法和技巧,帮助你快速掌握Java中的Excel导出功能。
70 6
|
1月前
|
SQL 数据可视化 数据挖掘
想让Excel表格设计更美观?试试这几款好用工具!
Excel表格设计在项目管理和数据分析中至关重要。本文推荐四款辅助工具:板栗看板、Excel自动图表助手、Think-Cell Chart 和 Power BI,分别在任务管理、图表生成、数据可视化等方面表现突出,帮助你设计出更专业、美观的表格。
76 2
|
1月前
|
Java API Apache
|
2月前
|
JavaScript 前端开发 数据处理
Vue导出el-table表格为Excel文件的两种方式
Vue导出el-table表格为Excel文件的两种方式
110 6
|
2月前
|
前端开发 JavaScript API
前端基于XLSX实现数据导出到Excel表格,以及提示“文件已经被损坏,无法打开”的解决方法
前端基于XLSX实现数据导出到Excel表格,以及提示“文件已经被损坏,无法打开”的解决方法
210 0
|
1月前
|
JSON 移动开发 JavaScript
在浏览器执行js脚本的两种方式
【10月更文挑战第20天】本文介绍了在浏览器中执行HTTP请求的两种方式:`fetch`和`XMLHttpRequest`。`fetch`支持GET和POST请求,返回Promise对象,可以方便地处理异步操作。`XMLHttpRequest`则通过回调函数处理请求结果,适用于需要兼容旧浏览器的场景。文中还提供了具体的代码示例。
在浏览器执行js脚本的两种方式
|
1月前
|
JavaScript 前端开发 数据处理
模板字符串和普通字符串在浏览器和 Node.js 中的性能表现是否一致?
综上所述,模板字符串和普通字符串在浏览器和 Node.js 中的性能表现既有相似之处,也有不同之处。在实际应用中,需要根据具体的场景和性能需求来选择使用哪种字符串处理方式,以达到最佳的性能和开发效率。