【从零开始的python生活①】手撕爬虫扒一扒力扣的用户刷题数据(1)

简介: 【从零开始的python生活①】手撕爬虫扒一扒力扣的用户刷题数据(1)

☘前言☘

读完这篇博客,你可以学到什么?


python的基础语法(适合c转python)

excel的读取和写入方式

基本的爬虫定位方法

python的安装(这个很容易的)

基本的环境配置(这个基本上不用配置)

   9a86513f24ed77047ff3b9bc92c8d6d.png


这篇博客里,我将带领大家手撕第一个python的爬虫小程序,不用担心,都是从基础知识开始的。当你学完这篇博客就可以解放双手让python干费时费力的事情去吧!

全文大约阅读时间: 20min


🧑🏻作者简介:一个从工业设计改行学嵌入式的年轻人

✨联系方式:2201891280(QQ)


主要内容

☘前言☘

一、必备的一些基础知识

       1. 创建变量

       2. 循环

       3. 判断

二、必备的一些库文件

       time

       pandas

       openpyxl

       selenium

三、网站元素定位

      确定元素

      网络延迟

五、最终成果

六、写在最后

一、必备的一些基础知识

python作为一个弱类型的语言,很多方面和c会有大的出入,在学习之前需要对这些基础语法有个基础了解。首先是python没有;哦,一个回车就代表一句结束


1. 创建变量

num = 10  #创建一个变量
ws = wb['Sheet1'] ##根据wb中的'Sheet'元素类型创建变量


是不是很简单?需要什么直接写名字赋值就好了0.0


2. 循环

for lie in df.index.values:
    driver.get(lie)
    submitTag = driver.find_elements_by_xpath('//*[text()="解决问题"]/../b')
wb.save(r'111.xlsx')#循环外的语句


这个和c有亿点点区别,python特别注意缩进,还是有助于改进一些人的代码习惯的,缩进打得好能大大提升代码的可读性。

这里就是遍历df.index.values中所有的元素,然后进行操作,只要是有一个缩进的都是for循环体内的语句!

只有最后一句不在循环体内。


3. 判断

if(len(submitTag) != 0):
    break
else 
  continue


看完循环的话这个很好理解吧,一样的,都是相同缩进是一个循环或者判断体内的。


二、必备的一些库文件

python最伟大的地方就是有很多第三方库可以选择,有很多造好的轮子。我们只要使用就好了-.-

根据我们这次需要做的事情 我们引入了四个库文件

其中需要安装库文件的话可以在命令提示行下面的命令。其中xxx就是下面的标题名字


pip intsall xxx #一般这个就行
pip3 intsall xxx #不行试试这个

time

这个库顾名思义就是和时间相关的。我们需要的只是做个延时,所以我们只需要他的一点点功能。先导入功能


from time import sleep


这就是最常见的导入方式 ,我们只需要sleep就只导入功能就好了。

用法也很简单


sleep(3)

完事了?简单不。功能就是休息3s


pandas

Pandas 的主要数据结构是 Series (一维数据)与 DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。

华丽呼哨的 咱也看不懂,反正我就用来打开excel的某一列。

老规矩,先导入


import pandas as pd


这次换个方式,我们把它导入,然后给他换个名字。(⊙o⊙)

用法也不难其实 . 有点借鉴c++,就是调用相应的方法。


df = pd.read_excel('111.xlsx',index_col='LeetCode地址')


这样我们就成功把名字叫做LeetCode地址的一列读进来了。


openpyxl

其实这个才是专门处理excel的,但是读入我用了pandas也不想改了。这个我用来保存读到的数据。


import openpyxl


这次我们不改名直接调用

用法也不难,我主要用下面的几个


wb=openpyxl.load_workbook(r'111.xlsx')#载入exlce数据
ws = wb['Sheet1'] #令ws为数据表1
ws.cell(row = i+1, column = num).value = distance#写入第i+1行第num行的值distance
wb.save(r'111.xlsx') #保存wb的更改


这样我们就完成修改对应的值并保存了。


selenium

这个是用来抓数据的 其实主要用来测试的,但是这次我们拿来用用


from selenium import webdriver


导入其中的webdriver方法 我们用到的主要是里面的方法


driver = webdriver.Chrome()#打开chrome浏览器
driver.get(lie)#打开对应的网址
submitTag = driver.find_elements_by_xpath('//*[text()="解决问题"]/../b')

上面的三句话分别对应我们打开浏览器,输入网址 找到数据。

注:这个需要安装selenium和chrome 具体可以参考这个Selenium安装教程

相关文章
|
2月前
|
数据采集 API 数据处理
Objective-C 音频爬虫:实时接收数据的 didReceiveData: 方法
Objective-C 音频爬虫:实时接收数据的 didReceiveData: 方法
|
2月前
|
数据采集 JSON 数据处理
抓取和分析JSON数据:使用Python构建数据处理管道
在大数据时代,电商网站如亚马逊、京东等成为数据采集的重要来源。本文介绍如何使用Python结合代理IP、多线程等技术,高效、隐秘地抓取并处理电商网站的JSON数据。通过爬虫代理服务,模拟真实用户行为,提升抓取效率和稳定性。示例代码展示了如何抓取亚马逊商品信息并进行解析。
抓取和分析JSON数据:使用Python构建数据处理管道
|
25天前
|
图形学 Python
SciPy 空间数据2
凸包(Convex Hull)是计算几何中的概念,指包含给定点集的所有凸集的交集。可以通过 `ConvexHull()` 方法创建凸包。示例代码展示了如何使用 `scipy` 库和 `matplotlib` 绘制给定点集的凸包。
27 1
|
26天前
|
JSON 数据格式 索引
Python中序列化/反序列化JSON格式的数据
【11月更文挑战第4天】本文介绍了 Python 中使用 `json` 模块进行序列化和反序列化的操作。序列化是指将 Python 对象(如字典、列表)转换为 JSON 字符串,主要使用 `json.dumps` 方法。示例包括基本的字典和列表序列化,以及自定义类的序列化。反序列化则是将 JSON 字符串转换回 Python 对象,使用 `json.loads` 方法。文中还提供了具体的代码示例,展示了如何处理不同类型的 Python 对象。
|
27天前
|
数据采集 Web App开发 iOS开发
如何使用 Python 语言的正则表达式进行网页数据的爬取?
使用 Python 进行网页数据爬取的步骤包括:1. 安装必要库(requests、re、bs4);2. 发送 HTTP 请求获取网页内容;3. 使用正则表达式提取数据;4. 数据清洗和处理;5. 循环遍历多个页面。通过这些步骤,可以高效地从网页中提取所需信息。
|
2月前
|
数据处理 Python
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
这篇文章介绍了如何使用Python读取Excel文件中的数据,处理后将其保存为txt、xlsx和csv格式的文件。
55 3
Python实用记录(十):获取excel数据并通过列表的形式保存为txt文档、xlsx文档、csv文档
|
2月前
|
计算机视觉 Python
Python实用记录(九):将不同的图绘制在一起、将不同txt文档中的数据绘制多条折线图
这篇文章介绍了如何使用Python的OpenCV库将多张图片合并为一张图片显示,以及如何使用matplotlib库从不同txt文档中读取数据并绘制多条折线图。
44 3
Python实用记录(九):将不同的图绘制在一起、将不同txt文档中的数据绘制多条折线图
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
280页PDF,全方位评估OpenAI o1,Leetcode刷题准确率竟这么高
【10月更文挑战第24天】近年来,OpenAI的o1模型在大型语言模型(LLMs)中脱颖而出,展现出卓越的推理能力和知识整合能力。基于Transformer架构,o1模型采用了链式思维和强化学习等先进技术,显著提升了其在编程竞赛、医学影像报告生成、数学问题解决、自然语言推理和芯片设计等领域的表现。本文将全面评估o1模型的性能及其对AI研究和应用的潜在影响。
29 1
|
2月前
|
数据可视化 算法 JavaScript
基于图论的时间序列数据平稳性与连通性分析:利用图形、数学和 Python 揭示时间序列数据中的隐藏模式
本文探讨了如何利用图论分析时间序列数据的平稳性和连通性。通过将时间序列数据转换为图结构,计算片段间的相似性,并构建连通图,可以揭示数据中的隐藏模式。文章介绍了平稳性的概念,提出了基于图的平稳性度量,并展示了图分区在可视化平稳性中的应用。此外,还模拟了不同平稳性和非平稳性程度的信号,分析了图度量的变化,为时间序列数据分析提供了新视角。
61 0
基于图论的时间序列数据平稳性与连通性分析:利用图形、数学和 Python 揭示时间序列数据中的隐藏模式
|
2月前
|
自然语言处理 算法 数据挖掘
探讨如何利用Python中的NLP工具,从被动收集到主动分析文本数据的过程
【10月更文挑战第11天】本文介绍了自然语言处理(NLP)在文本分析中的应用,从被动收集到主动分析的过程。通过Python代码示例,详细展示了文本预处理、特征提取、情感分析和主题建模等关键技术,帮助读者理解如何有效利用NLP工具进行文本数据分析。
52 2