python爬虫基础知识

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: python基础知识简单复习pycharm的简单配置settings->editor->file and code temlates#-*- codeing = utf-8 -*- 编码#@Time : ${DATE} ${TIME} 时间#@Author : chengcheng 作责#@File : ${NAME}.py 文件名#@Software : ${PROJECT_NAM...

python基础知识简单复习

pycharm的简单配置

settings->editor->file and code temlates

#-*- codeing = utf-8 -*-    编码
#@Time : ${DATE} ${TIME}    时间
#@Author : chengcheng        作责
#@File : ${NAME}.py            文件名
#@Software : ${PROJECT_NAME}     文件运行环境

修改设置后新建文件自动生成的注释

#-*- codeing = utf-8 -*-
#@Time : 2020/9/27 19:00
#@Author : chengcheng
#@File : day01test02.py
#@Software : python_test01
''''
多行注释
'''

python基础知识补充:

for循环可以对多种基本数据类型进行遍历。

name = "123"
lists = ["1", 2]
for x in name:            
    print(x, end="")

for strings in lists:        #也可以遍历列表等使用索引的数据存储结构
    print(strings)

while循环可以和else子句一起使用

while True:
    print(1)
else:
    print(2)

python支持可以使用索引的数据元素可以使用负数切片

#列表,元组,字符串

break 结束while,for循环,continue 结束本次循环,pass 占位符

r 与C#中的@功能一致

print(r"12\n23")

python字符串常用方法

方法 描述
string.capitalize() 把字符串的第一个字符大写
string.center(width) 返回一个原字符串居中,并使用空格填充至长度 width 的新字符串
string.count(str, beg=0, end=len(string)) 返回 str 在 string 里面出现的次数,如果 beg 或者 end 指定则返回指定范围内 str 出现的次数
[string.decode(encoding='UTF-8', errors='strict')] 以 encoding 指定的编码格式解码 string,如果出错默认报一个 ValueError 的 异 常 , 除非 errors 指 定 的 是 'ignore' 或 者'replace'
[string.encode(encoding='UTF-8', errors='strict')] 以 encoding 指定的编码格式编码 string,如果出错默认报一个ValueError 的异常,除非 errors 指定的是'ignore'或者'replace'
string.endswith(obj, beg=0, end=len(string)) 检查字符串是否以 obj 结束,如果beg 或者 end 指定则检查指定的范围内是否以 obj 结束,如果是,返回 True,否则返回 False.
string.expandtabs(tabsize=8) 把字符串 string 中的 tab 符号转为空格,tab 符号默认的空格数是 8。
string.find(str, beg=0, end=len(string)) 检测 str 是否包含在 string 中,如果 beg 和 end 指定范围,则检查是否包含在指定范围内,如果是返回开始的索引值,否则返回-1
string.format() 格式化字符串
[string.index(str, beg=0, end=len(string))] 跟find()方法一样,只不过如果str不在 string中会报一个异常.
string.isalnum() 如果 string 至少有一个字符并且所有字符都是字母或数字则返回 True,否则返回 False
string.isalpha() 如果 string 至少有一个字符并且所有字符都是字母则返回 True,否则返回 False
string.isdecimal() 如果 string 只包含十进制数字则返回 True 否则返回 False.
string.isdigit() 如果 string 只包含数字则返回 True 否则返回 False.
string.islower() 如果 string 中包含至少一个区分大小写的字符,并且所有这些(区分大小写的)字符都是小写,则返回 True,否则返回 False
string.isnumeric() 如果 string 中只包含数字字符,则返回 True,否则返回 False
string.isspace() 如果 string 中只包含空格,则返回 True,否则返回 False.
string.istitle() 如果 string 是标题化的(见 title())则返回 True,否则返回 False
string.isupper() 如果 string 中包含至少一个区分大小写的字符,并且所有这些(区分大小写的)字符都是大写,则返回 True,否则返回 False
[string.join(seq)] 以 string 作为分隔符,将 seq 中所有的元素(的字符串表示)合并为一个新的字符串
string.ljust(width) 返回一个原字符串左对齐,并使用空格填充至长度 width 的新字符串
string.lower() 转换 string 中所有大写字符为小写.
[string.lstrip()] 截掉 string 左边的空格或字符
string.maketrans(intab, outtab]) maketrans() 方法用于创建字符映射的转换表,对于接受两个参数的最简单的调用方式,第一个参数是字符串,表示需要转换的字符,第二个参数也是字符串表示转换的目标。
max(str) 返回字符串 str 中最大的字母。
min(str) 返回字符串 str 中最小的字母。
string.partition(str) 有点像 find()和 split()的结合体,从 str 出现的第一个位置起,把 字 符 串 string 分 成 一 个 3 元 素 的 元 组 (string_pre_str,str,string_post_str),如果 string 中不包含str 则 string_pre_str == string.
string.replace(str1, str2, num=string.count(str1)) 把 string 中的 str1 替换成 str2,如果 num 指定,则替换不超过 num 次.
string.rfind(str, beg=0,end=len(string) ) 类似于 find()函数,不过是从右边开始查找.
string.rindex( str, beg=0,end=len(string)) 类似于 index(),不过是从右边开始.
string.rjust(width) 返回一个原字符串右对齐,并使用空格填充至长度 width 的新字符串
string.rpartition(str) 类似于 partition()函数,不过是从右边开始查找
[string.rstrip()] 删除 string 字符串末尾的空格.
[string.split(str="", num=string.count(str))] 以 str 为分隔符切片 string,如果 num 有指定值,则仅分隔 num+ 个子字符串
[string.splitlines(keepends]) 按照行('\r', '\r\n', \n')分隔,返回一个包含各行作为元素的列表,如果参数 keepends 为 False,不包含换行符,如果为 True,则保留换行符。
string.startswith(obj, beg=0,end=len(string)) 检查字符串是否是以 obj 开头,是则返回 True,否则返回 False。如果beg 和 end 指定值,则在指定范围内检查.
[string.strip(obj]) 在 string 上执行 lstrip()和 rstrip()
string.swapcase() 翻转 string 中的大小写
string.title() 返回"标题化"的 string,就是说所有单词都是以大写开始,其余字母均为小写(见 istitle())
string.translate(str, del="") 根据 str 给出的表(包含 256 个字符)转换 string 的字符,要过滤掉的字符放到 del 参数中
string.upper() 转换 string 中的小写字母为大写
string.zfill(width) 返回长度为 width 的字符串,原字符串 string 右对齐,前面填充0

列表

lst = [1,2,3,4]

lst.append(12)        #末尾追加
lst.append(["1", 5])    #直接整个添加

lst.extend([2,3])    #扩展添加

for i in lst:
    print(i)
lst = [1,2,3,4,5,6,7,8,7]

lst.pop()        #默认弹出最后一个元素
lst.pop(1)        #弹出指定位置的元素

lsts = []
lsts = lst.remove(8)    #移除指定元素

del lst[1]            #删除指定位置的元素

for i in lst:
    print(i, end="")

for x in lsts:
    print(x, end="")
lst = [1,1,1,1]

lst[0] = 2            #修改指定位置的元素值
lst[1] = 3

for i in lst:
    print(i)
select_name = 5

lst = [1,2,3,4,5]

if select_name in lst:        #隐含着将列表进行一次遍历
    print("OK")
else:
    print("NO")
lst = [1,2,3,4,5]

print(lst.index(3, 1, 3))    #从1到3,查询3的位置

print(lst.index(3, 1, 2))    #如果查询不到,会报错,[1,3)左闭右开
lst = [1,2,3,4]

lst.reverse()        #将列表元素进行反转

print(lst)

lst.sort(reverse=True)    #列表进行排序,reverse=True反序

print(lst)

元组

#元组
#元组具有不可改变性
tup1 = ()   #创建空的元组

tup2 = (50,)            #对于元组而言,如果只有一个元素需要加上逗号以和括号表达式区别

print(type(tup2))       #包含了元素之后类型会发生变化
print(type(tup1))       #默认空元组则是元组类型

tup3 = ("a", 1 ,2, "b", "a")    #可以有重复元素

print(tup3)
#增
tup1 = (1,2,3)

tup2 = ("a", "b", "c")

tup = tup1 + tup2        #通过相连的方式将元组的元素进行连接,返回一个新的元组

print(tup)

字典

#字典
#键要求必须使用不能改变的数据类型,键要求是唯一,值可以是重复的

info = {
   "name":"qaq", "ages":12}    #字典的定义

print(info["name"])     #通过键来访问字典的值
print(info["ages"])
print(info["age"])      #直接访问不存在的键,会抛出错误

print(info.get("genter"))       #使用get方法,如果没有要查询的键,就返回none
print(info.get("genter"), "111")    #再访问一个不确定的键时,可以使用get方法
#增

info = {
   "name":"qaq", "age":18}
id = 233

info["id"] = id     #直接使用新的键,并且复制,完成字典的添加

print(info)
#删

info = {
   "name":1, "age":2}

del info["name"]                #删除一个键值对

del info                        #删除整个字典

info.clear()                    #清空字典的所有内容,字典依旧存在
#改

info = {
   "name":"qaq", "age":18}
id = 233

info["age"] = id     #直接通过键来访问,复赋值,修改

print(info)
#查

info = {
   "name":"qaq", "age":18}

print(info.keys())        #返回全部的键值

print(info.values())    #返回全部的值

print(info.items())        #返回全部的键值对

小结

列表[] 有序 可变类型
元组() 有序 不可变类型
字典{ } 无序 key不可重复,value可重复
集合{ } 无序 不可重复

文件

open

打开文件,有多种模式可供选择w写,r读

read

读取字符(可传参)

radline

读取一行数据

readlines

读取全部数据

异常

try:
    f = open("123.txt")

    print(1)                #如果之前有错误抛出,下面的语句不再执行
except (IOError, NameError) as message:
    print(message)          #except捕获异常,可以使用括号内括可能出现的异常,Exception包含所有的异常
    pass

python 的 异常捕获语法

try:
    f = open("123.txt")
    #可能出现异常的语句
except Exception as msg:
    print(msg)
    #出现异常后应该执行什么语句
else:
    print("ok")
    #如果没有出现异常,执行什么语句
finally:
    f.close()
    #不论有没有出现错误,都会执行的语句
目录
相关文章
|
25天前
|
数据采集 存储 XML
Python爬虫:深入探索1688关键词接口获取之道
在数字化经济中,数据尤其在电商领域的价值日益凸显。1688作为中国领先的B2B平台,其关键词接口对商家至关重要。本文介绍如何通过Python爬虫技术,合法合规地获取1688关键词接口,助力商家洞察市场趋势,优化营销策略。
|
1天前
|
数据采集 Web App开发 监控
Python爬虫:爱奇艺榜单数据的实时监控
Python爬虫:爱奇艺榜单数据的实时监控
|
10天前
|
数据采集 JSON API
如何利用Python爬虫淘宝商品详情高级版(item_get_pro)API接口及返回值解析说明
本文介绍了如何利用Python爬虫技术调用淘宝商品详情高级版API接口(item_get_pro),获取商品的详细信息,包括标题、价格、销量等。文章涵盖了环境准备、API权限申请、请求构建和返回值解析等内容,强调了数据获取的合规性和安全性。
|
15天前
|
数据采集 存储 API
利用Python爬虫获取1688关键词接口全攻略
本文介绍如何使用Python爬虫技术合法合规地获取1688关键词接口数据,包括环境准备、注册1688开发者账号、获取Access Token、构建请求URL、发送API请求、解析HTML及数据处理存储等步骤,强调遵守法律法规和合理使用爬虫技术的重要性。
|
22天前
|
数据采集 JSON 开发者
Python爬虫京东商品详情数据接口
京东商品详情数据接口(JD.item_get)提供商品标题、价格、品牌、规格、图片等详细信息,适用于电商数据分析、竞品分析等。开发者需先注册账号、创建应用并申请接口权限,使用时需遵循相关规则,注意数据更新频率和错误处理。示例代码展示了如何通过 Python 调用此接口并处理返回的 JSON 数据。
|
27天前
|
XML 数据采集 数据格式
Python 爬虫必备杀器,xpath 解析 HTML
【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言,通过路径表达式选取节点或节点集。它不仅适用于 XML,也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择,如 `//p` 选择所有段落标签,`//a[@href='example.com']` 选择特定链接。在 Python 中,常用 lxml 库结合 XPath 进行网页数据抓取,支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用,如 `contains()` 用于模糊匹配。
|
29天前
|
数据采集 XML 存储
构建高效的Python网络爬虫:从入门到实践
本文旨在通过深入浅出的方式,引导读者从零开始构建一个高效的Python网络爬虫。我们将探索爬虫的基本原理、核心组件以及如何利用Python的强大库进行数据抓取和处理。文章不仅提供理论指导,还结合实战案例,让读者能够快速掌握爬虫技术,并应用于实际项目中。无论你是编程新手还是有一定基础的开发者,都能在这篇文章中找到有价值的内容。
|
28天前
|
数据采集 JavaScript 前端开发
Python爬虫能处理动态加载的内容吗?
Python爬虫可处理动态加载内容,主要方法包括:使用Selenium模拟浏览器行为;分析网络请求,直接请求API获取数据;利用Pyppeteer控制无头Chrome。这些方法各有优势,适用于不同场景。
|
1月前
|
数据采集 监控 搜索推荐
python爬虫的基本使用
本文介绍了Python爬虫的基本概念及其广泛应用,包括搜索引擎、数据挖掘、网络监控、舆情分析和信息聚合等领域。通过安装`urllib`和`BeautifulSoup`库,展示了如何编写简单代码实现网页数据的抓取与解析。爬虫技术在大数据时代的重要性日益凸显,为各行业提供了高效的数据获取手段。
41 1
|
1月前
|
数据采集 JavaScript 程序员
探索CSDN博客数据:使用Python爬虫技术
本文介绍了如何利用Python的requests和pyquery库爬取CSDN博客数据,包括环境准备、代码解析及注意事项,适合初学者学习。
83 0