python爬虫基础知识

2023-10-20 93

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

检索分析服务 Elasticsearch 版，2核4GB开发者规格 1个月

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

实时数仓Hologres，5000CU*H 100GB 3个月

简介： python基础知识简单复习pycharm的简单配置settings->editor->file and code temlates#-*- codeing = utf-8 -*- 编码#@Time : ${DATE} ${TIME} 时间#@Author : chengcheng 作责#@File : ${NAME}.py 文件名#@Software : ${PROJECT_NAM...

python基础知识简单复习

pycharm的简单配置

settings->editor->file and code temlates

#-*- codeing = utf-8 -*-    编码
#@Time : ${DATE} ${TIME}    时间
#@Author : chengcheng        作责
#@File : ${NAME}.py            文件名
#@Software : ${PROJECT_NAME}     文件运行环境

修改设置后新建文件自动生成的注释

#-*- codeing = utf-8 -*-
#@Time : 2020/9/27 19:00
#@Author : chengcheng
#@File : day01test02.py
#@Software : python_test01
''''
多行注释
'''

python基础知识补充：

for循环可以对多种基本数据类型进行遍历。

name = "123"
lists = ["1", 2]
for x in name:            
    print(x, end="")

for strings in lists:        #也可以遍历列表等使用索引的数据存储结构
    print(strings)

while循环可以和else子句一起使用

while True:
    print(1)
else:
    print(2)

python支持可以使用索引的数据元素可以使用负数切片

#列表，元组，字符串

break 结束while，for循环，continue 结束本次循环，pass 占位符

r 与C#中的@功能一致

print(r"12\n23")

python字符串常用方法

方法	描述
string.capitalize()	把字符串的第一个字符大写
string.center(width)	返回一个原字符串居中,并使用空格填充至长度 width 的新字符串
string.count(str, beg=0, end=len(string))	返回 str 在 string 里面出现的次数，如果 beg 或者 end 指定则返回指定范围内 str 出现的次数
[string.decode(encoding='UTF-8', errors='strict')]	以 encoding 指定的编码格式解码 string，如果出错默认报一个 ValueError 的异常，除非 errors 指定的是 'ignore' 或者'replace'
[string.encode(encoding='UTF-8', errors='strict')]	以 encoding 指定的编码格式编码 string，如果出错默认报一个ValueError 的异常，除非 errors 指定的是'ignore'或者'replace'
string.endswith(obj, beg=0, end=len(string))	检查字符串是否以 obj 结束，如果beg 或者 end 指定则检查指定的范围内是否以 obj 结束，如果是，返回 True,否则返回 False.
string.expandtabs(tabsize=8)	把字符串 string 中的 tab 符号转为空格，tab 符号默认的空格数是 8。
string.find(str, beg=0, end=len(string))	检测 str 是否包含在 string 中，如果 beg 和 end 指定范围，则检查是否包含在指定范围内，如果是返回开始的索引值，否则返回-1
string.format()	格式化字符串
[string.index(str, beg=0, end=len(string))]	跟find()方法一样，只不过如果str不在 string中会报一个异常.
string.isalnum()	如果 string 至少有一个字符并且所有字符都是字母或数字则返回 True,否则返回 False
string.isalpha()	如果 string 至少有一个字符并且所有字符都是字母则返回 True,否则返回 False
string.isdecimal()	如果 string 只包含十进制数字则返回 True 否则返回 False.
string.isdigit()	如果 string 只包含数字则返回 True 否则返回 False.
string.islower()	如果 string 中包含至少一个区分大小写的字符，并且所有这些(区分大小写的)字符都是小写，则返回 True，否则返回 False
string.isnumeric()	如果 string 中只包含数字字符，则返回 True，否则返回 False
string.isspace()	如果 string 中只包含空格，则返回 True，否则返回 False.
string.istitle()	如果 string 是标题化的(见 title())则返回 True，否则返回 False
string.isupper()	如果 string 中包含至少一个区分大小写的字符，并且所有这些(区分大小写的)字符都是大写，则返回 True，否则返回 False
[string.join(seq)]	以 string 作为分隔符，将 seq 中所有的元素(的字符串表示)合并为一个新的字符串
string.ljust(width)	返回一个原字符串左对齐,并使用空格填充至长度 width 的新字符串
string.lower()	转换 string 中所有大写字符为小写.
[string.lstrip()]	截掉 string 左边的空格或字符
string.maketrans(intab, outtab])	maketrans() 方法用于创建字符映射的转换表，对于接受两个参数的最简单的调用方式，第一个参数是字符串，表示需要转换的字符，第二个参数也是字符串表示转换的目标。
max(str)	返回字符串 str 中最大的字母。
min(str)	返回字符串 str 中最小的字母。
string.partition(str)	有点像 find()和 split()的结合体,从 str 出现的第一个位置起,把字符串 string 分成一个 3 元素的元组 (string_pre_str,str,string_post_str),如果 string 中不包含str 则 string_pre_str == string.
string.replace(str1, str2, num=string.count(str1))	把 string 中的 str1 替换成 str2,如果 num 指定，则替换不超过 num 次.
string.rfind(str, beg=0,end=len(string) )	类似于 find()函数，不过是从右边开始查找.
string.rindex( str, beg=0,end=len(string))	类似于 index()，不过是从右边开始.
string.rjust(width)	返回一个原字符串右对齐,并使用空格填充至长度 width 的新字符串
string.rpartition(str)	类似于 partition()函数,不过是从右边开始查找
[string.rstrip()]	删除 string 字符串末尾的空格.
[string.split(str="", num=string.count(str))]	以 str 为分隔符切片 string，如果 num 有指定值，则仅分隔 num+ 个子字符串
[string.splitlines(keepends])	按照行('\r', '\r\n', \n')分隔，返回一个包含各行作为元素的列表，如果参数 keepends 为 False，不包含换行符，如果为 True，则保留换行符。
string.startswith(obj, beg=0,end=len(string))	检查字符串是否是以 obj 开头，是则返回 True，否则返回 False。如果beg 和 end 指定值，则在指定范围内检查.
[string.strip(obj])	在 string 上执行 lstrip()和 rstrip()
string.swapcase()	翻转 string 中的大小写
string.title()	返回"标题化"的 string,就是说所有单词都是以大写开始，其余字母均为小写(见 istitle())
string.translate(str, del="")	根据 str 给出的表(包含 256 个字符)转换 string 的字符,要过滤掉的字符放到 del 参数中
string.upper()	转换 string 中的小写字母为大写
string.zfill(width)	返回长度为 width 的字符串，原字符串 string 右对齐，前面填充0

列表

lst = [1,2,3,4]

lst.append(12)        #末尾追加
lst.append(["1", 5])    #直接整个添加

lst.extend([2,3])    #扩展添加

for i in lst:
    print(i)

lst = [1,2,3,4,5,6,7,8,7]

lst.pop()        #默认弹出最后一个元素
lst.pop(1)        #弹出指定位置的元素

lsts = []
lsts = lst.remove(8)    #移除指定元素

del lst[1]            #删除指定位置的元素

for i in lst:
    print(i, end="")

for x in lsts:
    print(x, end="")

lst = [1,1,1,1]

lst[0] = 2            #修改指定位置的元素值
lst[1] = 3

for i in lst:
    print(i)

select_name = 5

lst = [1,2,3,4,5]

if select_name in lst:        #隐含着将列表进行一次遍历
    print("OK")
else:
    print("NO")

lst = [1,2,3,4,5]

print(lst.index(3, 1, 3))    #从1到3，查询3的位置

print(lst.index(3, 1, 2))    #如果查询不到，会报错,[1,3)左闭右开

lst = [1,2,3,4]

lst.reverse()        #将列表元素进行反转

print(lst)

lst.sort(reverse=True)    #列表进行排序，reverse=True反序

print(lst)

元组

#元组
#元组具有不可改变性
tup1 = ()   #创建空的元组

tup2 = (50,)            #对于元组而言，如果只有一个元素需要加上逗号以和括号表达式区别

print(type(tup2))       #包含了元素之后类型会发生变化
print(type(tup1))       #默认空元组则是元组类型

tup3 = ("a", 1 ,2, "b", "a")    #可以有重复元素

print(tup3)

#增
tup1 = (1,2,3)

tup2 = ("a", "b", "c")

tup = tup1 + tup2        #通过相连的方式将元组的元素进行连接，返回一个新的元组

print(tup)

字典

#字典
#键要求必须使用不能改变的数据类型，键要求是唯一，值可以是重复的

info = {
   "name":"qaq", "ages":12}    #字典的定义

print(info["name"])     #通过键来访问字典的值
print(info["ages"])
print(info["age"])      #直接访问不存在的键，会抛出错误

print(info.get("genter"))       #使用get方法，如果没有要查询的键，就返回none
print(info.get("genter"), "111")    #再访问一个不确定的键时，可以使用get方法

#增

info = {
   "name":"qaq", "age":18}
id = 233

info["id"] = id     #直接使用新的键，并且复制，完成字典的添加

print(info)

#删

info = {
   "name":1, "age":2}

del info["name"]                #删除一个键值对

del info                        #删除整个字典

info.clear()                    #清空字典的所有内容，字典依旧存在

#改

info = {
   "name":"qaq", "age":18}
id = 233

info["age"] = id     #直接通过键来访问，复赋值，修改

print(info)

#查

info = {
   "name":"qaq", "age":18}

print(info.keys())        #返回全部的键值

print(info.values())    #返回全部的值

print(info.items())        #返回全部的键值对

小结

列表[]	有序	可变类型
元组（）	有序	不可变类型
字典{ }	无序	key不可重复，value可重复
集合{ }	无序	不可重复

文件

open

打开文件，有多种模式可供选择w写，r读

read

读取字符（可传参）

radline

读取一行数据

readlines

读取全部数据

异常

try:
    f = open("123.txt")

    print(1)                #如果之前有错误抛出，下面的语句不再执行
except (IOError, NameError) as message:
    print(message)          #except捕获异常，可以使用括号内括可能出现的异常，Exception包含所有的异常
    pass

python 的异常捕获语法

try:
    f = open("123.txt")
    #可能出现异常的语句
except Exception as msg:
    print(msg)
    #出现异常后应该执行什么语句
else:
    print("ok")
    #如果没有出现异常，执行什么语句
finally:
    f.close()
    #不论有没有出现错误，都会执行的语句

python爬虫基础知识

python基础知识简单复习

列表

元组

字典

小结

文件

异常

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像