python爬虫基础知识

本文涉及的产品
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: python基础知识简单复习pycharm的简单配置settings->editor->file and code temlates#-*- codeing = utf-8 -*- 编码#@Time : ${DATE} ${TIME} 时间#@Author : chengcheng 作责#@File : ${NAME}.py 文件名#@Software : ${PROJECT_NAM...

python基础知识简单复习

pycharm的简单配置

settings->editor->file and code temlates

#-*- codeing = utf-8 -*-    编码
#@Time : ${DATE} ${TIME}    时间
#@Author : chengcheng        作责
#@File : ${NAME}.py            文件名
#@Software : ${PROJECT_NAME}     文件运行环境

修改设置后新建文件自动生成的注释

#-*- codeing = utf-8 -*-
#@Time : 2020/9/27 19:00
#@Author : chengcheng
#@File : day01test02.py
#@Software : python_test01
''''
多行注释
'''

python基础知识补充:

for循环可以对多种基本数据类型进行遍历。

name = "123"
lists = ["1", 2]
for x in name:            
    print(x, end="")

for strings in lists:        #也可以遍历列表等使用索引的数据存储结构
    print(strings)

while循环可以和else子句一起使用

while True:
    print(1)
else:
    print(2)

python支持可以使用索引的数据元素可以使用负数切片

#列表,元组,字符串

break 结束while,for循环,continue 结束本次循环,pass 占位符

r 与C#中的@功能一致

print(r"12\n23")

python字符串常用方法

方法 描述
string.capitalize() 把字符串的第一个字符大写
string.center(width) 返回一个原字符串居中,并使用空格填充至长度 width 的新字符串
string.count(str, beg=0, end=len(string)) 返回 str 在 string 里面出现的次数,如果 beg 或者 end 指定则返回指定范围内 str 出现的次数
[string.decode(encoding='UTF-8', errors='strict')] 以 encoding 指定的编码格式解码 string,如果出错默认报一个 ValueError 的 异 常 , 除非 errors 指 定 的 是 'ignore' 或 者'replace'
[string.encode(encoding='UTF-8', errors='strict')] 以 encoding 指定的编码格式编码 string,如果出错默认报一个ValueError 的异常,除非 errors 指定的是'ignore'或者'replace'
string.endswith(obj, beg=0, end=len(string)) 检查字符串是否以 obj 结束,如果beg 或者 end 指定则检查指定的范围内是否以 obj 结束,如果是,返回 True,否则返回 False.
string.expandtabs(tabsize=8) 把字符串 string 中的 tab 符号转为空格,tab 符号默认的空格数是 8。
string.find(str, beg=0, end=len(string)) 检测 str 是否包含在 string 中,如果 beg 和 end 指定范围,则检查是否包含在指定范围内,如果是返回开始的索引值,否则返回-1
string.format() 格式化字符串
[string.index(str, beg=0, end=len(string))] 跟find()方法一样,只不过如果str不在 string中会报一个异常.
string.isalnum() 如果 string 至少有一个字符并且所有字符都是字母或数字则返回 True,否则返回 False
string.isalpha() 如果 string 至少有一个字符并且所有字符都是字母则返回 True,否则返回 False
string.isdecimal() 如果 string 只包含十进制数字则返回 True 否则返回 False.
string.isdigit() 如果 string 只包含数字则返回 True 否则返回 False.
string.islower() 如果 string 中包含至少一个区分大小写的字符,并且所有这些(区分大小写的)字符都是小写,则返回 True,否则返回 False
string.isnumeric() 如果 string 中只包含数字字符,则返回 True,否则返回 False
string.isspace() 如果 string 中只包含空格,则返回 True,否则返回 False.
string.istitle() 如果 string 是标题化的(见 title())则返回 True,否则返回 False
string.isupper() 如果 string 中包含至少一个区分大小写的字符,并且所有这些(区分大小写的)字符都是大写,则返回 True,否则返回 False
[string.join(seq)] 以 string 作为分隔符,将 seq 中所有的元素(的字符串表示)合并为一个新的字符串
string.ljust(width) 返回一个原字符串左对齐,并使用空格填充至长度 width 的新字符串
string.lower() 转换 string 中所有大写字符为小写.
[string.lstrip()] 截掉 string 左边的空格或字符
string.maketrans(intab, outtab]) maketrans() 方法用于创建字符映射的转换表,对于接受两个参数的最简单的调用方式,第一个参数是字符串,表示需要转换的字符,第二个参数也是字符串表示转换的目标。
max(str) 返回字符串 str 中最大的字母。
min(str) 返回字符串 str 中最小的字母。
string.partition(str) 有点像 find()和 split()的结合体,从 str 出现的第一个位置起,把 字 符 串 string 分 成 一 个 3 元 素 的 元 组 (string_pre_str,str,string_post_str),如果 string 中不包含str 则 string_pre_str == string.
string.replace(str1, str2, num=string.count(str1)) 把 string 中的 str1 替换成 str2,如果 num 指定,则替换不超过 num 次.
string.rfind(str, beg=0,end=len(string) ) 类似于 find()函数,不过是从右边开始查找.
string.rindex( str, beg=0,end=len(string)) 类似于 index(),不过是从右边开始.
string.rjust(width) 返回一个原字符串右对齐,并使用空格填充至长度 width 的新字符串
string.rpartition(str) 类似于 partition()函数,不过是从右边开始查找
[string.rstrip()] 删除 string 字符串末尾的空格.
[string.split(str="", num=string.count(str))] 以 str 为分隔符切片 string,如果 num 有指定值,则仅分隔 num+ 个子字符串
[string.splitlines(keepends]) 按照行('\r', '\r\n', \n')分隔,返回一个包含各行作为元素的列表,如果参数 keepends 为 False,不包含换行符,如果为 True,则保留换行符。
string.startswith(obj, beg=0,end=len(string)) 检查字符串是否是以 obj 开头,是则返回 True,否则返回 False。如果beg 和 end 指定值,则在指定范围内检查.
[string.strip(obj]) 在 string 上执行 lstrip()和 rstrip()
string.swapcase() 翻转 string 中的大小写
string.title() 返回"标题化"的 string,就是说所有单词都是以大写开始,其余字母均为小写(见 istitle())
string.translate(str, del="") 根据 str 给出的表(包含 256 个字符)转换 string 的字符,要过滤掉的字符放到 del 参数中
string.upper() 转换 string 中的小写字母为大写
string.zfill(width) 返回长度为 width 的字符串,原字符串 string 右对齐,前面填充0

列表

lst = [1,2,3,4]

lst.append(12)        #末尾追加
lst.append(["1", 5])    #直接整个添加

lst.extend([2,3])    #扩展添加

for i in lst:
    print(i)
lst = [1,2,3,4,5,6,7,8,7]

lst.pop()        #默认弹出最后一个元素
lst.pop(1)        #弹出指定位置的元素

lsts = []
lsts = lst.remove(8)    #移除指定元素

del lst[1]            #删除指定位置的元素

for i in lst:
    print(i, end="")

for x in lsts:
    print(x, end="")
lst = [1,1,1,1]

lst[0] = 2            #修改指定位置的元素值
lst[1] = 3

for i in lst:
    print(i)
select_name = 5

lst = [1,2,3,4,5]

if select_name in lst:        #隐含着将列表进行一次遍历
    print("OK")
else:
    print("NO")
lst = [1,2,3,4,5]

print(lst.index(3, 1, 3))    #从1到3,查询3的位置

print(lst.index(3, 1, 2))    #如果查询不到,会报错,[1,3)左闭右开
lst = [1,2,3,4]

lst.reverse()        #将列表元素进行反转

print(lst)

lst.sort(reverse=True)    #列表进行排序,reverse=True反序

print(lst)

元组

#元组
#元组具有不可改变性
tup1 = ()   #创建空的元组

tup2 = (50,)            #对于元组而言,如果只有一个元素需要加上逗号以和括号表达式区别

print(type(tup2))       #包含了元素之后类型会发生变化
print(type(tup1))       #默认空元组则是元组类型

tup3 = ("a", 1 ,2, "b", "a")    #可以有重复元素

print(tup3)
#增
tup1 = (1,2,3)

tup2 = ("a", "b", "c")

tup = tup1 + tup2        #通过相连的方式将元组的元素进行连接,返回一个新的元组

print(tup)

字典

#字典
#键要求必须使用不能改变的数据类型,键要求是唯一,值可以是重复的

info = {
   "name":"qaq", "ages":12}    #字典的定义

print(info["name"])     #通过键来访问字典的值
print(info["ages"])
print(info["age"])      #直接访问不存在的键,会抛出错误

print(info.get("genter"))       #使用get方法,如果没有要查询的键,就返回none
print(info.get("genter"), "111")    #再访问一个不确定的键时,可以使用get方法
#增

info = {
   "name":"qaq", "age":18}
id = 233

info["id"] = id     #直接使用新的键,并且复制,完成字典的添加

print(info)
#删

info = {
   "name":1, "age":2}

del info["name"]                #删除一个键值对

del info                        #删除整个字典

info.clear()                    #清空字典的所有内容,字典依旧存在
#改

info = {
   "name":"qaq", "age":18}
id = 233

info["age"] = id     #直接通过键来访问,复赋值,修改

print(info)
#查

info = {
   "name":"qaq", "age":18}

print(info.keys())        #返回全部的键值

print(info.values())    #返回全部的值

print(info.items())        #返回全部的键值对

小结

列表[] 有序 可变类型
元组() 有序 不可变类型
字典{ } 无序 key不可重复,value可重复
集合{ } 无序 不可重复

文件

open

打开文件,有多种模式可供选择w写,r读

read

读取字符(可传参)

radline

读取一行数据

readlines

读取全部数据

异常

try:
    f = open("123.txt")

    print(1)                #如果之前有错误抛出,下面的语句不再执行
except (IOError, NameError) as message:
    print(message)          #except捕获异常,可以使用括号内括可能出现的异常,Exception包含所有的异常
    pass

python 的 异常捕获语法

try:
    f = open("123.txt")
    #可能出现异常的语句
except Exception as msg:
    print(msg)
    #出现异常后应该执行什么语句
else:
    print("ok")
    #如果没有出现异常,执行什么语句
finally:
    f.close()
    #不论有没有出现错误,都会执行的语句
目录
相关文章
|
1天前
|
数据采集 存储 数据挖掘
深入探索 Python 爬虫:高级技术与实战应用
本文介绍了Python爬虫的高级技术,涵盖并发处理、反爬虫策略(如验证码识别与模拟登录)及数据存储与处理方法。通过asyncio库实现异步爬虫,提升效率;利用tesseract和requests库应对反爬措施;借助SQLAlchemy和pandas进行数据存储与分析。实战部分展示了如何爬取电商网站的商品信息及新闻网站的文章内容。提醒读者在实际应用中需遵守法律法规。
102 66
|
1天前
|
数据采集 存储 JavaScript
构建你的第一个Python网络爬虫
【9月更文挑战第34天】在数字信息泛滥的时代,快速有效地获取和处理数据成为一项重要技能。本文将引导读者通过Python编写一个简易的网络爬虫,实现自动化地从网页上抓取数据。我们将一步步走过代码的编写过程,并探讨如何避免常见陷阱。无论你是编程新手还是想扩展你的技术工具箱,这篇文章都将为你提供有价值的指导。
30 18
|
5天前
|
数据采集 存储 XML
构建高效的Python爬虫系统
【9月更文挑战第30天】在数据驱动的时代,掌握如何快速高效地获取网络信息变得至关重要。本文将引导读者了解如何构建一个高效的Python爬虫系统,从基础概念出发,逐步深入到高级技巧和最佳实践。我们将探索如何使用Python的强大库如BeautifulSoup和Scrapy,以及如何应对反爬措施和提升爬取效率的策略。无论你是初学者还是有经验的开发者,这篇文章都将为你提供宝贵的知识和技能,帮助你在信息收集的海洋中航行得更远、更深。
19 6
|
4天前
|
数据采集 数据挖掘 数据处理
Python中实现简单爬虫并处理数据
【9月更文挑战第31天】本文将引导读者理解如何通过Python创建一个简单的网络爬虫,并展示如何处理爬取的数据。我们将讨论爬虫的基本原理、使用requests和BeautifulSoup库进行网页抓取的方法,以及如何使用pandas对数据进行清洗和分析。文章旨在为初学者提供一个易于理解的实践指南,帮助他们快速掌握网络数据抓取的基本技能。
15 3
|
8天前
|
数据采集 Python
天天基金数据的Python爬虫
天天基金数据的Python爬虫
24 3
|
7天前
|
数据采集 JSON 数据格式
Python:南京地铁每日客流数据的爬虫实现
Python:南京地铁每日客流数据的爬虫实现
20 1
|
8天前
|
数据采集 Python
Python:某市公交线路站点的爬虫实现
Python:某市公交线路站点的爬虫实现
|
8天前
|
数据采集 网络协议 调度
Python爬虫策略分析4
Python爬虫策略分析4
20 1
|
8天前
|
数据采集 前端开发 Python
Python爬虫策略分析3
Python爬虫策略分析3
11 1
|
5天前
|
数据采集 Linux 网络安全
python 爬虫遇到的aiohttp证书错误解决办法
python 爬虫遇到的aiohttp证书错误解决办法
20 0
下一篇
无影云桌面