python爬虫基础知识

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
大数据开发治理平台 DataWorks,不限时长
简介: python基础知识简单复习pycharm的简单配置settings->editor->file and code temlates#-*- codeing = utf-8 -*- 编码#@Time : ${DATE} ${TIME} 时间#@Author : chengcheng 作责#@File : ${NAME}.py 文件名#@Software : ${PROJECT_NAM...

python基础知识简单复习

pycharm的简单配置

settings->editor->file and code temlates

#-*- codeing = utf-8 -*-    编码
#@Time : ${DATE} ${TIME}    时间
#@Author : chengcheng        作责
#@File : ${NAME}.py            文件名
#@Software : ${PROJECT_NAME}     文件运行环境

修改设置后新建文件自动生成的注释

#-*- codeing = utf-8 -*-
#@Time : 2020/9/27 19:00
#@Author : chengcheng
#@File : day01test02.py
#@Software : python_test01
''''
多行注释
'''

python基础知识补充:

for循环可以对多种基本数据类型进行遍历。

name = "123"
lists = ["1", 2]
for x in name:            
    print(x, end="")

for strings in lists:        #也可以遍历列表等使用索引的数据存储结构
    print(strings)

while循环可以和else子句一起使用

while True:
    print(1)
else:
    print(2)

python支持可以使用索引的数据元素可以使用负数切片

#列表,元组,字符串

break 结束while,for循环,continue 结束本次循环,pass 占位符

r 与C#中的@功能一致

print(r"12\n23")

python字符串常用方法

方法 描述
string.capitalize() 把字符串的第一个字符大写
string.center(width) 返回一个原字符串居中,并使用空格填充至长度 width 的新字符串
string.count(str, beg=0, end=len(string)) 返回 str 在 string 里面出现的次数,如果 beg 或者 end 指定则返回指定范围内 str 出现的次数
[string.decode(encoding='UTF-8', errors='strict')] 以 encoding 指定的编码格式解码 string,如果出错默认报一个 ValueError 的 异 常 , 除非 errors 指 定 的 是 'ignore' 或 者'replace'
[string.encode(encoding='UTF-8', errors='strict')] 以 encoding 指定的编码格式编码 string,如果出错默认报一个ValueError 的异常,除非 errors 指定的是'ignore'或者'replace'
string.endswith(obj, beg=0, end=len(string)) 检查字符串是否以 obj 结束,如果beg 或者 end 指定则检查指定的范围内是否以 obj 结束,如果是,返回 True,否则返回 False.
string.expandtabs(tabsize=8) 把字符串 string 中的 tab 符号转为空格,tab 符号默认的空格数是 8。
string.find(str, beg=0, end=len(string)) 检测 str 是否包含在 string 中,如果 beg 和 end 指定范围,则检查是否包含在指定范围内,如果是返回开始的索引值,否则返回-1
string.format() 格式化字符串
[string.index(str, beg=0, end=len(string))] 跟find()方法一样,只不过如果str不在 string中会报一个异常.
string.isalnum() 如果 string 至少有一个字符并且所有字符都是字母或数字则返回 True,否则返回 False
string.isalpha() 如果 string 至少有一个字符并且所有字符都是字母则返回 True,否则返回 False
string.isdecimal() 如果 string 只包含十进制数字则返回 True 否则返回 False.
string.isdigit() 如果 string 只包含数字则返回 True 否则返回 False.
string.islower() 如果 string 中包含至少一个区分大小写的字符,并且所有这些(区分大小写的)字符都是小写,则返回 True,否则返回 False
string.isnumeric() 如果 string 中只包含数字字符,则返回 True,否则返回 False
string.isspace() 如果 string 中只包含空格,则返回 True,否则返回 False.
string.istitle() 如果 string 是标题化的(见 title())则返回 True,否则返回 False
string.isupper() 如果 string 中包含至少一个区分大小写的字符,并且所有这些(区分大小写的)字符都是大写,则返回 True,否则返回 False
[string.join(seq)] 以 string 作为分隔符,将 seq 中所有的元素(的字符串表示)合并为一个新的字符串
string.ljust(width) 返回一个原字符串左对齐,并使用空格填充至长度 width 的新字符串
string.lower() 转换 string 中所有大写字符为小写.
[string.lstrip()] 截掉 string 左边的空格或字符
string.maketrans(intab, outtab]) maketrans() 方法用于创建字符映射的转换表,对于接受两个参数的最简单的调用方式,第一个参数是字符串,表示需要转换的字符,第二个参数也是字符串表示转换的目标。
max(str) 返回字符串 str 中最大的字母。
min(str) 返回字符串 str 中最小的字母。
string.partition(str) 有点像 find()和 split()的结合体,从 str 出现的第一个位置起,把 字 符 串 string 分 成 一 个 3 元 素 的 元 组 (string_pre_str,str,string_post_str),如果 string 中不包含str 则 string_pre_str == string.
string.replace(str1, str2, num=string.count(str1)) 把 string 中的 str1 替换成 str2,如果 num 指定,则替换不超过 num 次.
string.rfind(str, beg=0,end=len(string) ) 类似于 find()函数,不过是从右边开始查找.
string.rindex( str, beg=0,end=len(string)) 类似于 index(),不过是从右边开始.
string.rjust(width) 返回一个原字符串右对齐,并使用空格填充至长度 width 的新字符串
string.rpartition(str) 类似于 partition()函数,不过是从右边开始查找
[string.rstrip()] 删除 string 字符串末尾的空格.
[string.split(str="", num=string.count(str))] 以 str 为分隔符切片 string,如果 num 有指定值,则仅分隔 num+ 个子字符串
[string.splitlines(keepends]) 按照行('\r', '\r\n', \n')分隔,返回一个包含各行作为元素的列表,如果参数 keepends 为 False,不包含换行符,如果为 True,则保留换行符。
string.startswith(obj, beg=0,end=len(string)) 检查字符串是否是以 obj 开头,是则返回 True,否则返回 False。如果beg 和 end 指定值,则在指定范围内检查.
[string.strip(obj]) 在 string 上执行 lstrip()和 rstrip()
string.swapcase() 翻转 string 中的大小写
string.title() 返回"标题化"的 string,就是说所有单词都是以大写开始,其余字母均为小写(见 istitle())
string.translate(str, del="") 根据 str 给出的表(包含 256 个字符)转换 string 的字符,要过滤掉的字符放到 del 参数中
string.upper() 转换 string 中的小写字母为大写
string.zfill(width) 返回长度为 width 的字符串,原字符串 string 右对齐,前面填充0

列表

lst = [1,2,3,4]

lst.append(12)        #末尾追加
lst.append(["1", 5])    #直接整个添加

lst.extend([2,3])    #扩展添加

for i in lst:
    print(i)
lst = [1,2,3,4,5,6,7,8,7]

lst.pop()        #默认弹出最后一个元素
lst.pop(1)        #弹出指定位置的元素

lsts = []
lsts = lst.remove(8)    #移除指定元素

del lst[1]            #删除指定位置的元素

for i in lst:
    print(i, end="")

for x in lsts:
    print(x, end="")
lst = [1,1,1,1]

lst[0] = 2            #修改指定位置的元素值
lst[1] = 3

for i in lst:
    print(i)
select_name = 5

lst = [1,2,3,4,5]

if select_name in lst:        #隐含着将列表进行一次遍历
    print("OK")
else:
    print("NO")
lst = [1,2,3,4,5]

print(lst.index(3, 1, 3))    #从1到3,查询3的位置

print(lst.index(3, 1, 2))    #如果查询不到,会报错,[1,3)左闭右开
lst = [1,2,3,4]

lst.reverse()        #将列表元素进行反转

print(lst)

lst.sort(reverse=True)    #列表进行排序,reverse=True反序

print(lst)

元组

#元组
#元组具有不可改变性
tup1 = ()   #创建空的元组

tup2 = (50,)            #对于元组而言,如果只有一个元素需要加上逗号以和括号表达式区别

print(type(tup2))       #包含了元素之后类型会发生变化
print(type(tup1))       #默认空元组则是元组类型

tup3 = ("a", 1 ,2, "b", "a")    #可以有重复元素

print(tup3)
#增
tup1 = (1,2,3)

tup2 = ("a", "b", "c")

tup = tup1 + tup2        #通过相连的方式将元组的元素进行连接,返回一个新的元组

print(tup)

字典

#字典
#键要求必须使用不能改变的数据类型,键要求是唯一,值可以是重复的

info = {
   "name":"qaq", "ages":12}    #字典的定义

print(info["name"])     #通过键来访问字典的值
print(info["ages"])
print(info["age"])      #直接访问不存在的键,会抛出错误

print(info.get("genter"))       #使用get方法,如果没有要查询的键,就返回none
print(info.get("genter"), "111")    #再访问一个不确定的键时,可以使用get方法
#增

info = {
   "name":"qaq", "age":18}
id = 233

info["id"] = id     #直接使用新的键,并且复制,完成字典的添加

print(info)
#删

info = {
   "name":1, "age":2}

del info["name"]                #删除一个键值对

del info                        #删除整个字典

info.clear()                    #清空字典的所有内容,字典依旧存在
#改

info = {
   "name":"qaq", "age":18}
id = 233

info["age"] = id     #直接通过键来访问,复赋值,修改

print(info)
#查

info = {
   "name":"qaq", "age":18}

print(info.keys())        #返回全部的键值

print(info.values())    #返回全部的值

print(info.items())        #返回全部的键值对

小结

列表[] 有序 可变类型
元组() 有序 不可变类型
字典{ } 无序 key不可重复,value可重复
集合{ } 无序 不可重复

文件

open

打开文件,有多种模式可供选择w写,r读

read

读取字符(可传参)

radline

读取一行数据

readlines

读取全部数据

异常

try:
    f = open("123.txt")

    print(1)                #如果之前有错误抛出,下面的语句不再执行
except (IOError, NameError) as message:
    print(message)          #except捕获异常,可以使用括号内括可能出现的异常,Exception包含所有的异常
    pass

python 的 异常捕获语法

try:
    f = open("123.txt")
    #可能出现异常的语句
except Exception as msg:
    print(msg)
    #出现异常后应该执行什么语句
else:
    print("ok")
    #如果没有出现异常,执行什么语句
finally:
    f.close()
    #不论有没有出现错误,都会执行的语句
目录
相关文章
|
6天前
|
数据采集 XML 数据处理
使用Python实现简单的Web爬虫
本文将介绍如何使用Python编写一个简单的Web爬虫,用于抓取网页内容并进行简单的数据处理。通过学习本文,读者将了解Web爬虫的基本原理和Python爬虫库的使用方法。
|
12天前
|
消息中间件 分布式计算 监控
Python面试:消息队列(RabbitMQ、Kafka)基础知识与应用
【4月更文挑战第18天】本文探讨了Python面试中RabbitMQ与Kafka的常见问题和易错点,包括两者的基础概念、特性对比、Python客户端使用、消息队列应用场景及消息可靠性保证。重点讲解了消息丢失与重复的避免策略,并提供了实战代码示例,帮助读者提升在分布式系统中使用消息队列的能力。
32 2
|
4天前
|
数据采集 Web App开发 数据可视化
Python爬虫技术与数据可视化:Numpy、pandas、Matplotlib的黄金组合
Python爬虫技术与数据可视化:Numpy、pandas、Matplotlib的黄金组合
|
5天前
|
数据采集 存储 大数据
Python爬虫:数据获取与解析的艺术
本文介绍了Python爬虫在大数据时代的作用,重点讲解了Python爬虫基础、常用库及实战案例。Python因其简洁语法和丰富库支持成为爬虫开发的优选语言。文中提到了requests(发送HTTP请求)、BeautifulSoup(解析HTML)、Scrapy(爬虫框架)、Selenium(处理动态网页)和pandas(数据处理分析)等关键库。实战案例展示了如何爬取电商网站的商品信息,包括确定目标、发送请求、解析内容、存储数据、遍历多页及数据处理。最后,文章强调了遵守网站规则和尊重隐私的重要性。
16 2
|
9天前
|
数据采集 定位技术 Python
Python爬虫IP代理技巧,让你不再为IP封禁烦恼了! 
本文介绍了Python爬虫应对IP封禁的策略,包括使用代理IP隐藏真实IP、选择稳定且数量充足的代理IP服务商、建立代理IP池增加爬虫效率、设置合理抓取频率以及运用验证码识别技术。这些方法能提升爬虫的稳定性和效率,降低被封禁风险。
|
9天前
|
运维 分布式计算 Java
第一章 Python基础知识
第一章 Python基础知识
|
11天前
|
数据采集 存储 JSON
Python爬虫面试:requests、BeautifulSoup与Scrapy详解
【4月更文挑战第19天】本文聚焦于Python爬虫面试中的核心库——requests、BeautifulSoup和Scrapy。讲解了它们的常见问题、易错点及应对策略。对于requests,强调了异常处理、代理设置和请求重试;BeautifulSoup部分提到选择器使用、动态内容处理和解析效率优化;而Scrapy则关注项目架构、数据存储和分布式爬虫。通过实例代码,帮助读者深化理解并提升面试表现。
16 0
|
14天前
|
数据采集 Web App开发 开发者
探秘Python爬虫技术:王者荣耀英雄图片爬取
探秘Python爬虫技术:王者荣耀英雄图片爬取
|
自然语言处理 算法 Python
Python——jieba优秀的中文分词库(基础知识+实例)下
Python——jieba优秀的中文分词库(基础知识+实例)下
162 0
Python——jieba优秀的中文分词库(基础知识+实例)下
|
自然语言处理 搜索推荐 算法
Python——jieba优秀的中文分词库(基础知识+实例)上
Python——jieba优秀的中文分词库(基础知识+实例)上
305 0
Python——jieba优秀的中文分词库(基础知识+实例)上