错误内容
直接使用以下代码获取内容
import requests # url = '你的url地址' url = 'http://www.piaofang.biz/' response = requests.get(url) print(response.text)
会出现中文是乱码的情况:
错误分析
在获取网页源代码时如果不指定页面所对应的编码格式就会出现中文是乱码的情况,这时需要找到页面所所对应的编码格式
居然:怎么找页面所对应的编码格式啊
hacker:我来教你一种最简单的方法
在你对应的页面鼠标右键点击查看源代码,在源代码中按Ctrl+F查找快捷键搜索charset即可看到页面所对应的编码格式(是gbk就设置为gbk,是utf-8就设置为utf-8
解决方案
改正后的代码如下:
import requests # url = '你的url地址' url = 'http://www.piaofang.biz/' response = requests.get(url) response.encoding = 'gbk' print(response.text)
扩展知识(非常好用)
我们需要人为的去判断页面的编码格式,其实,我们有一个更智能的方法可以解决该问题,就是直接通过代码去获取当前页面的编码即可,代码如下:
import requests # url = '你的url地址' url = 'http://www.piaofang.biz/' response = requests.get(url) # apparent_encoding是从网页的响应内容分析编码的方式(更加intelligence智能) response.encoding = response.apparent_encoding print(response.text)
结束语🏆🏆🏆
🔥推荐一款模拟面试、刷题神器网站
点击链接注册即可
1、算法篇(398题):面试必刷100题、算法入门、面试高频榜单
2、SQL篇(82题):快速入门、SQL必知必会、SQL进阶挑战、面试真题
3、大厂笔试真题:字节跳动、美团、百度、腾讯…