BeautifulSoup中解决乱码问题

简介: 由于初步学习Python爬取网页文本内容,在存储文本时出现乱码问题 我的代码如下: import urllib from bs4 import BeautifulSoup import sys reload(sys) sys.

由于初步学习Python爬取网页文本内容,在存储文本时出现乱码问题

我的代码如下:

import urllib

from bs4 import BeautifulSoup

import sys

reload(sys)

sys.setdefaultencoding('utf-8')


fp = file("test.txt","wb+")

page=urllib.urlopen('http://tech.qq.com/a/20150518/031741.htm').read()

soup = BeautifulSoup(page)

div = soup.find_all('div',id="Cnt-Main-Article-QQ")

pp = div[0].find_all('p')

for p in pp:

fp.write(p.get_text())


print "Write Over!!!"

fp.flush()

fp.close()


但打开文本时内容为乱码,上网搜索了好多资料,找到一篇文章,非常简洁的而又完美的解决乱码问题

方法如下:

soup = BeautifulSoup(page)改成soup=BeautifulSoup(page,from_encoding"gb18030")


当你再次打开文本时会惊奇的发现不会乱码了

相关文章
|
7月前
|
XML 数据格式
Beautiful Soup 库提供了许多常用的方法
【5月更文挑战第10天】Beautiful Soup库用于HTML/XML文档解析和操作,提供初始化、查找、提取信息及修改文档的方法。如:find()和find_all()查找元素,.string或.get_text()获取文本,.attrs获取属性,.append()、.insert()、.remove()、.replace_with()、.unwrap()和.wrap()修改文档结构。还有.prettify()格式化输出,.encode()和.decode()处理编码。这些功能组合使用可灵活处理文档信息。
40 1
WK
|
3月前
|
XML 移动开发 数据格式
Beautiful Soup支持哪些解析器
Beautiful Soup是一款强大的库,用于解析HTML和XML文档。它支持多种解析器,包括Python标准库中的`html.parser`、lxml的HTML和XML解析器以及html5lib。`html.parser`无需额外安装,但速度较慢;lxml则基于C语言,速度快且支持XPath;html5lib则完全支持HTML5标准,容错性好但速度较慢。用户可通过`features`参数指定解析器,选择最适合需求的解析器可提升效率与准确性。
WK
238 2
WK
|
3月前
|
XML 数据采集 数据挖掘
什么是Beautiful Soup?有哪些特点?
Beautiful Soup,常被称为“美丽汤”,是用于解析HTML和XML文档的Python库,能自动修复不规范的标签,便于遍历、搜索及修改文档结构,适用于网页爬虫和数据采集。它提供直观的方法来处理文档,支持多种解析器,具备强大的搜索功能,包括find()和find_all()等方法,并兼容CSS选择器,简化了数据提取过程。广泛应用于网页爬虫、数据挖掘及网页内容分析等领域。
WK
168 1
|
4月前
|
数据采集 XML 前端开发
BeautifulSoup
【8月更文挑战第18天】
52 1
|
4月前
|
前端开发 Python
Beautiful Soup
【8月更文挑战第4】
64 9
|
7月前
|
数据采集 开发者 Python
使用urllib和BeautifulSoup解析网页中的视频链接
使用urllib和BeautifulSoup解析网页中的视频链接
|
XML C语言 数据格式
七、使用BeautifulSoup4解析HTML实战(一)
七、使用BeautifulSoup4解析HTML实战(一)
|
XML 数据格式 Python
|
XML 数据采集 JavaScript
HTML解析之BeautifulSoup
HTML解析之BeautifulSoup
174 0
|
Python
Beautiful Soup库的介绍
本节中将介绍如何使用 Beautiful Soup 来解析 HTML 以获取我们想要的信息。
116 0