BeautifulSoup学习笔记

简介:


from  BeautifulSoup import  BeautifulSoup
import  re
 
doc =  [ '<html><head><title>Page title</title></head>' ,
        '<body><p id="firstpara" align="center">This is paragraph <b>one</b>.' ,
        '<p id="secondpara" align="blah">This is paragraph <b>two</b>.' ,
        '</html>' ]
soup =  BeautifulSoup(''.join(doc))
print  soup.prettify()

 运行结果为:

 

print  soup.contents[ 0 ].name
#
print  soup.contents[ 0 ].contents[ 0 ].name
 
for  i in  range ( len (soup.contents[ 0 ])):
     print  soup.contents[ 0 ].contents[i].name

 

titleTag =  soup.html.head.title
titleTag
# <title>Page title</title>
 
titleTag.string
# u'Page title'
 
len (soup( 'p' ))
# 2
 
soup.findAll( 'p' , align = "center" )
# [<p id="firstpara" align="center">This is paragraph <b>one</b>. </p>]
 
soup.find( 'p' , align = "center" )
# <p id="firstpara" align="center">This is paragraph <b>one</b>. </p>
 
soup( 'p' , align = "center" )[ 0 ][ 'id' ]
# u'firstpara'
 
soup.find( 'p' , align = re. compile ( '^b.*' ))[ 'id' ]
# u'secondpara'
 
soup.find( 'p' ).b.string
# u'one'
 
soup( 'p' )[ 1 ].b.string
# u'two'

 


==============================================================================
本文转自被遗忘的博客园博客,原文链接:http://www.cnblogs.com/rollenholt/archive/2011/12/01/2271298.html,如需转载请自行联系原作者
相关文章
WK
|
5月前
|
XML 数据采集 数据挖掘
什么是Beautiful Soup?有哪些特点?
Beautiful Soup,常被称为“美丽汤”,是用于解析HTML和XML文档的Python库,能自动修复不规范的标签,便于遍历、搜索及修改文档结构,适用于网页爬虫和数据采集。它提供直观的方法来处理文档,支持多种解析器,具备强大的搜索功能,包括find()和find_all()等方法,并兼容CSS选择器,简化了数据提取过程。广泛应用于网页爬虫、数据挖掘及网页内容分析等领域。
WK
269 1
|
6月前
|
数据采集 XML 前端开发
BeautifulSoup
【8月更文挑战第18天】
70 1
|
6月前
|
前端开发 Python
Beautiful Soup
【8月更文挑战第4】
83 9
|
9月前
|
数据采集 XML 前端开发
Python爬虫:BeautifulSoup
这篇内容介绍了Python中BeautifulSoup库的安装和使用。首先,通过在命令行输入`pip install bs4`进行安装,或使用清华源加速。接着讲解BeautifulSoup的基本概念,它是一个用于数据解析的工具,便于处理HTML和XML文档。与正则表达式不同,BeautifulSoup提供更方便的方式来查找和操作标签及其属性。 文章详细阐述了BeautifulSoup的两个主要方法:`find`和`find_all`。`find`方法用于查找单个指定标签,可结合属性字典进行精确选择;`find_all`则返回所有匹配标签的列表。通过这些方法,可以方便地遍历和提取网页元素。
86 0
|
XML 数据格式 Python
BeautifulSoup的基本使用
要使用BeautifulSoup4需要先安装lxml,再安装bs4
BeautifulSoup的基本使用
|
Python
Beautiful Soup库的介绍
本节中将介绍如何使用 Beautiful Soup 来解析 HTML 以获取我们想要的信息。
128 0
|
XML 数据格式 Python
每日一模块——BeautifulSoup4
每日一模块——BeautifulSoup4