Py之Beautiful Soup 4.2.0:Beautiful Soup 4.2.0的简介、安装、使用方法详细攻略-阿里云开发者社区

开发者社区> 一个处女座的程序猿> 正文

Py之Beautiful Soup 4.2.0:Beautiful Soup 4.2.0的简介、安装、使用方法详细攻略

简介: Py之Beautiful Soup 4.2.0:Beautiful Soup 4.2.0的简介、安装、使用方法详细攻略
+关注继续查看

Beautiful Soup 4.2.0的简介


   Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。




Beautiful Soup 4.2.0的安装


如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装:

$ apt-get install Python-bs4

Beautiful Soup 4 通过PyPi发布,所以如果你无法使用系统包管理安装,那么也可以通过 easy_install 或 pip 来安装.包的名字是 beautifulsoup4 ,这个包兼容Python2和Python3.

$ easy_install beautifulsoup4

$ pip install beautifulsoup4


Beautiful Soup 4.2.0的使用方法


1、将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("<html>data</html>")

首先,文档被转换成Unicode,并且HTML的实例都被转换成Unicode编码

BeautifulSoup("Sacr&eacute; bleu!")

<html><head></head><body>Sacré bleu!</body></html>


然后,Beautiful Soup选择最合适的解析器来解析这段文档,如果手动指定解析器那么Beautiful Soup会选择指定的解析器来解析文档.(参考 解析成XML ).




2、BeautifulSoup包 功能比正则表达式很多,且要简洁明白一些。

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可  以归纳为4种: Tag、NavigableString、BeautifulSoup、Comment  。    

Tag:  即我们在写网页时所使用的标签(如<a>超链接标签)    

NavigableString:简单的说就是一种可以遍历的字符串


Beautiful Soup 4.2.0的简介


   Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。



Beautiful Soup 4.2.0的安装


如果你用的是新版的Debain或ubuntu,那么可以通过系统的软件包管理来安装:

$ apt-get install Python-bs4

Beautiful Soup 4 通过PyPi发布,所以如果你无法使用系统包管理安装,那么也可以通过 easy_install 或 pip 来安装.包的名字是 beautifulsoup4 ,这个包兼容Python2和Python3.

$ easy_install beautifulsoup4

$ pip install beautifulsoup4



Beautiful Soup 4.2.0的使用方法


1、将一段文档传入BeautifulSoup 的构造方法,就能得到一个文档的对象, 可以传入一段字符串或一个文件句柄.

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("<html>data</html>")

首先,文档被转换成Unicode,并且HTML的实例都被转换成Unicode编码

BeautifulSoup("Sacr&eacute; bleu!")

<html><head></head><body>Sacré bleu!</body></html>


然后,Beautiful Soup选择最合适的解析器来解析这段文档,如果手动指定解析器那么Beautiful Soup会选择指定的解析器来解析文档.(参考 解析成XML ).


image.png


2、BeautifulSoup包 功能比正则表达式很多,且要简洁明白一些。

Beautiful Soup将复杂HTML文档转换成一个复杂的树形结构,每个节点都是Python对象,所有对象可  以归纳为4种: Tag、NavigableString、BeautifulSoup、Comment  。    

Tag:  即我们在写网页时所使用的标签(如<a>超链接标签)    

NavigableString:简单的说就是一种可以遍历的字符串



Beautiful Soup库对比lxml库


    这两个库主要是解析html/xml文档,BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、  Python标准库中的HTML解析器,也支持 lxml 的 XML解析器。

     Beautiful Sou和Lxml是两个非常流行的python模块,他们常被用来对抓取到的网页进行解析,以便进一步抓取的进行。


    这两个库主要是解析html/xml文档,BeautifulSoup 用来解析 HTML 比较简单,API非常人性化,支持CSS选择器、  Python标准库中的HTML解析器,也支持 lxml 的 XML解析器。

     Beautiful Sou和Lxml是两个非常流行的python模块,他们常被用来对抓取到的网页进行解析,以便进一步抓取的进行。


版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Centos7下安装Solr服务和Solr基本用法
Requirements root@pts/6 $ java -version java version "1.8.0_91" Java(TM) SE Runtime Environment (build 1.8.0_91-b14) Java HotSpot(TM) 64-Bit Server VM (build 25.91-b14, mixed mode) refe
1225 0
Py之ipython:Python库之ipython的简介、安装、使用方法详细攻略
Py之ipython:Python库之ipython的简介、安装、使用方法详细攻略
18 0
技能学习:学习使用Node.js + Vue.js,开发前端全栈网站-3.element-ui和vue-router路由的安装和使用
只要学会了路由,就可以搭建我们的项目了,只要审美没问题,就可以搭建出一个漂亮的静态网站,现在大家可以根据自己的需求把后台的页面和路由做出来了。 要制作一个动态网站,后续还要有很多需要学习借鉴的东西。
23 0
ubuntu 10.10下搭建android开发环境 安装必要工作用软件
  进了新公司之后,工作环境有了很大的变化,以前都是在windows环境下进行程序开发,没怎么接触linux系统,新项目组中有6个同事,一水的ubuntu,木有办法,我也换成ubuntu吧。   曾经在学linux下c语言编程的时候,学过一个月的linux,熟悉了一些命令,稍微能在linux系统下完成一些日常的需求了,也搭建过android的开发环境,呵呵,时间长了,以前的东西又都忘了,由于那个时候也没把搭建环境的步骤进行记录,现在又抓瞎了,废了很大的劲,终于搭建完了,记录一下,为以后做好准备。
1158 0
怎么设置阿里云服务器安全组?阿里云安全组规则详细解说
阿里云服务器安全组设置规则分享,阿里云服务器安全组如何放行端口设置教程
6799 0
ubuntu下Django的安装和使用(一)
版权声明:您好,转载请留下本人博客的地址,谢谢 https://blog.csdn.net/hongbochen1223/article/details/49927929 (一):背...
795 0
filetype 在搜索引擎中的使用方法(2)
filetype 用于搜索特定文件格式。google和百度都支持filetype:指令。 比如搜索“filttype:pdf seo” 返回的就是包含seo这个关键词的所有pdf文件。 百度只支持下面几种文件格式:pdf,doc,xls,ppt,rtf,all.其实的“all”表示搜索百度所有支持的文件类型。
686 0
Elasticsearch 安装和后台运行(真实有效,Mac版本已经验证)
如何安装一个程序 在日常的工作和学习中,例如学习一个新技术,经常需要安装一些程序,那么这个时候,最推荐的就是区技术的官网,学习最新的安装方法,进行安装。
2590 0
+关注
一个处女座的程序猿
国内互联网圈知名博主、人工智能领域优秀创作者,全球最大中文IT社区博客专家、CSDN开发者联盟生态成员、中国开源社区专家、华为云社区专家、51CTO社区专家、Python社区专家等,曾受邀采访和评审十多次。仅在国内的CSDN平台,博客文章浏览量超过2500万,拥有超过57万的粉丝。
1701
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载