python抓取网页数据的三种方法

简介:


一、正则表达式提取网页内容

解析效率:正则表达式>lxml>beautifulsoup

代码:

',html)

print  num

print  "num[1]: ",num[1]

import  re

import  urllib2

 

urllist  = 'http://example.webscraping.com/places/default/view/United-Kingdom-239'

 

html =  urllib2.urlopen(urllist).read()

num =  re.findall('

(.*?)

 

二、BeautifulSoup方法提取网页内容

代码如下:

from  bs4 import BeautifulSoup

import  urllib2

 

urllist  = 'http://example.webscraping.com/places/default/view/United-Kingdom-239'

 

html =  urllib2.urlopen(urllist).read()

#html格式进行确定和纠正

soup =  BeautifulSoup(html,'html.parser')

#找出tr标签中id属性为places_area__row的内容,如果把find改成findall函数则会把匹配所#有的内容显示出来,find函数只匹配第一次匹配的内容。

tr =  soup.find('tr',attrs={'id':'places_area__row'})

td =  tr.find('td',attrs={'class':'w2p_fw'})

#取出标签内容

area =  td.text

print  "area: ",area

 

三、lxml

lxml库功能和使用类似BeautifulSoup库,不过lxml解析速度比beautifulsoup快。

代码:

import  lxml.html

import  urllib2

 

urllist  = 'http://example.webscraping.com/places/default/vie

w/United-Kingdom-239'

 

html =  urllib2.urlopen(urllist).read()

tree =  lxml.html.fromstring(html)

td =  tree.cssselect('tr#places_area__row > td.w2p_fw')[0]

area =  td.text_content()

print  area

 


本文转自 老鹰a  51CTO博客,原文链接:http://blog.51cto.com/laoyinga/1939999

相关文章
|
23天前
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
|
29天前
|
机器学习/深度学习 Python
堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能
本文深入探讨了堆叠集成策略的原理、实现方法及Python应用。堆叠通过多层模型组合,先用不同基础模型生成预测,再用元学习器整合这些预测,提升模型性能。文章详细介绍了堆叠的实现步骤,包括数据准备、基础模型训练、新训练集构建及元学习器训练,并讨论了其优缺点。
49 3
|
16天前
|
安全
Python-打印99乘法表的两种方法
本文详细介绍了两种实现99乘法表的方法:使用`while`循环和`for`循环。每种方法都包括了步骤解析、代码演示及优缺点分析。文章旨在帮助编程初学者理解和掌握循环结构的应用,内容通俗易懂,适合编程新手阅读。博主表示欢迎读者反馈,共同进步。
|
21天前
|
数据采集 分布式计算 大数据
构建高效的数据管道:使用Python进行ETL任务
在数据驱动的世界中,高效地处理和移动数据是至关重要的。本文将引导你通过一个实际的Python ETL(提取、转换、加载)项目,从概念到实现。我们将探索如何设计一个灵活且可扩展的数据管道,确保数据的准确性和完整性。无论你是数据工程师、分析师还是任何对数据处理感兴趣的人,这篇文章都将成为你工具箱中的宝贵资源。
|
24天前
|
JSON 安全 API
Python调用API接口的方法
Python调用API接口的方法
111 5
|
1月前
|
机器学习/深度学习 人工智能 算法
强化学习在游戏AI中的应用,从基本原理、优势、应用场景到具体实现方法,以及Python在其中的作用
本文探讨了强化学习在游戏AI中的应用,从基本原理、优势、应用场景到具体实现方法,以及Python在其中的作用,通过案例分析展示了其潜力,并讨论了面临的挑战及未来发展趋势。强化学习正为游戏AI带来新的可能性。
93 4
|
7月前
|
数据采集 JSON JavaScript
Python爬虫案例:抓取猫眼电影排行榜
python爬取猫眼电影排行榜数据分析,实战。(正则表达式,xpath,beautifulsoup)【2月更文挑战第11天】
314 2
Python爬虫案例:抓取猫眼电影排行榜
|
Web App开发 iOS开发 Python
|
21天前
|
人工智能 数据可视化 数据挖掘
探索Python编程:从基础到高级
在这篇文章中,我们将一起深入探索Python编程的世界。无论你是初学者还是有经验的程序员,都可以从中获得新的知识和技能。我们将从Python的基础语法开始,然后逐步过渡到更复杂的主题,如面向对象编程、异常处理和模块使用。最后,我们将通过一些实际的代码示例,来展示如何应用这些知识解决实际问题。让我们一起开启Python编程的旅程吧!