从零开始学抓取

简介: 从零开始学抓取

从零开始学抓取

  昨天突然遇到了一个需要统计某个网站所有页面单词数的任务,于是从零开始学起python搞抓取。

  看了一下资料,需要用到下面几个库:

  • beautifulsoup4(分析html)
  • lxml(html praser)
  • requests(请求页面)
  • xlwt(导出excel表格)

下面是代码

import requests
from bs4 import BeautifulSoup
import lxml
import re

url = "http://www.baidu.com"
homepage = requests.get(url).text
#检查返回页面的内容
#print (homepage)
soup = BeautifulSoup(homepage,'lxml')

for linkpage in soup.find_all('a'):
    linkpage2 = linkpage.get('href')
    #检查有哪些连接
    #print(linkpage.get('href'))
    if linkpage2.startswith(url):
        #正则表达式删除末尾的锚位
        print(re.sub(r'\#.*',"",linkpage2))
    elif linkpage2.startswith("/"):
        print(url + re.sub(r'\#.*',"",linkpage2))
相关文章
|
3月前
|
数据采集 Python
python爬虫抓取91处理网
本人是个爬虫小萌新,看了网上教程学着做爬虫爬取91处理网www.91chuli.com,如果有什么问题请大佬们反馈,谢谢。
42 4
|
数据采集 Web App开发
|
数据采集 存储 监控
|
数据采集 编解码 前端开发
|
数据采集 Python
python爬虫抓取富贵论坛
本人是个爬虫小萌新,看了网上教程学着做了一些,如果有什么问题请大佬们反馈,谢谢。
284 0
python爬虫抓取富贵论坛
|
Web App开发 数据采集 前端开发
|
Android开发
Python爬虫入门教程 45-100 Charles抓取兔儿故事-下载小猪佩奇故事-手机APP爬虫部分
1. Charles抓取兔儿故事背景介绍 之前已经安装了Charles,接下来我将用两篇博客简单写一下关于Charles的使用,今天抓取一下兔儿故事里面关于小猪佩奇的故事。爬虫编写起来核心的重点是分析到链接,只要把链接分析到,剩下的就好办了。
1264 0
|
数据采集 Python 数据库管理
Python爬虫入门教程 26-100 知乎文章图片爬取器之二
1. 知乎文章图片爬取器之二博客背景 昨天写了知乎文章图片爬取器的一部分代码,针对知乎问题的答案json进行了数据抓取,博客中出现了部分写死的内容,今天把那部分信息调整完毕,并且将图片下载完善到代码中去。
2620 0
|
数据采集 API Python
Python爬虫入门教程 25-100 知乎文章图片爬取器之一
1. 知乎文章图片爬取器之一写在前面 今天开始尝试爬取一下知乎,看一下这个网站都有什么好玩的内容可以爬取到,可能断断续续会写几篇文章,今天首先爬取最简单的,单一文章的所有回答,爬取这个没有什么难度。
1519 0
|
数据采集 Python
Python爬虫入门教程 18-100 煎蛋网XXOO图片抓取
1.煎蛋网XXOO-写在前面 很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在不断的完善,反爬措施也很多,今天我用selenium在揍他一波。
2698 0