基于bs4+requests的安居客爬虫

简介: 1.代码可以直接运行,请下载anaconda并安装,用spyder方便查看变量或者可以查看生成的excel文件2.依赖库,命令行运行(WIN10打开命令行快捷键:windows+x组合键,然后按a键):pip install BeautifulSoup4pip install requests3.

1.代码可以直接运行,请下载anaconda并安装,用spyder方便查看变量
或者可以查看生成的excel文件
2.依赖库,命令行运行(WIN10打开命令行快捷键:windows+x组合键,然后按a键):
pip install BeautifulSoup4
pip install requests
3.爬取的网站是安居客(厦门)网站,可以进入https://xm.fang.anjuke.com/loupan/all/进行观察
4.关于如何判断代码是python2还是python3,print('')为python3,print ''为python2

# -*- coding: utf-8 -*-
"""
Created on Sun Jan 14 19:07:39 2018

@author: Steven Lei
"""

def getHousesDetails(url):
  import requests
  from bs4 import BeautifulSoup
  
  request = requests.get(url)
  request.encoding = 'utf-8'
  soup = BeautifulSoup(request.text,'lxml')
  houses = soup.select('.item-mod')[3:]
  housesDetails = []
  for house in houses:
    #获取楼盘名字
    houseName = house.select('.items-name')[0].text
    #获取楼盘价格
    priceBefore = house.select('.price')
    if(len(priceBefore) == 0):
        priceBefore = house.select('.price-txt')
    price = priceBefore[0].text
    #获取楼盘地址
    address = house.select('.list-map')[0].text
    if(address[-1] == '.'):
      href = house.select('.pic')[0]['href']
      request = requests.get(href)
      request.encoding = 'utf-8'
      soup = BeautifulSoup(request.text,'lxml')
      address = soup.select('.lpAddr-text')[0].text
    #获取房屋面积
    houseSizeBefore = house.select('.huxing span')
    if(len(houseSizeBefore) >0):
      houseSize = houseSizeBefore[-1].text
    else:
      houseSize = ''
    #获取销售状态
    saleStatus = house.select('.tag-panel i')[0].text
    #获取户型
    if(len(house.select('.tag-panel i')) == 2):
      houseType = house.select('.tag-panel i')[1].text
    else:
      houseType = house.select('.tag-panel span')[0].text
    #将获取的信息做成房屋信息字典
    houseDetail = {}
    houseDetail['houseName'] = houseName
    houseDetail['price'] = price
    houseDetail['address'] = address
    houseDetail['houseSize'] = houseSize
    houseDetail['saleStatus'] = saleStatus
    houseDetail['houseType'] = houseType
    print(houseDetail)
    housesDetails.append(houseDetail)
  return housesDetails

def getAllHouseDetails():
  import pandas
  urlBefore = 'https://xm.fang.anjuke.com/loupan/all/p{}/'
  allHouseDetails = []
  for i in range(1,8):
    url = urlBefore.format(i)
    allHouseDetails.extend(getHousesDetails(url))
  dataframe = pandas.DataFrame(allHouseDetails)
  return dataframe

if __name__ == '__main__':
  #houseDetails = getHousesDetails('https://xm.fang.anjuke.com/loupan/all/p1/')
  allHouseDetails = getAllHouseDetails()
  allHouseDetails.to_excel('anjukeHousesDetails.xlsx')
  print(allHouseDetails.head(10))
目录
相关文章
|
11月前
|
数据采集 Python
如何通过requests和time模块限制爬虫请求速率?
如何通过requests和time模块限制爬虫请求速率?
|
12月前
|
数据采集 存储 Web App开发
自动化爬虫:requests定时爬取前程无忧最新职位
自动化爬虫:requests定时爬取前程无忧最新职位
|
11月前
|
数据采集 Python
解决requests爬虫IP连接初始问题的方案。
通过上述技艺,爬虫程序的调试和优化将变得十分高效,最妙的是,这些技术诀窍不仅可以帮你避开网络世界里的雷区,更能让你在数据抓取的战场上游刃有余。
163 0
|
数据采集 JSON 测试技术
Python爬虫神器requests库的使用
在现代编程中,网络请求是必不可少的部分。本文详细介绍 Python 的 requests 库,一个功能强大且易用的 HTTP 请求库。内容涵盖安装、基本功能(如发送 GET 和 POST 请求、设置请求头、处理响应)、高级功能(如会话管理和文件上传)以及实际应用场景。通过本文,你将全面掌握 requests 库的使用方法。🚀🌟
2129 7
|
数据采集 Python
Flask获取post,get参数,以及 爬虫 requests的get,post参数详解
Flask获取post,get参数,以及 爬虫 requests的get,post参数详解
|
数据采集 存储 JSON
从零到一构建网络爬虫帝国:HTTP协议+Python requests库深度解析
在网络数据的海洋中,网络爬虫遵循HTTP协议,穿梭于互联网各处,收集宝贵信息。本文将从零开始,使用Python的requests库,深入解析HTTP协议,助你构建自己的网络爬虫帝国。首先介绍HTTP协议基础,包括请求与响应结构;然后详细介绍requests库的安装与使用,演示如何发送GET和POST请求并处理响应;最后概述爬虫构建流程及挑战,帮助你逐步掌握核心技术,畅游数据海洋。
437 3
|
数据采集 API 开发者
🚀告别网络爬虫小白!urllib与requests联手,Python网络请求实战全攻略
在网络的广阔世界里,Python凭借其简洁的语法和强大的库支持,成为开发网络爬虫的首选语言。本文将通过实战案例,带你探索urllib和requests两大神器的魅力。urllib作为Python内置库,虽API稍显繁琐,但有助于理解HTTP请求本质;requests则简化了请求流程,使开发者更专注于业务逻辑。从基本的网页内容抓取到处理Cookies与Session,我们将逐一剖析,助你从爬虫新手成长为高手。
248 1
|
数据采集
爬虫之bs4学习
爬虫之bs4学习
|
数据采集 测试技术 C++
无headers爬虫 vs 带headers爬虫:Python性能对比
无headers爬虫 vs 带headers爬虫:Python性能对比
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
678 6