Python:房价爬虫设计

简介: Python:房价爬虫设计

1 需求分析

1.1 设计目的

本次实践使用Python来爬取链家网房价的数据,并对房价进行可视化分析。
客户可以通过精准定位客户找房的需求,可以帮助用户快速找到心仪房源并快速匹配经纪人,为客户提供从咨询、看房、交易及售后等整体流程服务。通过完成此次课程设计,逐渐培养我们的自主编程能力和用计算机解决实际问题的能力。加深了我们对VIP这门课程的理解,并以此来验证自身的学习效果,同时利用我们所学的基本知识和技能,进行简单爬虫应用程序设计提升我们自身学习所获得的成就感。

1.2 设计要求

1.2.1 问题描述

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
(1)用户可以自定义数据采集位置;
(2)方便;
(3)可以储存至本地csv文件。

1.2.2 主要研究功能

1、完成爬虫图形用户界面的设计。
2、完成pyqt界面内的功能模块。
3、完成以csv的形式存至本地。

2 功能分析

2.1网页介绍

链家网是集房源信息搜索、产品研发、大数据处理、服务标准建立为一体的国内领先且重度垂直的全产业链房产服务平台。链家网的前身为链家在线,成立于2010年并于2014年正式更名为链家网。
目前,链家网线上房源已覆盖北京、上海、广州、深圳、天津、成都、青岛、重庆、大连等42个城市。链家网旨在通过不断提高服务效率、提升服务体验,为用户提供更安全、更便捷、更舒心的综合房产服务。
url:https://luoyang.lianjia.com/ershoufang/rs%E5%8C%97%E4%BA%AC/

2.2 用户界面分析

用QApplication([])定义主要界面,用QPushButton添加重新来过按钮,用QProgressBar来添加进度条,用QPlainTextEdit来添加文本框,用QPushButton来获取案件信息,用setPlaceholderText来插入提示,用window.show()来显示图形界面。
定义主界面
app = QApplication([])
window = QMainWindow()
window.resize(500, 400)
window.move(300, 310)
window.setWindowTitle('链家房源获取器')
textEdit = QPlainTextEdit(window)
textEdit.setPlaceholderText("请输入你想要查找的地址:")
位置
textEdit.move(10, 25)
textEdit.resize(300, 350)

进度条

ProgressBar=QProgressBar(window)
ProgressBar.setRange(1, 10)

案件信息

button = QPushButton('获取信息', window)
button1 = QPushButton('复制数据', window)

位置

button.move(380, 80)
button1.move(380, 120)

点击事件

button.clicked.connect(main)
button1.clicked.connect(copy)
显示图形界面
window.show()
app.exec_()

3 系统设计与分析

3.1提取数据

3.1.0正则表达式

'infoclear">.*?data-sl="">(.*?)</a>.*?data-el="region">(.*?) </a>.*?target="_blank">(.*?)</a>.*?<span class="houseIcon"></span>(.*?) .*?<span class="">(.*?)</span><i>万'

如图3.1匹配开头与结尾之间的所有字符然后提取

在这里插入图片描述

图3.1

3.1.1 获取所有url

def get_url():
        progress = 0
        for page in range(1, 4):
       base_url = 'https://bj.lianjia.com/ershoufang/pg' + str(page) + 'rs' + str(local) + '/'
      # base_url = 'https://bj.lianjia.com/ershoufang/pg' + str(path+ '/'
        urls.append(base_url)
        progress += 1
        ProgressBar.setValue(progress)

3.1.2保存数据

def write_content(content):
    global q
    with open('y.csv', 'a', encoding='utf-8') as f:
        name = ['地段', '户型', '面积', '价格']
        writer = csv.DictWriter(f, fieldnames=name)
        if q == 0:
            writer.writeheader()
            q += 1
        writer.writerow(content)
        f.close()

3.1.3 整理数据

for item in items:
    # print(item)
    yield {
        '地段': item[0],
        '户型': item[1],
        '面积': item[2],
        '价格': item[3]
    }
# print(\n)

3.1.4 requests批量get超文本数据

def parser_url():
            for url in urls:
            r = requests.get(url, headers=headers)
            r.encoding = 'utf-8'
           # time.sleep(1)
           html = r.text

3.1.5 利用的模块框架

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn import linear_modelimport time
import re
import requests
import csv
import json
import sys
from PyQt5 import QtGui, QtCore, QtWidgets
from PyQt5.QtCore import QObject, pyqtSignal
import os, string
import math
from PyQt5.QtWidgets import QPlainTextEdit, QMainWindow, QApplication, QMessageBox, QProgressBar
from PyQt5.QtWidgets import QPushButton

3.3数据分析

3.3.1分析二手房的数量
分析津南各个社区二手房的数量,用柱状图表示如图3.3.2,可见双港二手房的数量最多。
在这里插入图片描述

图3.3.1

在这里插入图片描述

图3.3.2

在这里插入图片描述
3.3.2分析房价平米与价格
分析津南平米数与价格的对比,用散点图表示如图3.3.3,可见平米数与价格成正比。

在这里插入图片描述




                            图3.3.3 

3.4线性回归预测房价

我们把通过爬虫采集的观测数据作为训练集,主要有房屋价格与房屋面积,通过线性回归模型来预测房屋价格,通过拿到训练集的min and max,然后在这个范围随机生成数据集作为测试集,以达到泛化最优.

3.4.1 L2正则化

测试之后我们发现模型受异常值影响较为严重,这里通过L2正则进行权重衰减,代码如下:
from sklearn.linear_model import Ridge
def huigui(data_x,data_y):
    plt.figure()
    plt.scatter(data_x,data_y,alpha=0.8)
    plt.show
huigui(data_x,data_y)
model = Ridge(alpha=1000000)  
model.fit(data_x, data_y)   
print('系数矩阵:\n',model.coef_)
# print('线性回归模型:\n',model)
plt.plot(data_x, model.predict(data_x),color='green')
plt.show

总结

通过这次课程设计,我大大提高了自己的自主学习能力,俗话说“师傅领进门,修行在个人”,要完成如此复杂的课程设计,仅靠老师上课教授的知识是远远不够的,需要我们自己去多加学习。在学习中,还应学会提问的方法,遇到问题不要慌张,要仔细往根源去找问题,不要一有问题就寻求老师同学帮忙,要有自主解决问题的能力。通过对代码的不断调试与修改,我们对于语法的理解更为透彻,同时我们的学习态度也得到了锻炼,变得更加严谨求实。通过本项课程设计,我们对于老师在课堂上讲授内容做相应的自主练习,消化课堂所讲解的内容的同时也锻炼了我们的逻辑思维,培养了我们独立思考、综合运用所学有关相应知识的能力。通过完成课题设计,磨练了我们敲代码写编程的意志,同时为我们以后编写更为复杂的程序积累下宝贵的经验,提升自身专业水平和必备技能。

目录
相关文章
|
18天前
|
数据采集 存储 XML
Python爬虫定义入门知识
Python爬虫是用于自动化抓取互联网数据的程序。其基本概念包括爬虫、请求、响应和解析。常用库有Requests、BeautifulSoup、Scrapy和Selenium。工作流程包括发送请求、接收响应、解析数据和存储数据。注意事项包括遵守Robots协议、避免过度请求、处理异常和确保数据合法性。Python爬虫强大而灵活,但使用时需遵守法律法规。
|
20天前
|
数据采集 缓存 定位技术
网络延迟对Python爬虫速度的影响分析
网络延迟对Python爬虫速度的影响分析
|
21天前
|
数据采集 Web App开发 监控
高效爬取B站评论:Python爬虫的最佳实践
高效爬取B站评论:Python爬虫的最佳实践
|
28天前
|
数据采集 存储 JSON
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第27天】本文介绍了Python网络爬虫Scrapy框架的实战应用与技巧。首先讲解了如何创建Scrapy项目、定义爬虫、处理JSON响应、设置User-Agent和代理,以及存储爬取的数据。通过具体示例,帮助读者掌握Scrapy的核心功能和使用方法,提升数据采集效率。
79 6
|
22天前
|
数据采集 存储 JSON
Python爬虫开发中的分析与方案制定
Python爬虫开发中的分析与方案制定
|
26天前
|
数据采集 JSON 测试技术
Python爬虫神器requests库的使用
在现代编程中,网络请求是必不可少的部分。本文详细介绍 Python 的 requests 库,一个功能强大且易用的 HTTP 请求库。内容涵盖安装、基本功能(如发送 GET 和 POST 请求、设置请求头、处理响应)、高级功能(如会话管理和文件上传)以及实际应用场景。通过本文,你将全面掌握 requests 库的使用方法。🚀🌟
42 7
|
29天前
|
数据采集 Web App开发 前端开发
Python爬虫进阶:Selenium在动态网页抓取中的实战
【10月更文挑战第26天】动态网页抓取是网络爬虫的难点,因为数据通常通过JavaScript异步加载。Selenium通过模拟浏览器行为,可以加载和执行JavaScript,从而获取动态网页的完整内容。本文通过实战案例,介绍如何使用Selenium在Python中抓取动态网页。首先安装Selenium库和浏览器驱动,然后通过示例代码展示如何抓取英国国家美术馆的图片信息。
57 6
|
26天前
|
数据采集 Web App开发 JavaScript
爬虫策略规避:Python爬虫的浏览器自动化
爬虫策略规避:Python爬虫的浏览器自动化
|
26天前
|
数据采集 存储 XML
Python实现网络爬虫自动化:从基础到实践
本文将介绍如何使用Python编写网络爬虫,从最基础的请求与解析,到自动化爬取并处理复杂数据。我们将通过实例展示如何抓取网页内容、解析数据、处理图片文件等常用爬虫任务。
139 1
|
29天前
|
数据采集 前端开发 中间件
Python网络爬虫:Scrapy框架的实战应用与技巧分享
【10月更文挑战第26天】Python是一种强大的编程语言,在数据抓取和网络爬虫领域应用广泛。Scrapy作为高效灵活的爬虫框架,为开发者提供了强大的工具集。本文通过实战案例,详细解析Scrapy框架的应用与技巧,并附上示例代码。文章介绍了Scrapy的基本概念、创建项目、编写简单爬虫、高级特性和技巧等内容。
57 4