Python:房价爬虫设计

简介: Python:房价爬虫设计

1 需求分析

1.1 设计目的

本次实践使用Python来爬取链家网房价的数据,并对房价进行可视化分析。
客户可以通过精准定位客户找房的需求,可以帮助用户快速找到心仪房源并快速匹配经纪人,为客户提供从咨询、看房、交易及售后等整体流程服务。通过完成此次课程设计,逐渐培养我们的自主编程能力和用计算机解决实际问题的能力。加深了我们对VIP这门课程的理解,并以此来验证自身的学习效果,同时利用我们所学的基本知识和技能,进行简单爬虫应用程序设计提升我们自身学习所获得的成就感。

1.2 设计要求

1.2.1 问题描述

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
(1)用户可以自定义数据采集位置;
(2)方便;
(3)可以储存至本地csv文件。

1.2.2 主要研究功能

1、完成爬虫图形用户界面的设计。
2、完成pyqt界面内的功能模块。
3、完成以csv的形式存至本地。

2 功能分析

2.1网页介绍

链家网是集房源信息搜索、产品研发、大数据处理、服务标准建立为一体的国内领先且重度垂直的全产业链房产服务平台。链家网的前身为链家在线,成立于2010年并于2014年正式更名为链家网。
目前,链家网线上房源已覆盖北京、上海、广州、深圳、天津、成都、青岛、重庆、大连等42个城市。链家网旨在通过不断提高服务效率、提升服务体验,为用户提供更安全、更便捷、更舒心的综合房产服务。
url:https://luoyang.lianjia.com/ershoufang/rs%E5%8C%97%E4%BA%AC/

2.2 用户界面分析

用QApplication([])定义主要界面,用QPushButton添加重新来过按钮,用QProgressBar来添加进度条,用QPlainTextEdit来添加文本框,用QPushButton来获取案件信息,用setPlaceholderText来插入提示,用window.show()来显示图形界面。
定义主界面
app = QApplication([])
window = QMainWindow()
window.resize(500, 400)
window.move(300, 310)
window.setWindowTitle('链家房源获取器')
textEdit = QPlainTextEdit(window)
textEdit.setPlaceholderText("请输入你想要查找的地址:")
位置
textEdit.move(10, 25)
textEdit.resize(300, 350)

进度条

ProgressBar=QProgressBar(window)
ProgressBar.setRange(1, 10)

案件信息

button = QPushButton('获取信息', window)
button1 = QPushButton('复制数据', window)

位置

button.move(380, 80)
button1.move(380, 120)

点击事件

button.clicked.connect(main)
button1.clicked.connect(copy)
显示图形界面
window.show()
app.exec_()

3 系统设计与分析

3.1提取数据

3.1.0正则表达式

'infoclear">.*?data-sl="">(.*?)</a>.*?data-el="region">(.*?) </a>.*?target="_blank">(.*?)</a>.*?<span class="houseIcon"></span>(.*?) .*?<span class="">(.*?)</span><i>万'

如图3.1匹配开头与结尾之间的所有字符然后提取

在这里插入图片描述

图3.1

3.1.1 获取所有url

def get_url():
        progress = 0
        for page in range(1, 4):
       base_url = 'https://bj.lianjia.com/ershoufang/pg' + str(page) + 'rs' + str(local) + '/'
      # base_url = 'https://bj.lianjia.com/ershoufang/pg' + str(path+ '/'
        urls.append(base_url)
        progress += 1
        ProgressBar.setValue(progress)

3.1.2保存数据

def write_content(content):
    global q
    with open('y.csv', 'a', encoding='utf-8') as f:
        name = ['地段', '户型', '面积', '价格']
        writer = csv.DictWriter(f, fieldnames=name)
        if q == 0:
            writer.writeheader()
            q += 1
        writer.writerow(content)
        f.close()

3.1.3 整理数据

for item in items:
    # print(item)
    yield {
        '地段': item[0],
        '户型': item[1],
        '面积': item[2],
        '价格': item[3]
    }
# print(\n)

3.1.4 requests批量get超文本数据

def parser_url():
            for url in urls:
            r = requests.get(url, headers=headers)
            r.encoding = 'utf-8'
           # time.sleep(1)
           html = r.text

3.1.5 利用的模块框架

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn import linear_modelimport time
import re
import requests
import csv
import json
import sys
from PyQt5 import QtGui, QtCore, QtWidgets
from PyQt5.QtCore import QObject, pyqtSignal
import os, string
import math
from PyQt5.QtWidgets import QPlainTextEdit, QMainWindow, QApplication, QMessageBox, QProgressBar
from PyQt5.QtWidgets import QPushButton

3.3数据分析

3.3.1分析二手房的数量
分析津南各个社区二手房的数量,用柱状图表示如图3.3.2,可见双港二手房的数量最多。
在这里插入图片描述

图3.3.1

在这里插入图片描述

图3.3.2

在这里插入图片描述
3.3.2分析房价平米与价格
分析津南平米数与价格的对比,用散点图表示如图3.3.3,可见平米数与价格成正比。

在这里插入图片描述




                            图3.3.3 

3.4线性回归预测房价

我们把通过爬虫采集的观测数据作为训练集,主要有房屋价格与房屋面积,通过线性回归模型来预测房屋价格,通过拿到训练集的min and max,然后在这个范围随机生成数据集作为测试集,以达到泛化最优.

3.4.1 L2正则化

测试之后我们发现模型受异常值影响较为严重,这里通过L2正则进行权重衰减,代码如下:
from sklearn.linear_model import Ridge
def huigui(data_x,data_y):
    plt.figure()
    plt.scatter(data_x,data_y,alpha=0.8)
    plt.show
huigui(data_x,data_y)
model = Ridge(alpha=1000000)  
model.fit(data_x, data_y)   
print('系数矩阵:\n',model.coef_)
# print('线性回归模型:\n',model)
plt.plot(data_x, model.predict(data_x),color='green')
plt.show

总结

通过这次课程设计,我大大提高了自己的自主学习能力,俗话说“师傅领进门,修行在个人”,要完成如此复杂的课程设计,仅靠老师上课教授的知识是远远不够的,需要我们自己去多加学习。在学习中,还应学会提问的方法,遇到问题不要慌张,要仔细往根源去找问题,不要一有问题就寻求老师同学帮忙,要有自主解决问题的能力。通过对代码的不断调试与修改,我们对于语法的理解更为透彻,同时我们的学习态度也得到了锻炼,变得更加严谨求实。通过本项课程设计,我们对于老师在课堂上讲授内容做相应的自主练习,消化课堂所讲解的内容的同时也锻炼了我们的逻辑思维,培养了我们独立思考、综合运用所学有关相应知识的能力。通过完成课题设计,磨练了我们敲代码写编程的意志,同时为我们以后编写更为复杂的程序积累下宝贵的经验,提升自身专业水平和必备技能。

目录
相关文章
|
6月前
|
数据采集 Web App开发 数据安全/隐私保护
实战:Python爬虫如何模拟登录与维持会话状态
实战:Python爬虫如何模拟登录与维持会话状态
|
7月前
|
数据采集 Web App开发 自然语言处理
新闻热点一目了然:Python爬虫数据可视化
新闻热点一目了然:Python爬虫数据可视化
|
8月前
|
数据采集 数据挖掘 测试技术
Go与Python爬虫实战对比:从开发效率到性能瓶颈的深度解析
本文对比了Python与Go在爬虫开发中的特点。Python凭借Scrapy等框架在开发效率和易用性上占优,适合快速开发与中小型项目;而Go凭借高并发和高性能优势,适用于大规模、长期运行的爬虫服务。文章通过代码示例和性能测试,分析了两者在并发能力、错误处理、部署维护等方面的差异,并探讨了未来融合发展的趋势。
866 0
|
6月前
|
数据采集 监控 数据库
Python异步编程实战:爬虫案例
🌟 蒋星熠Jaxonic,代码为舟的星际旅人。从回调地狱到async/await协程天堂,亲历Python异步编程演进。分享高性能爬虫、数据库异步操作、限流监控等实战经验,助你驾驭并发,在二进制星河中谱写极客诗篇。
Python异步编程实战:爬虫案例
|
7月前
|
数据采集 存储 XML
Python爬虫技术:从基础到实战的完整教程
最后强调: 父母法律法规限制下进行网络抓取活动; 不得侵犯他人版权隐私利益; 同时也要注意个人安全防止泄露敏感信息.
986 19
|
6月前
|
数据采集 存储 JSON
Python爬虫常见陷阱:Ajax动态生成内容的URL去重与数据拼接
Python爬虫常见陷阱:Ajax动态生成内容的URL去重与数据拼接
|
7月前
|
数据采集 存储 Web App开发
处理Cookie和Session:让Python爬虫保持连贯的"身份"
处理Cookie和Session:让Python爬虫保持连贯的"身份"
|
6月前
|
数据采集 存储 JavaScript
解析Python爬虫中的Cookies和Session管理
Cookies与Session是Python爬虫中实现状态保持的核心。Cookies由服务器发送、客户端存储,用于标识用户;Session则通过唯一ID在服务端记录会话信息。二者协同实现登录模拟与数据持久化。
|
8月前
|
数据采集 存储 JSON
地区电影市场分析:用Python爬虫抓取猫眼/灯塔专业版各地区票房
地区电影市场分析:用Python爬虫抓取猫眼/灯塔专业版各地区票房
|
7月前
|
数据采集 Web App开发 前端开发
处理动态Token:Python爬虫应对AJAX授权请求的策略
处理动态Token:Python爬虫应对AJAX授权请求的策略

推荐镜像

更多