重庆二手房数据爬取与分析实现-阿里云开发者社区

摘要：

对于二手房市场，关键词包括房源面积、楼层、交通、地理位置等等，这些关键词对房价的影响有着较大的关联性。为了找出影响房价的变量特征，将研究通过逻辑回归进行建模分析，为接下来的房价预测提供依据。

对于房价的预测，本研究利用逻辑回归模型进行建模和拟合，逻辑回归模型适合针对离散型数据的可行性分析，所以会将房价变量进行二分类处理。同时在模型训练过程中，理由特征工程的处理，优化特征，选取更好的模型精度和泛化能力。模型建立评估后，可以应用到各种房地产市场中进行价格预测，为投资者提供重要参考信息。

综上所述，建立逻辑回归模型的重庆二手房数据爬取和分析，可以对市场做出更为准确、可靠的研究和结论，为顾客和开发商进行合理的投资提供参考建议。

关键词：重庆二手房数据分析；数据清洗；可视化；逻辑回归算法

1 绪论

1.1 研究背景

逻辑回归模型在数据挖掘和预测方面已经得到广泛应用，尤其是在房地产市场方面。重庆作为国内重要的城市之一，其二手房市场的价格波动以及区域分布情况一直备受关注。因此，针对逻辑回归模型在重庆二手房数据爬取与分析方面进行研究，对于深入了解和预测市场趋势，制定投资决策具有极大的意义。目前，逻辑回归模型在二手房数据爬取与分析方面已经取得了一定的研究成果，研究人员通过构建合适的线性模型，通过数据挖掘和分析来探究重庆二手房市场的特征和规律，实现对房价波动和区域分布情况的预测。而在数据爬取方面，研究人员通过爬取重庆二手房交易数据，获取市场的价格和规模等相关信息，建立了数据分析模型，更好地实现市场情况的分析和预测。然而，目前这方面的研究还存在一些问题，其中包括数据质量问题、数据分析方法及分析精度问题、预测模型的精确度问题等。针对这些问题，需要进一步深入研究，探索出更加有效的方法，以提高重庆二手房市场数据的质量和分析的准确性，为投资者提供更准确和可靠的预测和投资决策依据。

1.2 研究目的

重庆二手房数据爬取与分析是针对重庆二手房市场的特征、规律及趋势进行深入探究的一项研究。该研究旨在利用逻辑回归模型对重庆二手房市场的数据进行爬取和分析，通过对二手房数据进行挖掘和分析，实现对房价的预测，为投资者提供更加精准和可靠的投资意见和建议。

具体来讲，本研究的目的：通过爬虫爬取重庆二手房市场的相关数据，包括价格、房源信息等数据，对数据进行统计学分析，探索市场的价格波动、区域分布及其他特征和规律，最后通过数据挖掘和分析，建立适合于重庆二手房市场的模型，提高模型的准确性和预测能力，为投资者提供更加精准和可靠的投资建议，促进重庆二手房市场的健康发展。

1.3 国内外研究现状

逻辑回归模型是一种广泛应用于数据分析和机器学习中的模型，主要用于分类问题。在房地产领域，逻辑回归模型可以用于分析二手房市场数据，例如房屋价格、面积、位置等来预测和分析未来的市场走势和价格变化。下面将介绍一些国内外关于逻辑回归模型在重庆二手房数据分析中的研究现状。

1.3.1 国内研究现状

在国内，戴瑗2021年利用逻辑回归模型分析重庆市主城区二手房价格的变化趋势及其驱动因素。通过抽取大量历史数据，建立了价格预测模型，通过对历史数据的拟合和对比，该模型可达到较高精度[1]。同时刘航2019年利用逻辑回归模型，结合数据挖掘技术，对重庆市各区的二手房价格变化情况进行深入分析。利用各类房屋属性数据，如区域、楼龄、户型等，建立了基于多元线性回归的价格预测模型，进一步分析了各类属性对房屋价格的影响[5]。另外有张禄成团队2021年研究发现，在逻辑回归模型建立过程中，可以采用正则化、特征选择等方法进行优化，并使用交叉验证法调整超参数，提高模型的准确度和泛化能力。在模型优化过程中，可以采用评价指标（如准确率、召回率、F1值等）对模型的表现进行评估[16]。这样可以根据实际需求对模型和评价指标进行选择和修改。

1.3.2 国外研究现状

在国外，学者们也进行了大量的类似研究。Abraham J M于1994利用逻辑回归模型对房屋价格进行分析和预测。提出一种包括文本信息、照片和数据的多模态模型，将这些信息进行特征提取，并利用逻辑回归模型实现房屋价值的分类分析和预测[3]。还有Shiller R J于2008年利用逻辑回归模型分析住房选择因素在家庭房产投资决策中的作用[6]。针对二手房市场数据，Elbourne A收集了20余个数据指标，并通过逻辑回归模型分析了各个因素之间的相关性及其对房屋价格的影响[7]。

综上所述，逻辑回归模型在重庆二手房数据爬取和分析领域具有广泛的应用价值。目前，国内外研究团队已经开展了大量的相关研究，逻辑回归模型在重庆二手房市场数据分析中已经得到了较为广泛的应用。随着数据挖掘和人工智能技术的不断发展，逻辑回归模型预测精度将会进一步提高，未来逻辑回归模型还将是重庆二手房市场数据分析中的重要工具[9]。

1.4 研究内容

了解二手房市场的趋势和变化，以及预测房价的走势变得愈加重要。而重庆二手房数据爬取与分析的研究可以对重庆二手房市场进行深入了解，并为市场的监管、决策和投资提供重要依据。研究主要内容包括以下几个方面：

绪论：简要阐述重庆二手房数据分析的研究背景和目的，在结合国内外对二手房数据分析的研究现状进行分析，得出本研究的研究主要研究内容和方向。
逻辑回归算法：主要介绍逻辑回归算法和分析重点，以及它的应用应用领域。
逻辑回归建模与检验优化：主要阐述建模过程中二手房数据采集、清洗以及清洗后的数据进行描述性分析和相关分析，并利用逻辑回归模型构建与预测，探究对二手房市场的影响因素，并建立影响因素与房价的逻辑回归模型，最后进行模型检验和优化。

2 逻辑回归算法

逻辑回归分析算法是一种经典的分类算法，主要用于处理二分类问题。逻辑回归分析算法可以看作是一种广义线性模型，通过对输入变量和输出变量之间的关系进行建模，对离散类别进行预测。在逻辑回归分析算法中，常以Logistic回归作为模型分析，下面将对逻辑回归分析算法进行简单说明：

2.1 Logistic回归

Logistic回归可以看作是逻辑回归分析算法的核心方法，它是一种经典的广义线性模型。Logistic回归的基本思想是将自变量通过一个函数映射为概率面，在这个概率面上找到一个分类的边界，使得属于同一类的数据点在这条边界线的一侧，不同类别的数据点在这条边界线的两侧。Logistic回归的函数模型可以表示为：

其中，Y为分类变量，X为自变量，β为模型参数。

在Logistic回归模型中，通常采用最大似然估计法来求解模型参数，即通过极大似然估计法来调整模型参数，使得预测概率最大。

2.2 逻辑回归分析算法

逻辑回归分析算法是一种经典的分类算法，它的核心思想在上文中已经详细阐述。下面是逻辑回归分析算法的一般步骤：

数据预处理：对原始数据进行筛选和清洗，去除错误和缺失的数据，使得数据符合模型假设。
特征选择：选择与分类任务相关联的特征变量，去掉与分类任务无关联的特征变量，为建立模型提供准确的特征变量。
模型训练：使用训练数据进行模型训练，通过模型参数的优化，最大化模型的预测准确度。
模型评估：使用评价指标评估模型的表现，包括精确度、召回率、F1值等，为模型的改进提供参考。
模型应用：使用训练好的模型对新数据进行分类，预测新数据点的类别。

3 逻辑回归建模与检验优化

3.1 数据采集

本论文研究中需要用到的数据是通过网络爬虫在链家网上获取，采集结果保存为csv，如下表3-1部分数据采集结果所示。

表3-1部分数据采集结果

Title	Position	Tag	followInfo	VR	Info	总价 RMB/万	单价RMB/平	单价（后三位）	关注人数数	发布时间	几室	几厅	面积平米	楼层	年份
100	001	001	100	010	63万27,258	63	27,258	27,258	0	13	4	2	232.96	3
001	010	100	001	001	17014,135	170	14,135	14,135	4	8	3	2	120.27	32	2014
010	100	010	010	010	11015,361	110	15,361	15,361	2	5	3	2	71.61	33	2015

注：100表示某一列3条数据的向量，一共有三种不同组合，分别代表同一列不同的数据，同理Title、Position、Tag、followInfo、VR也是如此。

3.2 数据清洗

对网站爬取的数据有很多问题，比如空值、不完整、重复值、数据不规范、无意义的字段数据等，不能直接使用，直接使用会影响数据分析结果的准确性和可靠性，所以进行预处理很重要。因此，进行预处理时需要从以下几个方面入手：处理空值和不完整数据、删除重复值、对数据进行规范化处理、数据类型转换、对异常数据进行处理、删除一些无意义的字段、回归差补，随机缺失等，处理后才能进行后续的分析和建模。

3.2.1 删除无意义的字段

根据采集下来的数据发现，有一些字段是没有意义的，比如vr、Unnamed: 0、Info、followInfo这几列，在采集的数据表中以及将其拆分或重组，以及没有继续分析的意义，对于这几个字段直接做删除处理。

3.2.2 拆分和聚合

Tag字段中包含了很多信息，包括厅室数、面积、楼层、朝向、房屋类型、建筑年份等，所以可以将这个字段拆分成不同的类型信息。如表3-2字段拆分和聚合结果所示。

表3-2字段拆分和聚合结果

室厅数	Style	community	location	面积	楼层	总价
4室2厅	毛还	融创金开融府	翠云	232.96	3	635
3室2厅	精装	招商花园城	龙头寺	120.27	32	170
3室2厅	精装	华宇上院	照母山	71.61	33	110
4室2厅	精装	学府大道69号美梦城真	七公里	105.04	34	122
3室2厅	精装	曦园江南华都	龙洲湾	114.21	18	83

3.2.3 空值以及数据类型转换

重庆链家二手房上面的数据采集下来后是有空值存在，同时面积、总价等这几个字段的数据字符串类型数据，需要把数据类型转换成整形或者浮点型数据，方便后期进行数据分析。所以本研究将含有空值的行删除；同时把面积、总价字段转换成整形或者浮点型数据。获得的数据，存为csv格式。

3.3数据分析及可视化

3.3.1 描述性分析

使用描述性分析算出面积、总价、楼层三个字段的描述性分析数据，包括平均值、标准差、最大值、最小值、上四分位数和下四分位数如下表3.3描述性分析数据所示，面积字段标准差43.68，楼层标准差24.43，总价标准差141.82，标准差表示数据离散程度，故可知面积、楼层、总价三个字段的数据差异还是比较大的。

表3-3描述性分析数据

面积	楼层	总价	count
2700	2700	2700
mean	107.5255556	24.48185185	139.9214815
std	41.81146146	10.79613558	76.19246742
min	28	22	25%
25%	83	17	93
50%	98	29	120
75%	124	33	167
max	417	66	1080

3.3.2 面积特征分析

通过柱形—折线组合图，描绘面积和总价之间的关系，如下图3-1面积分布所示，面积分布具有正态性。另外如图3-2面积与总价之间关系所示，面积和和总价结合的点围绕一条线均匀分布，故可以认为面积和总价有较强的线性关系。

图3-1面积分布

图3-2面积与总价之间关系

3.3.3 楼层特征分析

通过使用柱形—折线组合图，描绘楼层和总价之间的关系，如下图3-3楼层分布所示，楼层分布具有正态性，但是不如面积明显。另外如图3-4楼层与总价之间关系所示，面积和和楼层结合的点围绕一条线分布，但是分布较散，故可以认为楼层和总价有一定的相关性，但是不强。

图3-3楼层分布

图3-4楼层与总价之间关系

3.3.4 相关分析

从数据中可以发现，室厅数,Style,community,location这四个具有离散特征的字段是非数值型，所以需要对其进行数值化。因为这四个字段的离散特征取值具有大小意义，需要对其进行数值的映射，在通过相关分析求得总价跟其他变量之间的相关系数，通过热力图呈现其相关性，如图3-5相关性热力图可知，总价和面积、楼层数有一定的相关性。通过热力图可以为后面的建模特征选取提供有力的数据依据。

图3-5相关性热力图

3.4逻辑回归建模与检验优化

在完成了基本的数据分析和数据可视化之后，接下来将尝试对数据内容进行挖掘，主要包含两部分内容。选取特征变量，划分训练集和测试集，然后再试图利用逻辑回归算法构建模型，使用训练数据进行模型训练，找出这些因素和房价之间的关系，是不是楼层越高面积越大，会影响到总价超过平均值，最后对训练的模型进行评估和优化，找出最合适的模型。

3.4.1 特性选取和划分训练集

逻辑回归模型的本质就是预测属于各个分类的概率，有了概率之后，就可以进行分类了。实际上跟预测有些类似，也是根据模型，本研究主要是分析验证楼层越高面积越大，是否会影响到总价超过平均值。通过前面热力图可知，面积和楼层跟总价有相关性，所以，选择特征这三个特征变量的数据作为逻辑回归数据集，并划分测试数据：训练数据=3:7。

3.4.2 构建模型，评估及优化

首先建立逻辑回归模型。接着将数据拆分为训练集和测试集，并训练模型，输出模型的训练集得分和测试集得分。对训练的模型进行T检验和F检验，判断检验数据之间是否存在显著性差异。接着，计算模型的均方误差、剩余标准差，，并根据方差计算权重。最后通过方差齐性加权，我们可以更准确地评估模型的预测能力和拟合效果。最后，使用GridSearchCV网格优化进行模型优化，找到最优的正则化参数C。最后，输出最优的正则化参数和最优得分。通过模型优化，进一步提高模型的预测能力和准确性。如表3-4 T检验和F检验结果可知：

T检验结果：t值：0.8940948754799931，p值：0.3716709245276292。T检验是一种用于检验两组数据之间是否存在显著性差异的检验方法。T检验的p值为0.3717，大于0.05的显著性水平，说明两组数据之间没有显著性差异。

F检验结果：F值：905.0955555555555，p值：0.2687673371393665。F检验是一种用于检验两组或多组数据之间是否存在显著性差异的检验方法。F检验的p值为0.2688，大于0.05的显著性水平，说明两组数据之间没有显著性差异。

综上所述，T检验和F检验均表明两组数据之间没有显著性差异。

表3-4 T检验和F检验结果

	t值	p值
T检验结果	0.8940948754799931	0.3716709245276292
F检验结果	905.0955555555555	0.2687673371393665

如表3-5 检验模型结果可知，逻辑回归模型的模型剩余标准差等于0.2652，表示模型对数据的拟合程度较好，预测结果较为准确。Bartlett检验的p值为0.9982，远大于0.05的显著性水平，说明不同组别之间的方差相等的假设不能被拒绝。Levene检验的p值为0.9316，远大于0.05的显著性水平，说明不同组别之间的方差相等的假设不能被拒绝。综上所述，Bartlett和Levene两种方差齐性检验均表明不同组别之间的方差相等，可以认为预测结果和实际值差距很小。

表3-5 检验模型结果

	标准差	P值
模型剩余标准差结果	0.2652
Bartlett检验结果		0.9982
Levene检验结果		0.9316

如表3-6 模型优化结果可知，逻辑回归模型经过GridSearchCV进行网格优化之后，模型最优参数是C，最后输出最优正则参数和最优得分以及最优模型的准确率92%。

表3-6 模型优化结果

	准确率	得分	最优参数
未调优模型	0.8024691358024691
最优模型	0.9296296296296296	0.8950617283950617	{'C': 10, 'penalty': 'l2'}

通过逻辑回归模型准确率结果可知，在测试数据：训练数据=3:7的情况下，逻辑回归模型的准确度达到80%，而经过模型调优，网格优化之后，模型的准确率达到92%，可以使用这个模型进行预测。

4 总结与建议

4.1 总结与建议

本文叙述了逻辑回归模型的重庆二手房数据爬取与分析方面的研究进展。针对重庆二手房数据的爬取与分析，逻辑回归模型可以发挥重要的作用。通过对样本数据进行训练，逻辑回归分析模型可以帮助我们预测不同因素对房价的影响程度。在此基础上，可以针对不同的用户需求，提供推荐策略和方案。从本研究结果看，建议需要注意一点：数据分析是一个相对较为复杂的过程，需要具备一定的技术和专业知识，建议选择具备数据分析专业技能的团队或人员，以确保数据分析效果和数据保密性。

综上所述，逻辑回归模型在分析重庆二手房市场的价格波动和面积分布方面具有较高的准确性。所以本研究可以为房地产市场调研、数据分析和机器学习算法的应用提供有力的参考和借鉴。

4.2 展望与不足

然而，目前仍有许多问题需要进一步探究和解决。

首先，虽然已经有了许多优秀的数据爬取工具和算法，但仍需更高效和准确的数据采集技术来确保数据的完整性和可靠性。据了解，现有一些数据缺失和不准确的问题，这严重影响了数据的分析和预测模型的建立。

其次，二手房市场受到许多复杂因素的影响，研究者需要更深入的分析和挖掘这些影响因素。例如，政策变化、经济环境、人口密度、区位因素、教育因素、医疗设施等因素可能影响二手房市场的价值和价格波动情况。

此外，目前已经有了一些较好的预测模型，但仍然需要进一步改进和验证。例如，可以使用其他的机器学习算法，如决策树和支持向量机等，以提高预测模型的准确性和可靠性。

最后，进一步的研究也应该注重探究二手房市场的其他方面。例如，销售条件和销售人员的经验对价格的影响，二手房市场的假期效应等。这些研究的结果将有助于投资者更好地理解市场，制定合理的投资决策，并提高其投资回报。

综合来说，虽然逻辑回归模型的重庆二手房数据爬取与分析方面已经取得了一定的成果，但仍然有许多需要进一步研究和改进的问题。相信随着技术和研究方法的不断发展，我们能够更好地理解二手房市场，并为投资者提供更准确和可靠的预测和决策信息。

参考文献

[1]戴瑗,郑传行.基于Python的南京二手房数据爬取及分析[J].计算机时代,2021(1).

[2]熊畅.基于Python爬虫技术的网页数据抓取与分析研究[J].数字技术与应用,2017(9).

[3]Abraham J M, Hendershott P H. Bubbles in metropolitan housing markets[R]. NationalBureau of Economic Research, 1994.

[4]曹家辉.市场情绪对二手住房市场的影响研究 [D].重庆大学.2021.6.

[5]刘航.基于Python的重庆二手房爬取及分析[J].电脑知识与技术,2019.15(36).

[6]Shiller R J. Historic turning points in real estate[J]. Eastern Economic Journal, 2008, 34(1).

[7]Elbourne A. The UK housing market and the monetary policy transmission mechanism: AnSVAR approach[J]. Journal of Housing Economics, 2008, 17(1).

[8]刘智慧，张泉灵.大数据技术研究综述[J].浙江大学学报：工学版，2014，48（6）：957-972.

[9]刘乙颖，余函.重庆市房地产市场价格变动趋势探卡厅[J].市场周刊（理论研究），2017：38-39.

[10]晋振杰，曹少中，项宏峰，等.基于python的电商书籍数据爬虫研究[J].北京印刷学院学报，2018，3（26）：39-42.

[11]张文霖，刘夏璐，狄松.谁说菜鸟不会数据分析（入门篇）[D].北京：电子工业出版社，2016.

[12]熊畅.基于Python爬虫技术的网页数据抓取与分析研究[J].数字技术与应用，2017（8）：35-36.

[13]赵绿草，饶佳冬.基于python的二手房数据爬取及分析[J].数字技术与应用，2019

[14]王彦雅.基于Python的廊坊市二手房数据爬取及分析[J].钛学术，2021

[15]张禄成，陶冶，崔文华.基于Python的鞍山市二手房数据爬取及分析[J].今日自动化，2021

重庆二手房数据爬取与分析实现

摘要：