线性回归和时间序列分析北京房价影响因素可视化案例（下）

2024-04-23 90

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 线性回归和时间序列分析北京房价影响因素可视化案例

线性回归和时间序列分析北京房价影响因素可视化案例（上）：https://developer.aliyun.com/article/1490584

建筑类型

makeEDA('buildingType' )

平房是最昂贵的

`装修条件`

`电梯`

价格对电梯的依赖性非常小
住宅的分布与这一特征是相对相等的。

`地铁`

价格对地铁站附近的依赖性非常小。
住宅的分布与这一特征是相对相等的。

是否满_五年_

makeFeatureCatEDA('fiveYearsProperty', length(unique(df3$fiveYearsProperty)))

对于是否拥有不到5年房产来说，价格的依赖性确实很小
就这一特征而言，房子的分布是相对平等的

`区域`

回归模型

策略

从tradeTime中提取年份和月份
按年度和月份分组，得到房屋的数量和均价
拆分数据集：

对于年[2010-2017]=在这组年上训练并运行回归模型
对于>2017年：逐月对测试样本并预测平均价格

平均价格总览

首先我们需要看看我们想要预测什么

df3$year <- year(df3$tradeTimeTs)
df3$month <- month(df3$tradeTimeTs)

df3 %>% filter(year>2009) %>% group_by(monthlyTrad) %>% 
  summarise(count=n(), mean = mean(price)) %>% 
  ggplot(aes(x=monthlyTradeTS, y= mean)) +

平均价格上涨至2017年中期，然后迅速下降
同时，房屋数量随着价格的上涨而增加，而且现在房屋交易的数量也随着价格的上涨而减少。

准备训练/测试样本

我在2017-01-01拆分数据。对于所有样本，我需要把分类特征变成伪变量。

df_train <- data.frame(df  %>% filter(year>2009 & year<2017))
df_test <- data.frame(df %>% filter(year>=2017))
as.data.frame(cbind(
  df_train %>% select_if(is.numeric) %>% select(-Lng, -Lat, -year, -month),
  'bldgType'= dummy.code(df_train$buildingType),
  'bldgStruc'= dummy.code(df_train$buildingStructure),
  'renovation'= dummy.code(df_train$renovationCondition),
  'hasElevator'= dummy.code(df_train$elevator),

在这一步中，我只训练一个线性模型

regressors<-c('lm')
 
 Control <- trainControl(method = "cv",number = 5, repeats=3)
for(r in regressors){
    cnt<-cnt+1
     res[[cnt]]<-train(totalPrice ~., data = train ,method=r,trControl =  Control)

r^2在0.88左右，不错。让我们看看细节。

训练精度

g1<-ggplot(data=PRED,aes(x=Prediction,y=True)) + geom_jitter() + geom_smooth(method='lm',size=.5) +
    #计算指标
    mse <- mean((PRED$True-PRED$Prediction)^2)
    rmse<-mse^0.5
    SSE = sum((PRED$Pred - PR

## [1] "MSE: 15952.845934 RMSE : 126.304576 R2 :0.795874"

所以看起来残差还不错（分布是正态的，以0为中心），但对于低价格来说似乎失败了。

训练和测试样本的预测与时间的关系

基本上与上述相同，但我将重复预测所有月份的训练数据
我的目标指标是平均房价。
训练是在10多年的训练样本中完成的，因此逐月查看预测将非常有趣。

# 训练样本->训练精度
 
for (i in 1:length(dates_train)){
     current_df <- prepareDF(current_df)
     current_pred <- mean(predict(res[[1]],current_df))
 
#运行测试样本-->测试精度
 
for (i in 1:length(dates_test)){
     current_df <- prepareDF(current_df)
    current_pred <- mean(predict(res[[1]],current_df))

RES %>% reshape2::melt(id=c('date','split')) %>% 
  ggplot(aes(x=date,y=value)) + geom_line(aes(color=variable, lty=split),size=1) +

预测对于2012年之后的数据确实非常好，这可能与有足够数据的月份相对应

改进

地理位置作为特征

下面是一个有趣的图；它显示了每个位置的总价格。在二维分布的中心，价格更高。
这个想法是计算每个房子到中心的距离，并关联一个等级/分数

BeijingLoc <- data.frame('Long'=116.4075,'Lat' = 39.904)
df3 %>% ggplot(aes(x=Lng,y=Lat)) + geom_point(aes(color=price),size=.1,alpha=.5)  + 
  theme(legend.position = 'bottom') +

线性回归和时间序列分析北京房价影响因素可视化案例（下）

建筑类型

`装修条件`

`电梯`

`地铁`

是否满_五年_

`区域`

回归模型

策略

平均价格总览

准备训练/测试样本

训练精度

训练和测试样本的预测与时间的关系

改进

地理位置作为特征

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

线性回归和时间序列分析北京房价影响因素可视化案例（下）

建筑类型

装修条件

电梯

地铁

是否满_五年_

区域

回归模型

策略

平均价格总览

准备训练/测试样本

训练精度

训练和测试样本的预测与时间的关系

改进

地理位置作为特征

热门文章

最新文章

相关课程

相关电子书

相关实验场景

`装修条件`

`电梯`

`地铁`

`区域`