线性回归和时间序列分析北京房价影响因素可视化案例(下)

简介: 线性回归和时间序列分析北京房价影响因素可视化案例

线性回归和时间序列分析北京房价影响因素可视化案例(上):https://developer.aliyun.com/article/1490584


建筑类型

makeEDA('buildingType' )


  • 平房是最昂贵的

装修条件

电梯

  • 价格对电梯的依赖性非常小
  • 住宅的分布与这一特征是相对相等的。

地铁

  • 价格对地铁站附近的依赖性非常小。
  • 住宅的分布与这一特征是相对相等的。


是否满_五年_

makeFeatureCatEDA('fiveYearsProperty', length(unique(df3$fiveYearsProperty)))


  • 对于是否拥有不到5年房产来说,价格的依赖性确实很小
  • 就这一特征而言,房子的分布是相对平等的

区域


回归模型


策略


  • 从tradeTime中提取年份和月份
  • 按年度和月份分组,得到房屋的数量和均价
  • 拆分数据集:
  • 对于年[2010-2017]=在这组年上训练并运行回归模型
  • 对于>2017年:逐月对测试样本并预测平均价格


平均价格总览


首先我们需要看看我们想要预测什么

df3$year <- year(df3$tradeTimeTs)
df3$month <- month(df3$tradeTimeTs)


df3 %>% filter(year>2009) %>% group_by(monthlyTrad) %>% 
  summarise(count=n(), mean = mean(price)) %>% 
  ggplot(aes(x=monthlyTradeTS, y= mean)) +


  • 平均价格上涨至2017年中期,然后迅速下降
  • 同时,房屋数量随着价格的上涨而增加,而且现在房屋交易的数量也随着价格的上涨而减少。


准备训练/测试样本


我在2017-01-01拆分数据。对于所有样本,我需要把分类特征变成伪变量。

df_train <- data.frame(df  %>% filter(year>2009 & year<2017))
df_test <- data.frame(df %>% filter(year>=2017))
as.data.frame(cbind(
  df_train %>% select_if(is.numeric) %>% select(-Lng, -Lat, -year, -month),
  'bldgType'= dummy.code(df_train$buildingType),
  'bldgStruc'= dummy.code(df_train$buildingStructure),
  'renovation'= dummy.code(df_train$renovationCondition),
  'hasElevator'= dummy.code(df_train$elevator),


在这一步中,我只训练一个线性模型

regressors<-c('lm')
 
 Control <- trainControl(method = "cv",number = 5, repeats=3)
for(r in regressors){
    cnt<-cnt+1
     res[[cnt]]<-train(totalPrice ~., data = train ,method=r,trControl =  Control)


r^2在0.88左右,不错。让我们看看细节。


训练精度

g1<-ggplot(data=PRED,aes(x=Prediction,y=True)) + geom_jitter() + geom_smooth(method='lm',size=.5) +
    #计算指标
    mse <- mean((PRED$True-PRED$Prediction)^2)
    rmse<-mse^0.5
    SSE = sum((PRED$Pred - PR


## [1] "MSE: 15952.845934 RMSE : 126.304576 R2 :0.795874"


  • 所以看起来残差还不错(分布是正态的,以0为中心),但对于低价格来说似乎失败了。


训练和测试样本的预测与时间的关系


  • 基本上与上述相同,但我将重复预测所有月份的训练数据
  • 我的目标指标是平均房价。
  • 训练是在10多年的训练样本中完成的,因此逐月查看预测将非常有趣。
# 训练样本->训练精度
 
for (i in 1:length(dates_train)){
     current_df <- prepareDF(current_df)
     current_pred <- mean(predict(res[[1]],current_df))
 
#运行测试样本-->测试精度
 
for (i in 1:length(dates_test)){
     current_df <- prepareDF(current_df)
    current_pred <- mean(predict(res[[1]],current_df))


RES %>% reshape2::melt(id=c('date','split')) %>% 
  ggplot(aes(x=date,y=value)) + geom_line(aes(color=variable, lty=split),size=1) +


  • 预测对于2012年之后的数据确实非常好,这可能与有足够数据的月份相对应


改进


地理位置作为特征


  • 下面是一个有趣的图;它显示了每个位置的总价格。在二维分布的中心,价格更高。
  • 这个想法是计算每个房子到中心的距离,并关联一个等级/分数
BeijingLoc <- data.frame('Long'=116.4075,'Lat' = 39.904)
df3 %>% ggplot(aes(x=Lng,y=Lat)) + geom_point(aes(color=price),size=.1,alpha=.5)  + 
  theme(legend.position = 'bottom') +


相关文章
|
2月前
|
传感器 运维 监控
中小容量电力设备选型指南:计量型免维护呼吸器的核心价值
针对35kV-500kV中小容量变压器等设备,计量型免维护呼吸器集成高效吸湿、实时监测与智能预警功能,标配工业显示屏与RS485通讯,支持远程监控与系统接入,实现防潮运维从“被动处置”到“主动防控”升级,适配多种环境与协议,降低运维成本,提升供电可靠性。(239字)
163 0
|
8月前
|
人工智能 开发框架 自然语言处理
企业级AI搜索解决方案:阿里云AI搜索开放平台
本文介绍了 阿里云 AI 搜索开放平台作提供丰富的 AI 搜索组件化服务,兼容主流开发框架 LangChain和 LlamaIndex,支持搜索专属大模型、百炼等大模型服务,以及 Elasticsearch、Havenask 等开源引擎。用户可灵活调用多模态数据解析、大语言模型、效果测评等数十个服务,实现智能搜索、检索增强生成(RAG)、多模态搜索等场景的搭建。
680 0
|
6月前
|
存储 缓存 测试技术
阿里云服务器经济型e实例怎么样?性能、价格与适用场景全解析
阿里云服务器经济型e实例2核2G3M带宽40G ESSD Entry云盘价格只要99元1年,而且续费不涨价。经济型e实例是阿里云面向个人开发者、学生以及小微企业推出的一款入门级云服务器。这款实例以其高性价比和灵活的配置,迅速赢得了市场的青睐。那么,阿里云服务器经济型e实例到底怎么样?是否值得购买呢?本文将为您解析经济型e实例的性能、价格与适用场景,以供参考。
|
10月前
|
机器学习/深度学习 人工智能 运维
即刻拥有DeepSeek-R1满血版:开启云端算力新时代,赋能企业无限可能
DeepSeek-R1满血版云服务器,搭载最新Intel/AMD处理器和NVIDIA顶级GPU,算力提升300%,支持AI训练、大数据分析等高负载任务。具备弹性扩展、按需付费、99.99%高可用性及全方位安全防护,适用于AI、游戏、金融、电商、科研等场景,助力企业轻松驾驭数字化未来。新用户享首单5折、免费试用7天等优惠。立即注册,体验极致性能!
389 11
|
网络协议 Java Linux
如何解决“连接超时”的问题
当遇到“连接超时”问题时,可尝试以下方法:检查网络连接、重启路由器、清除浏览器缓存、关闭防火墙或杀毒软件、更改DNS服务器等。若问题依旧,建议联系网络服务提供商或技术人员寻求帮助。
5747 6
|
Rust 监控 编译器
解密 Python 如何调用 Rust 编译生成的动态链接库(一)
解密 Python 如何调用 Rust 编译生成的动态链接库(一)
438 2
|
机器学习/深度学习 自然语言处理 前端开发
前端大模型入门:Transformer.js 和 Xenova-引领浏览器端的机器学习变革
除了调用API接口使用Transformer技术,你是否想过在浏览器中运行大模型?Xenova团队推出的Transformer.js,基于JavaScript,让开发者能在浏览器中本地加载和执行预训练模型,无需依赖服务器。该库利用WebAssembly和WebGPU技术,大幅提升性能,尤其适合隐私保护、离线应用和低延迟交互场景。无论是NLP任务还是实时文本生成,Transformer.js都提供了强大支持,成为构建浏览器AI应用的核心工具。
2744 1
|
人工智能 算法 新能源
AI在能源管理中的应用:提升能源效率与可持续性
【9月更文挑战第24天】AI技术在能源管理中的应用,正以其独特的优势与潜力,引领着能源行业向更加智能化、高效化和可持续化的方向发展。随着技术的不断进步、政策的持续支持以及应用场景的不断拓展,AI技术将在能源管理中发挥更加重要的作用,为实现全球能源转型与可持续发展贡献更大力量。我们有理由相信,在AI技术的助力下,未来的能源管理将更加高效、智能和可持续。
1516 6
|
存储 编译器 Linux
Cython 和 Python 的区别
Cython 和 Python 的区别
544 0
|
机器学习/深度学习 存储 算法
【博士每天一篇论文-技术综述】Machine Learning With Echo State Networks 一篇系统讲解ESN知识的五星文章
本文是一篇技术报告,全面介绍了回声状态网络(ESNs)的数学模型、属性、意义、训练方法、深度ESN的发展、应用和局限性,并探讨了未来的研究方向,为理解ESNs在机器学习中的应用提供了系统性的综述。
498 3