【数据分享】R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析

2024-04-25 80

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_基础版，每接口每天50万次

NLP 自学习平台，3个模型定制额度 1个月

NLP自然语言处理_高级版，每接口累计50万次

简介： 【数据分享】R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析

全文链接：http://tecdat.cn/?p=27976

作者：Guojiang Zhao

数据量大，数据要进行清洗以及预处理，同时要多方面可视化，要探索多变量对因变量的影响。

解决方案

用R语言读取数据（查看文末了解数据获取方式），对数据进行清洗合并以及预处理，数据可视化，特征工程以及变量选择，建模，交叉验证，模型评价。

任务/目标

对价格进行预测并且比较

特征转换

处理缺失值（对缺失值进行插值以及取均值进行处理，同时去掉一些缺失较少的数据行）

将因子变量变为数值型变量好做best subset selection来进行特征选择等等

可视化

运用nlp以及词云可视化

点击标题查阅往期内容

R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

构造

以上说明了如何抽取相关特征，我们大致有如下训练样本（只列举部分特征）。

划分训练集和测试集

训练集70%和测试集30%

变量选择：best subset selection

选取5个最佳的变量

建模

预测价格

多元回归分析
GAM模型（平滑样条，多项式回归，三次样条）
不同变量通过cross-validation来选择哪一种模型是cv.error最小的

如图：

最后得到最终的一个模型

回归决策树

剪枝后

预测

三个模型中分别对price预测

模型比较：

比较预测值和实际值的RMSE，选取最优模型

三个模型price预测值与实际值

比较：

可以看出，GAM模型是三个模型中最适合的，然后可以依据该模型对price进行预测。

【数据分享】R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析

全文链接：http://tecdat.cn/?p=27976

作者：Guojiang Zhao

解决方案

任务/目标

特征转换

可视化

构造

划分训练集和测试集

建模

预测价格

回归决策树

预测

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【数据分享】R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析

全文链接：http://tecdat.cn/?p=27976

作者：Guojiang Zhao

解决方案

任务/目标

特征转换

可视化

构造

划分训练集和测试集

建模

预测价格

回归决策树

预测

热门文章

最新文章

相关课程

相关电子书

相关实验场景