房源画像实验演示(上)|学习笔记

简介: 快速学习房源画像实验演示(上)

开发者学堂课程【场景实践-阿里云 Quick BI 在房源的画像分析上的应用房源画像实验演示(上)】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/525/detail/7084


房源画像实验演示(上)


内容介绍:

一、任务背景

二、房源画像建设

三、实验前准备

四、模型构建及数据准备

五、实验步骤2∶构建房屋基础模型

六、实验步骤2∶构建辅助模型(1)


本节具体介绍房源画像项目的任务以及模型构建过程,以便后期实验。


一、任务背景

ihouse 是一家二手房交易中介公司,公司数据库中沉淀大量二手房相关房屋楼盘基础信息、业主委托、经纪人运营数据,及公司门户网站、APP 应用注册、访问信息等都在线性企业中。因为数据分散在不同的数据库中,不方便产品、运营、分析、算法人员使用。公司希望数据仓库团队能够将散落在各个系统、各个业务环节的房屋、房源及相关经纪人运营数据整合起来,形成统一的画像信息,完善房源画像信息,整合成统一实体供应用,以支持产品迭代、提高运营效率、方便数据分析并为算法人员提供完备特征数据,进行深度分析探索。为日后统计查询分析挖掘。在画像基础上,希望数据仓库团队提供常用维度上的分析报表,满足日常运营报表需求。

image.png


二、房源画像建设

任务1∶根据对房屋、房源业务及数据的介绍,使用 DatalDE 利用 Maxompute 产品,完成房源画像建设。

任务2︰结合画像信息从不同维度统计相关报表数据,并结合Quick BI产品进行报表设计开发。如按月统计房源录入量/按维护人、录入维护房源量/等

第一步首先开通产品服务,需要认证注册

第二步将数据上传到实验环境中

第三步进行画像的模型建设、数据处理、数据加工

第四步报表的设计与开发


三、实验前准备

1、账号注册:

·登录∶www.aliyun.com

·填写会员名、设置密码等信息

·阅读服务条款等规则、规定,确认同意

·其他辅助信息

2、实名认证:

·进入“实名认证”界面,完成信息填写(不实名认证,无权限使用阿里云产品)﹔

·填写认证类型,选择“个人”或“企业"

·系统自动审核信息,完成认证

3、开通服务:

·通过管理控制台,创建密钥对(方便后期的客户端配置或者产品应用权限设置)

·进入阿里云

MaxCompute 产品首页,开通服务,配置相关信息(填写相关属性例如预付费等)

·开通“数加.大数据开发套件”服务

·开通 Quick BI 服务

·配置 OdpsCmd 客户端(账号注册实名认证后将环境搭建好)


四、模型构建及数据准备

有两种方式,一种通过 Data lDE 统一的开发控制台,导入数据源可视化效果较好,操作较方便。但在实际处理过程中若数据量较大,建议通过客户端上传,因为前台导入有一定数据量限制。

Data lDE :

1)登录开发套件

2)创建项目(需要管理空间,项目为基本单元)

3)进入项目工作区

4)临时脚本开发创建数据表

5)通过数据开发界面的“导入”菜单导入本地数据

OdpsCmd 客户端︰

1)配置客户端(配置密钥对、建设项目)

2)使用脚本命令行创建数据表

3)通过 tunnel 上传数据


五、实验步骤2∶构建房屋基础模型

房屋基础信息主要包括︰

image.png

目标︰(该步相当于一个主线,围绕主线来添加辅助信息。是常见的构建模型简单思维方式)

1)将上述模型中的信息整合到房屋上作为房屋的基础信息﹔

2)由于上述各表中个别属性为枚举类型,给出各枚举值对应的具体含义整合进房屋表,减少将来使用过程中的关联或者转换操作,方便后续使用(这种表基本为模型字段,为了方便应用需要改为枚举类型,进行数字化处理。一些描述化信息例如关系型数据库在进行关系处理时进行数字化转换,处理较方便。文本分析效率较低。)


六、实验步骤2∶构建辅助模型(1)

楼盘信息︰

image.png

物业信息:

image.png

勾勒出楼盘信息后构建物业信息,物业往往与开发商、开发集团均有关系,为现实中非常真实的数据处理模型。

学校信息:如果附件有学校,楼房价格就会高,如果没有学校,房价就会打折扣

image.png

社区信息:好的社区就会引导好的社会环境,也是比较关注的辅助信息之一。

image.png

交通信息:地铁站建在楼盘下会影响。地铁站信息、地铁线信息、两者间关系,交通是否发达等

image.png

证件相关信息:房源的证件信息,将信息逐渐进行梳理。

image.png

房屋行为相关信息:房屋挂牌后调价的记录次数、房源钥匙的使用情况、看房情况、专业人士对房屋的评价等都是与房屋行为相关的信息。

image.png

相关文章
|
传感器 监控 BI
基于STM32的智能垃圾分类系统设计与实现
基于STM32的智能垃圾分类系统设计与实现
925 0
|
vr&ar
USDZ/OBJ格式在线转换
3D模型在线转换是一个可以进行3D模型格式转换的在线工具,支持多种3D模型格式进行在线预览和互相转换。
659 0
USDZ/OBJ格式在线转换
|
弹性计算 云计算
记录下考Apsara Clouder云计算专项技能认证:云服务器ECS入门过程
Apsara Clouder云计算专项技能认证:云服务器ECS入门
37760 4
记录下考Apsara Clouder云计算专项技能认证:云服务器ECS入门过程
|
SQL 关系型数据库 MySQL
阿里云MySQL数据库价格、购买、创建账号密码和连接数据库教程
阿里云数据库使用指南:购买MySQL、SQL Server等RDS实例,选择配置和地区,完成支付。创建数据库和账号,设置权限。通过DMS登录数据库,使用账号密码访问。同地域VPC内的ECS需将IP加入白名单以实现内网连接。参考链接提供详细步骤。
1456 3
|
8月前
|
机器学习/深度学习 数据采集 人工智能
容器化机器学习流水线:构建可复用的AI工作流
本文介绍了如何构建容器化的机器学习流水线,以提高AI模型开发和部署的效率与可重复性。首先,我们探讨了机器学习流水线的概念及其优势,包括自动化任务、确保一致性、简化协作和实现CI/CD。接着,详细说明了使用Kubeflow Pipelines在Kubernetes上构建流水线的步骤,涵盖安装、定义流水线、构建组件镜像及上传运行。容器化流水线不仅提升了环境一致性和可移植性,还通过资源隔离和扩展性支持更大规模的数据处理。
|
SQL 分布式计算 DataWorks
MaxCompute产品使用合集之DataWorks体验案例绑定如何绑定到正确的maxcomputer引擎上
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
Python
SyntaxError :invalid syntax错误解决办法
SyntaxError :invalid syntax错误解决办法
3614 1
|
机器学习/深度学习 分布式计算 监控
在大数据模型训练中,关键步骤包括数据收集与清洗、特征工程、数据划分;准备分布式计算资源
【6月更文挑战第28天】在大数据模型训练中,关键步骤包括数据收集与清洗、特征工程、数据划分;准备分布式计算资源,选择并配置模型如深度学习架构;通过初始化、训练、验证进行模型优化;监控性能并管理资源;最后保存模型并部署为服务。过程中要兼顾数据隐私、安全及法规遵守,利用先进技术提升效率。
362 0
|
数据挖掘 BI 开发者
房源画像实验演示(下)|学习笔记
快速学习房源画像实验演示(下)
409 0
房源画像实验演示(下)|学习笔记
|
DataWorks 关系型数据库 MySQL
可以使用DataWorks的数据同步任务(DTS)来实现实时同步
可以使用DataWorks的数据同步任务(DTS)来实现实时同步
726 2