开发者学堂课程【场景实践-阿里云 Quick BI 在房源的画像分析上的应用:房源画像实验演示(上)】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/525/detail/7084
房源画像实验演示(上)
内容介绍:
一、任务背景
二、房源画像建设
三、实验前准备
四、模型构建及数据准备
五、实验步骤2∶构建房屋基础模型
六、实验步骤2∶构建辅助模型(1)
本节具体介绍房源画像项目的任务以及模型构建过程,以便后期实验。
一、任务背景
ihouse 是一家二手房交易中介公司,公司数据库中沉淀大量二手房相关房屋楼盘基础信息、业主委托、经纪人运营数据,及公司门户网站、APP 应用注册、访问信息等都在线性企业中。因为数据分散在不同的数据库中,不方便产品、运营、分析、算法人员使用。公司希望数据仓库团队能够将散落在各个系统、各个业务环节的房屋、房源及相关经纪人运营数据整合起来,形成统一的画像信息,完善房源画像信息,整合成统一实体供应用,以支持产品迭代、提高运营效率、方便数据分析并为算法人员提供完备特征数据,进行深度分析探索。为日后统计查询分析挖掘。在画像基础上,希望数据仓库团队提供常用维度上的分析报表,满足日常运营报表需求。
二、房源画像建设
任务1∶根据对房屋、房源业务及数据的介绍,使用 DatalDE 利用 Maxompute 产品,完成房源画像建设。
任务2︰结合画像信息从不同维度统计相关报表数据,并结合Quick BI产品进行报表设计开发。如按月统计房源录入量/按维护人、录入维护房源量/等
第一步首先开通产品服务,需要认证注册
第二步将数据上传到实验环境中
第三步进行画像的模型建设、数据处理、数据加工
第四步报表的设计与开发
三、实验前准备
1、账号注册:
·登录∶www.aliyun.com
·填写会员名、设置密码等信息
·阅读服务条款等规则、规定,确认同意
·其他辅助信息
2、实名认证:
·进入“实名认证”界面,完成信息填写(不实名认证,无权限使用阿里云产品)﹔
·填写认证类型,选择“个人”或“企业"
·系统自动审核信息,完成认证
3、开通服务:
·通过管理控制台,创建密钥对(方便后期的客户端配置或者产品应用权限设置)
·进入阿里云
MaxCompute 产品首页,开通服务,配置相关信息(填写相关属性例如预付费等)
·开通“数加.大数据开发套件”服务
·开通 Quick BI 服务
·配置 OdpsCmd 客户端(账号注册实名认证后将环境搭建好)
四、模型构建及数据准备
有两种方式,一种通过 Data lDE 统一的开发控制台,导入数据源可视化效果较好,操作较方便。但在实际处理过程中若数据量较大,建议通过客户端上传,因为前台导入有一定数据量限制。
Data lDE :
1)登录开发套件
2)创建项目(需要管理空间,项目为基本单元)
3)进入项目工作区
4)临时脚本开发创建数据表
5)通过数据开发界面的“导入”菜单导入本地数据
OdpsCmd 客户端︰
1)配置客户端(配置密钥对、建设项目)
2)使用脚本命令行创建数据表
3)通过 tunnel 上传数据
五、实验步骤2∶构建房屋基础模型
房屋基础信息主要包括︰
目标︰(该步相当于一个主线,围绕主线来添加辅助信息。是常见的构建模型简单思维方式)
1)将上述模型中的信息整合到房屋上作为房屋的基础信息﹔
2)由于上述各表中个别属性为枚举类型,给出各枚举值对应的具体含义整合进房屋表,减少将来使用过程中的关联或者转换操作,方便后续使用(这种表基本为模型字段,为了方便应用需要改为枚举类型,进行数字化处理。一些描述化信息例如关系型数据库在进行关系处理时进行数字化转换,处理较方便。文本分析效率较低。)
六、实验步骤2∶构建辅助模型(1)
楼盘信息︰
物业信息:
勾勒出楼盘信息后构建物业信息,物业往往与开发商、开发集团均有关系,为现实中非常真实的数据处理模型。
学校信息:如果附件有学校,楼房价格就会高,如果没有学校,房价就会打折扣
社区信息:好的社区就会引导好的社会环境,也是比较关注的辅助信息之一。
交通信息:地铁站建在楼盘下会影响。地铁站信息、地铁线信息、两者间关系,交通是否发达等
证件相关信息:房源的证件信息,将信息逐渐进行梳理。
房屋行为相关信息:房屋挂牌后调价的记录次数、房源钥匙的使用情况、看房情况、专业人士对房屋的评价等都是与房屋行为相关的信息。