大数据全真案例带你来解密如何挑选“风水宝地”

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:


几年前有一首叫做《风生水起》的歌,小小地火过一阵子,如今如日中天的麦玲玲风水运程大师,被农夫组合直接唱到歌词里,虽有几分戏谑,但确实借由此歌走进大众视野——


风生水起

农夫组合


玲玲出嚟又睇掌喇

睇掌睇掌睇相

急急如律令

一命二运三风水

究竟点解

佢出世嗰时含住条金锁匙

究竟为什么

他出生的时候就含着金钥匙

又点解

我成间屋仲细过佢个坐厕

又为什么

我整间屋子比他的坐厕还要小

又点解

我次次买六合彩时中得一个字

又为什么

我每次买六合彩只中一个字



都说投胎是个技术活,为什么有人含着金汤匙天生的宝玉良缘,为什么有人坎坷一生蹉跎半世。

同样的,做生意是一件很奇怪的事情,有人赚有人亏。有些店铺装修堂皇,地段人流量大,但就是赚不了钱,做什么亏什么,但有的人天生一副“大发”命,一路旺旺旺,这究竟是为什么呢?

简单一句话——店铺风水很重要。

谁不想发,那就让大数据来帮你分析论道,到底如何才能精准选址,找到最好的风水宝地:

过去由于数据和技术的局限性,大部分企业在商业选址中仅仅考虑局部的因素(人口、交通便捷性),而随着DT时代的到来,考虑的因素将变得更为全面。

比如,星巴克在过去的门店选址中,通常只考虑门店周边的客流量和交通便捷性,但现在不仅增加对商圈环境、人口密度的考虑,还会运用GIS技术分析周边人群教育水平和高收入群占比。

可见,大数据+商业选址将会是重要的发展方向。下面就以原力大数据将一个大型房地产商业选址为例,揭秘大数据如何帮助企业挑选一个稳赚一个亿的“风水宝地”!


案例目标简介

某公司计划建设集休闲娱乐于一体的商圈,候选区域为广东东莞的万荟时代、长盛广场、远大城市广场、环球贸易城,目标是挑选出可获得最大利润的最佳区域。

▲候选区域分布图

根据整分合原则,逐步分解目标:

▲目标拆分思路

要找好地头,关键要看区域有效人流量、平均消费额、区域土地成本和运营成本。


确定分析思路

1.圈定候选区域客户群:只对长期在本区居住、生活的人群进行分析,保证数据代表性;

2.描绘区域客户特征画像:为洞察需求、识别有效人流做准备;

3.识别与对比区域有效人流:根据需求筛选有效人流,判断潜在客户量;

4.区域收入与成本预估:看平均消费额及有效人流量来预估收入;算地块租金、历史运营数据来预估成本;

5.对比分析最佳区域:综合收入和成本,找出企业可获利润最大的区域。

开展大数据分析

一、圈定候选区域客户群

并不是所有人都是客户,要排除偶尔路过、游客等不常出没于附近区域的人群。因此,需要通过区域基站采集到的个人手机号码、记录时间、逗留时长等数据,圈定候选区域中的客户群。

1.整理候选区域内的基站信息:根据基站的经纬信息,判断基站是否位于候选区域内,整理各候选区域的基站列表;

2.提取区域中的基站数据:以个人手机号码为主键,提取候选区域的基站数据(包括了记录时间、停留时长等)

3.圈定区域中的客户群:基站记录的数据中,并非所有记录都能代表区域的人流特征(如的士司机、公交乘客等的记录),因此要对数据进行初步筛选:

记录周期:为保证数据实时准确,一般取近三个月内的数据;

逗留时长:为剔除部分记录的影响(的士司机、公交乘客),需要提出在区域

内停逗留时长小于30分钟的记录(同一区域内不同基站的合计);

最终圈定出的客户数量如下(以号码数统计):

▲圈定客户数量


二、区域客户画像分析

画像数据来源:以客户手机号码为主键,通过与运营商大数据进行拼接,获得多维度的客户数据,作为区域画像分析的基础。

下面以长盛广场为例,展开区域客户画像分析:

基础属性——性别年龄决定消费档次和爱好

以年轻男性用户为主:长盛广场的人群结构呈中间宽两端窄形态,为缓慢增长型,年轻客户占比较高,且区域中的男性占比高达65%。

与年龄交叉分析发现,长盛广场中29~48岁的男性群体比全市高5.9%,19~38岁的女性群体比全市高7%;

▲长盛广场性别年龄交叉分析表

身份特征——揭秘区域客户长什么样

 外来人口聚集地:在可识别人群类别的目标用户中,客户以外来人口群体为主,占比达40.1%。

▲长盛广场客户身份组成

长盛广场客户主要居住在大朗镇(四个候选区域均在大朗):长盛广场出现的客户主要以大朗镇为主,占比42.1%,其次8.4%住在常平镇,3.8%住在寮步镇;

▲长盛广场客户居住地分布

行为偏好分析——洞察需求,投其所好

 甜品、素食、火锅、酒店、电影是用户所关注的信息;

▲长盛广场客户关键字搜索图


三、区域有效人流分析

得出所有候选区域的用户特征后,根据企业需求和目标,制定有效客户识别规则:

基础属性:男性29-48岁,女性18-48岁;

身份特征:以个体户和商务人士为主,居住在本地即可;

行为偏好:关注的信息是电影、美食等;

根据规则筛选候选区域的有效客户,并分析各个区域的有效人流变化及分布情况,从而了解哪个区域的有效用户最多:

区域有效人流分析——潜在客户越多,潜在收入越多

万荟时代由于地处镇中心,潜在目标客户最多:万荟时代包含住宅与购物中心,周末平均人流量较其它区域高至少30%,比第二高的长盛广场高出47%;

▲候选区域有效人流量对比图

中午是人流高峰,突破业绩的好时候:不同区域的最大有效人流量均出现在13时。同时,在各个时段中万荟时代的有效人流均最多。

▲候选区域各时段有效人流量对比图

区域有效人流分布——人流集中更有利于聚人气

长盛广场有效客户较为集中:在四个候选区域中,长盛广场区域的有效客户最为集中。主要集中在长富西路,长富南路一带,均是较为成熟的区域。其余区域的用户大多较为分散。

▲候选区域有效人流量分布图

四、区域收入与成本预估

区域月平均消费值分析——客户消费高,收入才会多

长盛广场与万荟时代平均消费额最高:以全市均值为参照,各个区域的客户平均消费值均高于全市均值,其中长盛广场和万荟时代分别高出77%和66%,远多于其余两个区域。

▲区域有效客户平均消费额对比图

长盛广场与万荟时代高消费用户占比最高:在全市有效客户中,高消费用户占比为8%,而长盛广场和万荟时代中的高消费有效用户占比高达44%、40%,远高于全市均值,说明两个区域的有效人流消费能力很强。

▲区域高端有效客户占比对比图

区域地块成本估计——成本低,利润高

由于地方的租金是随时间变化的,因此现有的资料无法支持成本的计算。所以需要借助网络爬虫技术,从网上抓取区域实时的租金数据等信息。

长盛广场的租金成本最低、万荟时代租金成本最高:万荟时代租金最高,高达300元/m²·月,长盛广场租金最低,低至30元/m²·月。

▲区域租金信息对比图

五、对比分析最佳区域

结合收入与成本选定最佳区域

根据前文结论可知,最终比较的是长盛广场与万荟时代,其中:

有效人流量:万荟时代的区域有效人流量高出长盛广场47%,但长盛广场的有效人流比万荟时代更集中;

平均消费额:长盛广场有效人流月均消费额比万荟时代高出7%;

运营成本:长盛广场的最高租金仅仅是万荟时代的最低值,所以万荟时代的成本要远高出长盛广场;

区域发展定位:长盛广场更符合公司休闲娱乐与一体的商圈定位;

结论:万荟时代能为企业带来的收入要略高于长盛广场,但长盛广场成本要远低于万荟时代,因此推荐企业选取长盛广场建立商圈。

原文发布时间为:2017-02-16

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
56 3
|
2月前
|
分布式计算 监控 大数据
大数据-131 - Flink CEP 案例:检测交易活跃用户、超时未交付
大数据-131 - Flink CEP 案例:检测交易活跃用户、超时未交付
87 0
|
2月前
|
消息中间件 关系型数据库 MySQL
大数据-117 - Flink DataStream Sink 案例:写出到MySQL、写出到Kafka
大数据-117 - Flink DataStream Sink 案例:写出到MySQL、写出到Kafka
206 0
|
2月前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
73 0
|
2月前
|
SQL 分布式计算 NoSQL
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
37 1
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
|
2月前
|
分布式计算 大数据 Linux
大数据体系知识学习(二):WordCount案例实现及错误总结
这篇文章介绍了如何使用PySpark进行WordCount操作,包括环境配置、代码实现、运行结果和遇到的错误。作者在运行过程中遇到了Py4JJavaError和JAVA_HOME未设置的问题,并通过导入findspark初始化和设置环境变量解决了这些问题。文章还讨论了groupByKey和reduceByKey的区别。
44 1
|
2月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
53 3
|
2月前
|
存储 大数据 分布式数据库
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
49 1
|
2月前
|
消息中间件 druid 大数据
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)
42 2
|
2月前
|
消息中间件 分布式计算 druid
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
62 1