不同地域的内容偏好性分析
摘要:
本报告简要分析了中国不同省市的用户对于凤凰网各主要频道的浏览偏好,以期为进一步的内容设置、区域营销及广告投放提供参考。主要结论如下:
1) 中国不同省市用户的内容偏好性有比较明显的差异,同时在各大区域之内又显示出一定的一致性。这一方面验证了方法的可靠性,也说明内容偏好与地理区域具有很强的关联性
2) 结果所显示的内容偏好性大体上符合预期,同时该数据也可以为进一步的分析提供一些参考
3) 该方法也可以用来分析短期内的趋势变化,报告中以9月份第一周为例进行了简要分析
一、方法简述:
- 使用2014年6月1日至8月31日共3个月的数据,得到各个省市在每个频道的总PV。3个月的时长大体上能够代表一个较为长期的偏好性,避免短期波动的干扰。由于港澳台地区和国外的用户浏览习惯与中国内地差异较大,同时凤凰网流量绝大部分来自于内地,因此这里只考虑中国内地共31个省区市的数据。频道方面,排除了凤首、视频、博客、论坛、评论等与内容喜好没有直接关联的频道,在其余频道中选取了这3个月PV排行的前11位,而将这11个以外的频道统一记为“其他”。因此,所使用表格的数据规模为31*12。
- 计算各省市相对于各频道的偏好性,具体的计算方法为:
即该省市中该频道的PV占比与所有地区中该频道的PV占比的比值的自然对数。
这一偏好性的度量大体上可以反映实际值与期望值的偏差。
3.计算出偏好性以后,采用系统聚类的方法对省市和频道分别进行聚类,以进一步研究内容偏好与地域的关联性。聚类算法中,两偏好性向量间的距离采用欧氏距离来度量
二、结果展示与分析:
不同省市用户对不同频道的偏好性一览
表1:不同省市用户对不同频道的偏好性。省市与频道都按照这3个月的PV降序排列。表中数据表示偏好性,其中红色越深表示正向偏好性越强,蓝色越深表示负向偏好性越强,即越倾向于不浏览该频道,越接近白色表示偏好性越弱
从表中可以看到,频道偏好与省市之间有着很强的相关性,不同省市用户的频道偏好相差很大。例如,同样是军事频道,四川、浙江、广东等地的用户显示出明显的正向偏好,而山西、内蒙古、吉林等地的用户就显示了明显的负向偏好。又如,财经频道偏好性最强的3个省市分别是上海、北京、浙江,基本符合预期,这也初步验证了偏好性度量的合理性。
2.利用频道偏好性对省市进行聚类
利用上面得到的偏好性,利用系统聚类的方法对省市进行聚类,结果如下图:
图1:利用频道偏好性数据对省市进行聚类,并大致分为5个簇,用不同颜色表示。
将所得到的聚类结果大致分为5个簇,并在中国地图中对这5个簇进行标示:
图2:地图上对聚类所得到的5个簇进行标示。其中港澳台地区的数据未予计入,标为白色。
可以看到,聚类结果与通常意义上的地理大区基本吻合,说明频道浏览偏好与地区之间有很强的偏好性。同时也再次验证了偏好性度量与聚类方法的可靠性。
3.利用地域偏好性对频道进行聚类
采用类似方法,对频道进行聚类,其中将“其他”频道的数据去除,只分析11个主要频道的结果。聚类结果如下:
图3:利用地域偏好性对频道聚类的结果
其中距离越近的频道,说明在地域喜好上越一致。
- 具体分析
首先根据省市和频道两个维度的聚类结果,将表1重新排列,以便具体分析:
表2:按照聚类结果对表1重新排列,并对省市进行颜色标示,表中数据与表1完全相同。
具体地,省市聚类所得到的5个簇分别为:
a) 京津沪三大直辖市,即红色区域
这一区域的用户,在财经、房产、体育等频道有很强的正向偏好,而在资讯、汽车频道为负向偏好
b) 北方地区,即砖红色区域
包括东北、华北、西北的大部分地区。这一区域的用户在资讯、历史频道有正向偏好,而在军事、游戏、房产、财经频道为明显的负向偏好
c) 西南地区,即绿色区域
包括四川、云南、贵州、西藏4个省区。这一区域用户在汽车频道有很强的正向偏好,在游戏、时尚频道也有较为明显的正向偏好,而在娱乐、财经、科技频道大体为负向偏好
d) 华南地区,即蓝色区域
包括广东、广西、海南3个省区。这一区域的用户总体而言在资讯、军事、游戏频道有正向偏好,在历史频道有很明显的负向偏好,同时房产和时尚频道也为负向偏好
e) 中东部地区,即紫色区域
包括华中和华东的大部分地区。这一区域总体上在军事、游戏、房产、历史等频道有正向偏好,在资讯、科技等频道有负向偏好
在不同的频道之间,也能看出明显的地域差异性。如军事、游戏和房产频道,明显在南方地区比较受欢迎,而资讯频道在北方地区和华南一带更受欢迎。如下图:
图4:资讯和军事频道的偏好性地图。同样红色表示正向偏好,蓝色表示负向偏好。港澳台地区的数据没有计入分析,一律显示为白色。
- 短期趋势
以上分析都是基于3个月的数据,大体上可以反映比较长期的偏好性,可以作为背景参考值,进而分析较为短期的趋势。
这里选取了2014年9月1日至7日这一周的数据,用同样的方法计算了每个省市对每个频道的偏好性,得到这一周偏好性与背景值的差值,以分析这一周新的趋势。结果如下表:
表3:9月1日至7日这一周内各省市频道偏好性与背景值的差值。
这里对偏好性上升很多的几个作一点简要分析:
a) 西藏—科技频道
引起这一周西藏自治区在科技频道PV上涨的主要因素是一个图集(表中PV为这一周该图集在西藏的总PV,根据sample97的数据估计):
URL |
标题 |
PV(估) |
http://tech.ifeng.com/a/20140901/40781003_0.shtml |
开着特斯拉去西藏DAY4:特斯拉成功翻越唐古拉山 |
8,576 |
由于西藏自治区在科技频道的PV基数很小,之前3个月的周均PV为22,549,因此受这个帖子的影响还是比较大的。
b) 宁夏—房产频道
这一周宁夏回族自治区在房产频道PV上涨主要由这一篇报道引起:
URL |
标题 |
PV(估) |
http://house.ifeng.com/industry/observation/ |
宁夏一大型房产中介公司突然关闭 引发大批购房者恐慌 |
9,124 |
类似地,宁夏回族自治区在房产频道的周均PV为381,339,因此受影响较大。
c) 上海—财经频道
这一周上海在财经频道的PV上涨,没有找到明显地引起PV上涨的页面,不过认为有可能与近期亚马逊入驻等自贸区相关报道增多,自贸区关注度比较高有关。这一周全站中标题含有“自贸区”字样的文章的日均总PV为41,821,大幅高于之前3个月的日均数值(21,262)。
d) 山西—财经频道
这一周财经频道在山西省PV最高的5个页面是:
URL |
标题 |
PV(估) |
http://finance.ifeng.com/a/20140901/13034188_0.shtml |
媒体称山西最大企业晋能集团“一二把手”被带走(图) |
117,665 |
http://finance.ifeng.com/ |
79,929 |
|
http://finance.ifeng.com/a/20140903/13051676_0.shtml |
山西煤炭现巨贪老友圈:全省最大国企“一把手”被查 |
75,856 |
http://finance.ifeng.com/a/20140904/13059036_0.shtml |
山西兰花集团原董事长失联 与金道铭姐妹花情人相关 |
65,766 |
http://finance.ifeng.com/a/20140906/13074031_0.shtml |
山西反腐引企业危机潮:邢利斌90后独子接任联盛掌门 |
35,992 |
内容基本都与反腐有关,因此认为应该是由前段时间山西官场地震所引起。
三、总结
在本项报告中,对地域与频道喜好之间的关联性作了初步的分析。结果也表明了两者之间确实有比较强的关联,因此可以在这一方向上作进一步的分析。关于这一方法的改进方向,目前认为,这里选用的偏好性度量方法没有采用PV占比等相对简单的方式,主要是希望避免一些流量相对较小的省市和频道的偏好性被掩盖。但相应地也有一定的弊端,就是对于流量非常少的省市和频道来说,即使选择了较长的时间段,仍然具有较大的偶然性,其偏好性波动会很大,数据很容易凸显出来。因此如何更好地衡量偏好性,是可以进一步考虑的问题。而除偏好性度量之外,频道选择和聚类方法对聚类结果的影响也比较大,因此对算法细节的设置也需要更加准确合理。
同时更重要的,是需要考虑这里的分析如何能够真正帮助网站运营优化,目前想到的有这几个方面:
- 内容设置方面,可以根据地域偏好性作一些调整
- 帮助更有针对性地进行品牌推广
- 帮助优化广告的销售,对于那些地域性较强的广告主,营销上可以更有选择性
- 类似的方法也可以移植到新闻客户端,从而对内容的个性化推荐等提供参考