不同地域的内容偏好性分析

简介: 不同地域的内容偏好性分析 摘要:本报告简要分析了中国不同省市的用户对于凤凰网各主要频道的浏览偏好,以期为进一步的内容设置、区域营销及广告投放提供参考。主要结论如下:1)    中国不同省市用户的内容偏好性有比较明显的差异,同时在各大区域之内又显示出一定的一致性。

不同地域的内容偏好性分析

 

摘要:

本报告简要分析了中国不同省市的用户对于凤凰网各主要频道的浏览偏好,以期为进一步的内容设置、区域营销及广告投放提供参考。主要结论如下:

1)    中国不同省市用户的内容偏好性有比较明显的差异,同时在各大区域之内又显示出一定的一致性。这一方面验证了方法的可靠性,也说明内容偏好与地理区域具有很强的关联性

2)    结果所显示的内容偏好性大体上符合预期,同时该数据也可以为进一步的分析提供一些参考

3)    该方法也可以用来分析短期内的趋势变化,报告中以9月份第一周为例进行了简要分析

 

一、方法简述:

 

  1. 使用2014年6月1日至8月31日共3个月的数据,得到各个省市在每个频道的总PV。3个月的时长大体上能够代表一个较为长期的偏好性,避免短期波动的干扰。由于港澳台地区和国外的用户浏览习惯与中国内地差异较大,同时凤凰网流量绝大部分来自于内地,因此这里只考虑中国内地共31个省区市的数据。频道方面,排除了凤首、视频、博客、论坛、评论等与内容喜好没有直接关联的频道,在其余频道中选取了这3个月PV排行的前11位,而将这11个以外的频道统一记为“其他”。因此,所使用表格的数据规模为31*12。
  2. 计算各省市相对于各频道的偏好性,具体的计算方法为:

 

    

 

 

    即该省市中该频道的PV占比与所有地区中该频道的PV占比的比值的自然对数。

    这一偏好性的度量大体上可以反映实际值与期望值的偏差。

  3.计算出偏好性以后,采用系统聚类的方法对省市和频道分别进行聚类,以进一步研究内容偏好与地域的关联性。聚类算法中,两偏好性向量间的距离采用欧氏距离来度量

 

二、结果展示与分析:

 

不同省市用户对不同频道的偏好性一览

 

 

表1:不同省市用户对不同频道的偏好性。省市与频道都按照这3个月的PV降序排列。表中数据表示偏好性,其中红色越深表示正向偏好性越强,蓝色越深表示负向偏好性越强,即越倾向于不浏览该频道,越接近白色表示偏好性越弱

 

从表中可以看到,频道偏好与省市之间有着很强的相关性,不同省市用户的频道偏好相差很大。例如,同样是军事频道,四川、浙江、广东等地的用户显示出明显的正向偏好,而山西、内蒙古、吉林等地的用户就显示了明显的负向偏好。又如,财经频道偏好性最强的3个省市分别是上海、北京、浙江,基本符合预期,这也初步验证了偏好性度量的合理性。

 

2.利用频道偏好性对省市进行聚类

利用上面得到的偏好性,利用系统聚类的方法对省市进行聚类,结果如下图:

 

图1:利用频道偏好性数据对省市进行聚类,并大致分为5个簇,用不同颜色表示。

 

将所得到的聚类结果大致分为5个簇,并在中国地图中对这5个簇进行标示:

 

图2:地图上对聚类所得到的5个簇进行标示。其中港澳台地区的数据未予计入,标为白色。

 

可以看到,聚类结果与通常意义上的地理大区基本吻合,说明频道浏览偏好与地区之间有很强的偏好性。同时也再次验证了偏好性度量与聚类方法的可靠性。

 

3.利用地域偏好性对频道进行聚类

采用类似方法,对频道进行聚类,其中将“其他”频道的数据去除,只分析11个主要频道的结果。聚类结果如下:

 

图3:利用地域偏好性对频道聚类的结果

 

其中距离越近的频道,说明在地域喜好上越一致。

 

  1. 具体分析

首先根据省市和频道两个维度的聚类结果,将表1重新排列,以便具体分析:

 

表2:按照聚类结果对表1重新排列,并对省市进行颜色标示,表中数据与表1完全相同。

 

具体地,省市聚类所得到的5个簇分别为:

a)    京津沪三大直辖市,即红色区域

这一区域的用户,在财经、房产、体育等频道有很强的正向偏好,而在资讯、汽车频道为负向偏好

b)    北方地区,即砖红色区域

包括东北、华北、西北的大部分地区。这一区域的用户在资讯、历史频道有正向偏好,而在军事、游戏、房产、财经频道为明显的负向偏好

c)     西南地区,即绿色区域

包括四川、云南、贵州、西藏4个省区。这一区域用户在汽车频道有很强的正向偏好,在游戏、时尚频道也有较为明显的正向偏好,而在娱乐、财经、科技频道大体为负向偏好

d)    华南地区,即蓝色区域

包括广东、广西、海南3个省区。这一区域的用户总体而言在资讯、军事、游戏频道有正向偏好,在历史频道有很明显的负向偏好,同时房产和时尚频道也为负向偏好

e)    中东部地区,即紫色区域

包括华中和华东的大部分地区。这一区域总体上在军事、游戏、房产、历史等频道有正向偏好,在资讯、科技等频道有负向偏好

 

在不同的频道之间,也能看出明显的地域差异性。如军事、游戏和房产频道,明显在南方地区比较受欢迎,而资讯频道在北方地区和华南一带更受欢迎。如下图:

 

图4:资讯和军事频道的偏好性地图。同样红色表示正向偏好,蓝色表示负向偏好。港澳台地区的数据没有计入分析,一律显示为白色。

 

  1. 短期趋势

以上分析都是基于3个月的数据,大体上可以反映比较长期的偏好性,可以作为背景参考值,进而分析较为短期的趋势。

这里选取了2014年9月1日至7日这一周的数据,用同样的方法计算了每个省市对每个频道的偏好性,得到这一周偏好性与背景值的差值,以分析这一周新的趋势。结果如下表:

 

表3:9月1日至7日这一周内各省市频道偏好性与背景值的差值。

 

这里对偏好性上升很多的几个作一点简要分析:

a)    西藏—科技频道

引起这一周西藏自治区在科技频道PV上涨的主要因素是一个图集(表中PV为这一周该图集在西藏的总PV,根据sample97的数据估计):

URL

标题

PV(估)

http://tech.ifeng.com/a/20140901/40781003_0.shtml

开着特斯拉去西藏DAY4:特斯拉成功翻越唐古拉山

8,576

由于西藏自治区在科技频道的PV基数很小,之前3个月的周均PV为22,549,因此受这个帖子的影响还是比较大的。

b)    宁夏—房产频道

这一周宁夏回族自治区在房产频道PV上涨主要由这一篇报道引起:

URL

标题

PV(估)

http://house.ifeng.com/industry/observation/
detail_2014_09/05/38657538_0.shtml

宁夏一大型房产中介公司突然关闭 引发大批购房者恐慌

9,124

类似地,宁夏回族自治区在房产频道的周均PV为381,339,因此受影响较大。

c)     上海—财经频道

这一周上海在财经频道的PV上涨,没有找到明显地引起PV上涨的页面,不过认为有可能与近期亚马逊入驻等自贸区相关报道增多,自贸区关注度比较高有关。这一周全站中标题含有“自贸区”字样的文章的日均总PV为41,821,大幅高于之前3个月的日均数值(21,262)。

d)    山西—财经频道

这一周财经频道在山西省PV最高的5个页面是:

URL

标题

PV(估)

http://finance.ifeng.com/a/20140901/13034188_0.shtml

媒体称山西最大企业晋能集团“一二把手”被带走(图)

117,665

http://finance.ifeng.com/

 

79,929

http://finance.ifeng.com/a/20140903/13051676_0.shtml

山西煤炭现巨贪老友圈:全省最大国企“一把手”被查

75,856

http://finance.ifeng.com/a/20140904/13059036_0.shtml

山西兰花集团原董事长失联 与金道铭姐妹花情人相关

65,766

http://finance.ifeng.com/a/20140906/13074031_0.shtml

山西反腐引企业危机潮:邢利斌90后独子接任联盛掌门

35,992

内容基本都与反腐有关,因此认为应该是由前段时间山西官场地震所引起。

 

三、总结

 

在本项报告中,对地域与频道喜好之间的关联性作了初步的分析。结果也表明了两者之间确实有比较强的关联,因此可以在这一方向上作进一步的分析。关于这一方法的改进方向,目前认为,这里选用的偏好性度量方法没有采用PV占比等相对简单的方式,主要是希望避免一些流量相对较小的省市和频道的偏好性被掩盖。但相应地也有一定的弊端,就是对于流量非常少的省市和频道来说,即使选择了较长的时间段,仍然具有较大的偶然性,其偏好性波动会很大,数据很容易凸显出来。因此如何更好地衡量偏好性,是可以进一步考虑的问题。而除偏好性度量之外,频道选择和聚类方法对聚类结果的影响也比较大,因此对算法细节的设置也需要更加准确合理。

同时更重要的,是需要考虑这里的分析如何能够真正帮助网站运营优化,目前想到的有这几个方面:

  1. 内容设置方面,可以根据地域偏好性作一些调整
  2. 帮助更有针对性地进行品牌推广
  3. 帮助优化广告的销售,对于那些地域性较强的广告主,营销上可以更有选择性
  4. 类似的方法也可以移植到新闻客户端,从而对内容的个性化推荐等提供参考

 

目录
相关文章
|
消息中间件 文字识别 PHP
批量名片识别解决方案
批量对名片图片进行识别,并保存在数据库中,识别完成后并完成消息通知
327 1
|
4月前
|
算法 搜索推荐
推荐系统,推荐算法01,是首页频道推荐,一个是文章相似结果推荐,用户物品画像构建就是用户喜欢看什么样的文章,打标签,文章画像就是有那些重要的词,用权重和向量表示,推荐架构和业务流
推荐系统,推荐算法01,是首页频道推荐,一个是文章相似结果推荐,用户物品画像构建就是用户喜欢看什么样的文章,打标签,文章画像就是有那些重要的词,用权重和向量表示,推荐架构和业务流
|
6月前
|
弹性计算 运维 搜索推荐
|
6月前
|
机器学习/深度学习 数据处理 API
视觉智能平台常见问题之通用图像打标位置报警告如何解决
视觉智能平台是利用机器学习和图像处理技术,提供图像识别、视频分析等智能视觉服务的平台;本合集针对该平台在使用中遇到的常见问题进行了收集和解答,以帮助开发者和企业用户在整合和部署视觉智能解决方案时,能够更快地定位问题并找到有效的解决策略。
视觉智能平台常见问题之通用图像打标位置报警告如何解决
|
关系型数据库 分布式数据库 数据库
沉浸式学习PostgreSQL|PolarDB 8: 电商|短视频|新闻|内容推荐业务(根据用户行为推荐相似内容)、监控预测报警系统(基于相似指标预判告警)、音视图文多媒体相似搜索、人脸|指纹识别|比对 - 向量搜索应用
1、在电商业务中, 用户浏览商品的行为会构成一组用户在某个时间段的特征, 这个特征可以用向量来表达(多维浮点数组), 同时商品、店铺也可以用向量来表达它的特征. 那么为了提升用户的浏览体验(快速找到用户想要购买的商品), 可以根据用户向量在商品和店铺向量中进行相似度匹配搜索. 按相似度来推荐商品和店铺给用户. 2、在短视频业务中, 用户浏览视频的行为, 构成了这个用户在某个时间段的兴趣特征, 这个特征可以用向量来表达(多维浮点数组), 同时短视频也可以用向量来表达它的特征. 那么为了提升用户的观感体验(推荐他想看的视频), 可以在短视频向量中进行与用户特征向量的相似度搜索.
315 0
|
监控 开发者
网站流量日志分析背景介绍—如何进行网站分析-转化分析(漏斗模型)|学习笔记
快速学习网站流量日志分析背景介绍—如何进行网站分析-转化分析(漏斗模型)
167 0
网站流量日志分析背景介绍—如何进行网站分析-转化分析(漏斗模型)|学习笔记
|
数据采集 监控 前端开发
网站流量日志分析背景介绍- - 如何进行网站分析--流量分析(质量、多维细分)|学习笔记
快速学习网站流量日志分析背景介绍- -如何进行网站分析--流量分析(质量、多维细分)
238 0
网站流量日志分析背景介绍- - 如何进行网站分析--流量分析(质量、多维细分)|学习笔记
|
监控 开发者
网站流量日志分析背景介绍— 如何进行网站分析--内容导航分析|学习笔记
快速学习网站流量日志分析背景介绍—如何进行网站分析--内容导航分析
113 0
网站流量日志分析背景介绍— 如何进行网站分析--内容导航分析|学习笔记
|
存储 SQL 搜索推荐
如何构建用户画像,给用户打“标签”?2
如何构建用户画像,给用户打“标签”?2
487 0
如何构建用户画像,给用户打“标签”?2
|
监控 定位技术
老司机教你分析日志:分析用户的地理位置信息
地理位置的需求 通常我们分析用户的需求,了解到用户当前位置在哪里非常重要,例如,可以根据用户的地理位置,针对性的推广本地广告。 通常,我们可以在客户端获取定位权限来获取GPS信息。但是如果用户关闭了定位呢?如何获取呢?我们还有另外一种方法,就是通过用户当前的IP来定位。
4242 0