本场景采用阿里云大数据计算服务MaxCompute,大数据治理平台DataWorks。通过本教程的操作,带您体验如何通过围绕社交用户发布的文章进行详尽的分析,能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。

从10万条已经脱敏的数据中发现数据背后的秘密。

需求1:2017年10月发送推文最多的10个城市是哪几个?这几个城市的用户共计发送了多少条推文?

需求2:2017年10月所有用户中性别男女比例是多少?

需求3:2017年10月所有用户年龄分布图集中趋势如何?

需求4:2017年10月哪些事件在互联网上热议,最热门的三个事件是什么

需求5:2017年10月最热门的话题是哪个年龄段的用户讨论的

实验步骤

  1. 数据导入
  2. 数据分析
  3. 数据可视化

背景知识

2017年下半年的热门话题概括为

  1. 诺贝尔奖
  2. 麦当劳改名金拱门
  3. 十九大召开
  4. 拉斯维加斯持枪杀人事件
  5. 美国推出联合国教科文组织
  6. 鹿晗新女友
  7. 羞羞的铁拳上映

提取关键字为:诺贝尔、金拱门、十九大、拉斯维加斯、教科文、鹿晗、羞羞的铁拳。

本场景主要涉及以下云产品和服务:

MaxCompute是面向分析的企业级SaaS模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效的分析处理海量数据。数以万计的企业正基于MaxCompute进行数据计算与分析,将数据高效转换为业务洞察。

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。作为阿里巴巴数据中台的建设者,DataWorks从2009年起不断沉淀阿里巴巴大数据建设方法论,同时与数万名政务/金融/零售/互联网/能源/制造等客户携手,助力产业数字化升级。

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等