本场景采用阿里云大数据计算服务MaxCompute,大数据治理平台DataWorks。通过本教程的操作,带您体验如何通过围绕社交用户发布的文章进行详尽的分析,能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
从10万条已经脱敏的数据中发现数据背后的秘密。
需求1:2017年10月发送推文最多的10个城市是哪几个?这几个城市的用户共计发送了多少条推文?
需求2:2017年10月所有用户中性别男女比例是多少?
需求3:2017年10月所有用户年龄分布图集中趋势如何?
需求4:2017年10月哪些事件在互联网上热议,最热门的三个事件是什么
需求5:2017年10月最热门的话题是哪个年龄段的用户讨论的
实验步骤
- 数据导入
- 数据分析
- 数据可视化
背景知识
2017年下半年的热门话题概括为
- 诺贝尔奖
- 麦当劳改名金拱门
- 十九大召开
- 拉斯维加斯持枪杀人事件
- 美国推出联合国教科文组织
- 鹿晗新女友
- 羞羞的铁拳上映
提取关键字为:诺贝尔、金拱门、十九大、拉斯维加斯、教科文、鹿晗、羞羞的铁拳。
本场景主要涉及以下云产品和服务:
MaxCompute是面向分析的企业级SaaS模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效的分析处理海量数据。数以万计的企业正基于MaxCompute进行数据计算与分析,将数据高效转换为业务洞察。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。作为阿里巴巴数据中台的建设者,DataWorks从2009年起不断沉淀阿里巴巴大数据建设方法论,同时与数万名政务/金融/零售/互联网/能源/制造等客户携手,助力产业数字化升级。