《数据科学与大数据分析——数据的发现 分析 可视化与表示》一1.4 大数据分析案例

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

本节书摘来自异步社区《数据科学与大数据分析——数据的发现 分析 可视化与表示》一书中的第1章,第1.4节,作者【美】EMC Education Services(EMC教育服务团队),更多章节内容可以访问云栖社区“异步社区”公众号查看

1.4 大数据分析案例

在介绍完大数据新兴生态系统和支持其发展需要的新角色后,本节将介绍大数据在不同领域中应用的3个例子:零售业、IT基础设施和社交媒体。

前面提到,大数据带来了很多改进销售和市场分析的机会。美国零售商Target便是这样的例子。作者Charles Duhigg在他的The Power of Habit一书[4]中介绍了Target如何使用大数据和高级分析方法来提高销售收入。在分析了消费者的购买行为后,Target公司的统计人员发现零售业很大的一块销售收入来源于下面的三大主要事件。

  • 结婚,这时人们会倾向于购买很多新东西。
  • 离婚,这时人们也会购买新产品,并且改变自己的消费习惯。
  • 怀孕,这时人们会购买许多新东西,并且都是非常迫切地购买。

分析人员还发现在上述三大事件中,怀孕是最让商家赚钱的事件。通过从购物者身上收集的购物数据,Target公司就可以预测哪些购物者可能已经怀孕。有一次,Target公司甚至比一位女顾客的家人更早地判断出这位女顾客已经怀孕[5]。根据这类分析结果,Target公司会对已经怀孕的顾客提供特定的优惠券和激励机制。事实上,Target公司的分析机制不但可以判断某个顾客是否已经怀孕,还可以知道顾客已经怀孕几个月了。这样Target公司就可以更好地管理和调整自己的库存,因为他们知道在每9~10个月的周期中,每个月大致会有哪些特定孕期商品的需求。

另一个大数据创新的例子来自于IT基础设备领域中的Hadoop[6]。Apache Hadoop是一款开源框架,允许公司以高度并行的方式处理大量的信息。Hadoop是由Doug Cutting和Mike Cafarella在2005年设计和实现的一种基于MapReduce计算范式的系统,被用于处理各种不同结构的数据。对于很多需要涉及大量或者难以操作的非传统结构数据的大数据项目来说,Hadoop是一种理想的技术框架。Hadoop的主要优点之一是采用分布式文件系统,这意味着它可以使用分布式集群服务器和商用硬件来处理大量数据。在社交媒体领域中Hadoop的应用案例很常见,在这里Hadoop可以管理事务、更新文字信息和生成数百万用户间的社交图谱。Twitter和Facebook每天都会产生海量的非结构化数据,并通过Hadoop和其生态系统中的工具来管理这些海量数据。第10章将进一步讲解相关内容。

最后,通过社交媒体上的人际互动可以获取许多新的见解,而其中蕴含着巨大的商机。LinkedIn是一家典型的数据即产品的公司。在公司创立初期,LinkedIn创始人Reid Hoffman就意识到可以为职场专业人士创建一个社交网络。截至2014年,LinkedIn拥有超过2.5亿的用户账户,并增加了很多额外的功能和数据相关的产品,例如,招聘、求职者工具、广告和社交图谱InMaps。InMaps可以显示用户的职业社交网络图谱。图1.14是一个InMaps可视化案例,使得LinkedIn用户可以对自己联系人之间的互联关系和脉络有一个更直观的认识。


80b444891f91c31f357f6d00b93f7fe7116fb0e2
相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
10天前
|
机器学习/深度学习 分布式计算 算法
Spark快速大数据分析PDF下载读书分享推荐
《Spark快速大数据分析》适合初学者,聚焦Spark实用技巧,同时深入核心概念。作者团队来自Databricks,书中详述Spark 3.0新特性,结合机器学习展示大数据分析。Spark是大数据分析的首选工具,本书助你驾驭这一利器。[PDF下载链接][1]。 ![Spark Book Cover][2] [1]: https://zhangfeidezhu.com/?p=345 [2]: https://i-blog.csdnimg.cn/direct/6b851489ad1944548602766ea9d62136.png#pic_center
31 1
Spark快速大数据分析PDF下载读书分享推荐
|
8天前
|
数据采集 自然语言处理 大数据
​「Python大数据」LDA主题分析模型
使用Python进行文本聚类,流程包括读取VOC数据、jieba分词、去除停用词,应用LDA模型(n_components=5)进行主题分析,并通过pyLDAvis生成可视化HTML。关键代码涉及数据预处理、CountVectorizer、LatentDirichletAllocation以及HTML文件的本地化处理。停用词和业务术语列表用于优化分词效果。
13 0
​「Python大数据」LDA主题分析模型
|
11天前
|
数据采集 机器学习/深度学习 数据可视化
完整的Python数据分析流程案例解析-数据科学项目实战
【7月更文挑战第5天】这是一个Python数据分析项目的概览,涵盖了从CSV数据加载到模型评估的步骤:获取数据、预处理(处理缺失值和异常值、转换数据)、数据探索(可视化和统计分析)、模型选择(线性回归)、训练与评估、优化,以及结果的可视化和解释。此流程展示了理论与实践的结合在解决实际问题中的应用。
27 1
|
13天前
|
人工智能 自然语言处理 小程序
政务VR导航:跨界融合AI人工智能与大数据分析,打造全方位智能政务服务
政务大厅引入智能导航系统,解决寻路难、指引不足及咨询台压力大的问题。VR导视与AI助手提供在线预览、VR路线指引、智能客服和小程序服务,提高办事效率,减轻咨询台工作,优化群众体验,塑造智慧政务形象。通过线上线下结合,实现政务服务的高效便民。
48 0
政务VR导航:跨界融合AI人工智能与大数据分析,打造全方位智能政务服务
|
20天前
|
存储 数据采集 分布式计算
Java中的大数据处理与分析架构
Java中的大数据处理与分析架构
|
21天前
|
SQL 运维 druid
深度分析:Apache Doris及其在大数据处理中的应用
Apache Doris是一款开源的高性能实时分析数据库,设计用于低延迟SQL查询和实时数据处理,适合大规模实时分析场景。与Apache Druid、ClickHouse和Greenplum相比,Doris在易用性和实时性上有优势,但其他产品在特定领域如高吞吐、SQL支持或数据处理有特长。选型要考虑查询性能、实时性、SQL需求和运维成本。Doris适用于实时数据分析、BI报表、数据中台和物联网数据处理。使用时注意资源配置、数据模型设计、监控调优和导入策略。
|
1天前
|
JSON 数据挖掘 API
在会议系统工程中,Python可以用于多种任务,如网络请求(用于视频会议的连接和会议数据的传输)、数据分析(用于分析会议参与者的行为或会议效果)等。
在会议系统工程中,Python可以用于多种任务,如网络请求(用于视频会议的连接和会议数据的传输)、数据分析(用于分析会议参与者的行为或会议效果)等。
33 0
|
28天前
|
机器学习/深度学习 自然语言处理 供应链
深度学习在大数据分析中的应用非常广泛
深度学习在大数据分析中的应用非常广泛
|
8天前
|
存储 分布式计算 并行计算
使用Hadoop构建Java大数据分析平台
使用Hadoop构建Java大数据分析平台