《数据科学与大数据分析——数据的发现 分析 可视化与表示》一1.4 大数据分析案例

简介:

本节书摘来自异步社区《数据科学与大数据分析——数据的发现 分析 可视化与表示》一书中的第1章,第1.4节,作者【美】EMC Education Services(EMC教育服务团队),更多章节内容可以访问云栖社区“异步社区”公众号查看

1.4 大数据分析案例

在介绍完大数据新兴生态系统和支持其发展需要的新角色后,本节将介绍大数据在不同领域中应用的3个例子:零售业、IT基础设施和社交媒体。

前面提到,大数据带来了很多改进销售和市场分析的机会。美国零售商Target便是这样的例子。作者Charles Duhigg在他的The Power of Habit一书[4]中介绍了Target如何使用大数据和高级分析方法来提高销售收入。在分析了消费者的购买行为后,Target公司的统计人员发现零售业很大的一块销售收入来源于下面的三大主要事件。

  • 结婚,这时人们会倾向于购买很多新东西。
  • 离婚,这时人们也会购买新产品,并且改变自己的消费习惯。
  • 怀孕,这时人们会购买许多新东西,并且都是非常迫切地购买。

分析人员还发现在上述三大事件中,怀孕是最让商家赚钱的事件。通过从购物者身上收集的购物数据,Target公司就可以预测哪些购物者可能已经怀孕。有一次,Target公司甚至比一位女顾客的家人更早地判断出这位女顾客已经怀孕[5]。根据这类分析结果,Target公司会对已经怀孕的顾客提供特定的优惠券和激励机制。事实上,Target公司的分析机制不但可以判断某个顾客是否已经怀孕,还可以知道顾客已经怀孕几个月了。这样Target公司就可以更好地管理和调整自己的库存,因为他们知道在每9~10个月的周期中,每个月大致会有哪些特定孕期商品的需求。

另一个大数据创新的例子来自于IT基础设备领域中的Hadoop[6]。Apache Hadoop是一款开源框架,允许公司以高度并行的方式处理大量的信息。Hadoop是由Doug Cutting和Mike Cafarella在2005年设计和实现的一种基于MapReduce计算范式的系统,被用于处理各种不同结构的数据。对于很多需要涉及大量或者难以操作的非传统结构数据的大数据项目来说,Hadoop是一种理想的技术框架。Hadoop的主要优点之一是采用分布式文件系统,这意味着它可以使用分布式集群服务器和商用硬件来处理大量数据。在社交媒体领域中Hadoop的应用案例很常见,在这里Hadoop可以管理事务、更新文字信息和生成数百万用户间的社交图谱。Twitter和Facebook每天都会产生海量的非结构化数据,并通过Hadoop和其生态系统中的工具来管理这些海量数据。第10章将进一步讲解相关内容。

最后,通过社交媒体上的人际互动可以获取许多新的见解,而其中蕴含着巨大的商机。LinkedIn是一家典型的数据即产品的公司。在公司创立初期,LinkedIn创始人Reid Hoffman就意识到可以为职场专业人士创建一个社交网络。截至2014年,LinkedIn拥有超过2.5亿的用户账户,并增加了很多额外的功能和数据相关的产品,例如,招聘、求职者工具、广告和社交图谱InMaps。InMaps可以显示用户的职业社交网络图谱。图1.14是一个InMaps可视化案例,使得LinkedIn用户可以对自己联系人之间的互联关系和脉络有一个更直观的认识。


80b444891f91c31f357f6d00b93f7fe7116fb0e2
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
8月前
|
存储 分布式计算 大数据
基于Python大数据的的电商用户行为分析系统
本系统基于Django、Scrapy与Hadoop技术,构建电商用户行为分析平台。通过爬取与处理海量用户数据,实现行为追踪、偏好分析与个性化推荐,助力企业提升营销精准度与用户体验,推动电商智能化发展。
|
9月前
|
存储 SQL 分布式计算
终于!大数据分析不用再“又要快又要省钱”二选一了!Dataphin新功能太香了!
Dataphin推出查询加速新功能,支持用StarRocks等引擎直连MaxCompute或Hadoop查原始数据,无需同步、秒级响应。数据只存一份,省成本、提效率,权限统一管理,打破“又要快又要省”的不可能三角,助力企业实现分析自由。
460 49
|
8月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的台风灾害分析及预测系统
针对台风灾害预警滞后、精度不足等问题,本研究基于Python与大数据技术,构建多源数据融合的台风预测系统。利用机器学习提升路径与强度预测准确率,结合Django框架实现动态可视化与实时预警,为防灾决策提供科学支持,显著提高应急响应效率,具有重要社会经济价值。
|
8月前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
8月前
|
机器学习/深度学习 大数据 关系型数据库
基于python大数据的青少年网络使用情况分析及预测系统
本研究基于Python大数据技术,构建青少年网络行为分析系统,旨在破解现有防沉迷模式下用户画像模糊、预警滞后等难题。通过整合多平台亿级数据,运用机器学习实现精准行为预测与实时干预,推动数字治理向“数据驱动”转型,为家庭、学校及政府提供科学决策支持,助力青少年健康上网。
|
8月前
|
机器学习/深度学习 搜索推荐 数据挖掘
数据分析真能让音乐产业更好听吗?——聊聊大数据在音乐里的那些事
数据分析真能让音乐产业更好听吗?——聊聊大数据在音乐里的那些事
358 9
|
9月前
|
数据采集 数据可视化 关系型数据库
基于python大数据的电影数据可视化分析系统
电影分析与可视化平台顺应电影产业数字化趋势,整合大数据处理、人工智能与Web技术,实现电影数据的采集、分析与可视化展示。平台支持票房、评分、观众行为等多维度分析,助力行业洞察与决策,同时提供互动界面,增强观众对电影文化的理解。技术上依托Python、MySQL、Flask、HTML等构建,融合数据采集与AI分析,提升电影行业的数据应用能力。
|
8月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
679 0
|
9月前
|
数据可视化 大数据 数据挖掘
基于python大数据的招聘数据可视化分析系统
本系统基于Python开发,整合多渠道招聘数据,利用数据分析与可视化技术,助力企业高效决策。核心功能包括数据采集、智能分析、可视化展示及权限管理,提升招聘效率与人才管理水平,推动人力资源管理数字化转型。