案例详解|大数据上云助力新零售企业数智化转型,挖掘数据的价值

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 曾经风光无限的零售大型超市业态--大卖场,当初代表先进零售模式进入中国市场,激起零售行业蓬勃发展的大浪潮,但是近年来,随着人们消费方式的巨大转变以及来自电子商务的冲击,传统大卖场的发展发生逆转。传统的零售技术和模式已经无法满足顾客的需求,同时传统门店面临租金高,成本高,人流量减少等困境,亟需寻求新的发展。本篇文章将以D客户为案例,详解上云带来的核心价值以及上云方案和步骤,希望能给您的业务带来一定帮助。

传统大卖场营收持续下滑,必须通过业务创新走出困境

  曾经风光无限的零售大型超市业态--大卖场,当初代表先进零售模式进入中国市场,激起零售行业蓬勃发展的大浪潮,但是近年来,随着人们消费方式的巨大转变以及来自电子商务的冲击,传统大卖场的发展发生逆转。传统的零售技术和模式已经无法满足顾客的需求,同时传统门店面临租金高,成本高,人流量减少等困境,亟需寻求新的发展。
以数字化改造为手段,提升大卖场精细化运营能力成为行业共识。面对新消费时代,商家可以借助大数据和人工智能等技术手段,快速从业务数据中找到业务特点,同时具备千人千面精准营销的能力,从而提升会购物体验,增强复购和会员粘性。数据中台是大数据时代的概念,大量的业务行为数据集中到数据中台做大数据分析,企业可对各类业务行为进行分析,给企业在营收、库存管理、商品管理等各个方面的决策提供数据依据。
  D客户是中国连锁超市领军企业,年销售额过千亿,全国覆盖华东、华南、华中、东北、华北等多个大区,全国门店数四百家左右,单店平均面积在2万平米以上。近年来,在整个商超业绩下行的趋势下,D客户年度净利润保持百分之十几同比增长的同时,单店营收呈现负增长,所以几年前就启动了数字化改造,提升精细化运营能力,寻求新的发展。

为什么上云-数据分析效率低,影响业务分析与决策

  D客户基于商品、会员、仓储、供应商、商户等业务行为产生大量的数据,基于这些数据要做大量的数据分析完成营收分析(成本、损耗、收入、价格等),库存管理(滞销、临保、缺货、周转率等),商品管理和商品竞争(淘汰、品类覆盖、价格指数等)。而D客户在IDC自建的大数据平台,数据吞吐量规模存在瓶颈,查询性能也不够理想,导致数据分析能力弱,效率低,影响业务分析与决策,如全年商品汰换率目标无法达成。
  阿里云为企业大数据实施提供了一套完整的一站式大数据解决方案,覆盖企业数仓、商业智能、机器学习、数据可视化等多个领域,助力企业在DT时代更敏捷、更智能、更具洞察力。通过对客户现状的分析,推荐D客户使用的大数据产品MaxCompute有如下好处:

  1. 数据产生价值周期更快: 阿里云MaxCompute比自建的Hive 2.0+Tez快90%,使得数仓离线计算的数据处理时间不到原来自建方式的1/3。
  2. 托管服务免运维,让企业专注业务:最重要的是采用阿里云Maxcompute,客户将所有精力都放在业务上,节省了自建机房在学习成本、开发成本、管理成本、投入机房资源和运维成本的总成本,相比自建Hadoop物理集群,使用阿里云数加MaxCompute的总成本有较大降低,应用开发效率有很大提高。
  3. 开箱即用提升效率:基于阿里云数加MaxCompute提供的开放接口和各类工具,以及一站式的大数据开发套件,项目实施难度低,让开发者将精力全部放在数据处理、分析和应用上,极大的降低大数据应用开发的技术难度。
  4. 专业服务保驾护航:阿里云平台所提供的7×24小时技术支持服务则可以让客户随时随地获得专业的技术支持,让IT不再成为业务发展的限制。 依托于阿里云在安全性方面有全面考虑的底层平台和众多的安全监控工具,客户的各类应用数据即使放在云端也可以确保万无一失。

为什么上云-云下IDC资源利用率较低,部署冗余,人力支出高,资源弹性和扩展性不足

  D客户通过在自建IDC服务器资源构建大数据平台,资源利用率不高,部署较为冗余,升级和维护困难,运维和基础设备开发人力支出成本比较高,而且随着自建IDC规模的扩大,企业成本大幅上升。
  选择阿里云,可以按需使用云服务,无需人力维护物理设备,相对成本线性,实际TCO更低。

为什么上云-享受技术红利,提升效率

  选择阿里云,阿里巴巴每年数百亿的研发投入带来的技术红利,云上即享。阿里云将达摩院机器智能技术实验室所有的智能技术,如智能语音、NLP、知识图谱、人脸识别、机器翻译等技术通过阿里云官网开放给用户,目前阿里云官网上大约有适用于300多个场景的130多个AI产品供用户使用。D客户上云后就尝试使用了阿里云智能推荐产品,阿里云智能推荐内置大量推荐算法以及模型训练的样本,训练深度、效率和准确率相比D客户原自建的推荐产品有很大的提升。

上云步骤与方案-丰富的解决方案,搬站工具和最佳实践使得企业上云周期短、切换影响小

  阿里云拥有丰富的迁云工具和解决方案,截止2019年4月,阿里云官网已上线200+云产品、200+解决方案,100+上云最佳实践,帮助企业客户快速完成迁云方案评估,迁云实施和生产流量切换,全面提升企业业务的可靠性、安全性。
  下面以D客户大数据平台上云切换为例介绍大数据上云步骤。
TB1Gpd8vkT2gK0jSZFkXXcIQFXa-497-315.png

图1上云前架构示意图


  图1为D客户在上云之前的大数据平台整体架构,大数据平台为自建IDC集群,规模在40+台,数据量近300TB(压缩策略为1:3),整体以Hadoop+Spark生态为架构,另外采购列式存储的MPP数据库Vertica作为上层应用依赖的核心数据库。
TB1KNDvuubviK0jSZFNXXaApXXa-1492-806.png

图2云上架构示意图


  经历1月的POC测试后,D客户项目管理层最终决定,D客户数据中台基于阿里DataWorks+MaxCompute为主要核心来构建,最终解决方案如上图2所示。迁移方案具体说明如下:

  • Hive历史数据(csv、txt、parquet、orc文件)通过MMA进行迁移。
  • MySQL/Oracle业务数据通过DataWorks-数据集成/DataX进行增量方式拉入MaxCompute。
  • Kakfa数据为日志数据,通过DataWorks -DataX脚本模式增量写入。

  成熟的自动化迁移工具在本案例中起到至关重要的作用,大大缩短了迁移进程,并降低了迁移难度。以线下Hadoop的Hive数据迁移到云上MaxCompute为例,通过迁移工具MaxCompute Migration Assist(MMA)来加速迁移工作,如图3所示。
TB1YBV1veT2gK0jSZFvXXXnFXXa-1492-810.png

图3 通过MMA迁移工具迁移Hive数据示意图


   MMA的工作流程主要分为四个步骤:

  1. Metadata抓取

Meta carrier连接用户的Hive Metastore服务,抓取用户的Hive Metadata并在指定目录下生成一个目录,包含搬站所需的Metadata。用户可自行修改该目录下的文件来自定义搬站工具的一些行为。

  1. MaxCompute DDL与Hive UDTF生成

利用上述步骤抓取到的Metadata,生成另一个目录,包含用于创MaxCompute表和分区的所有的DDL语句,还包含用于数据迁移的Hive UDTF SQL。

  1. MaxCompute 表创建

运行上述批量生成的MaxCompute DDL,创建Hive迁移所需映射到MaxCompute的表与分区。

  1. Hive数据迁移

在用户Hadoop集群上运行上述步骤中所生成的Hive UDTF SQL,进行传输数据。需要注意的是,该UDTF是执行在用户Hadoop集群上,故需要关注到资源占用情况以及Hadoop集群到MaxCompute集群的网络连通性情况。

客户收益

  • 通过大数据平台上云并建立数据中台,整合线上业务和渠道,线下门店和B2B渠道的数据,D客户形成9大数据主题域,建立战略决策、管理决策、门店运营的数据运营体系,为业务提供及时的数据决策支持,效率提升的同时保证商品汰换的效率和频度。
  • 阿里云提供了完善的云上托管的数据处理方案、大规模计算储存、细粒度节点依赖管理等功能,D客户上云后,节省了30%的服务及人力成本。托管服务,无需对复杂作业进行运维,使企业更加专注于业务。
  • 使用成本低,同时提供更高的数据吞吐量和查询性能,可视化编辑界面,方便操作,且与阿里云大数据产品生态融为一体。
  • 电商平台相关单品推荐点击率提升70%到150%

附录

本案例涉及到的最佳实践列表:

  • DataWorks一站式大数据智能云研发平台

https://data.aliyun.com/product/ide?spm=5176.12825654.h2v3icoap.156.e9392c4aA8nWLQ&aly_as=nV7UhLXe

  • Hive数据如何同步到MaxCompute之实践讲解 – 基于MMA

https://yq.aliyun.com/articles/727330?spm=5176.10695662.1996646101.searchclickresult.c8c4262e5167ek

  • Kafka数据迁移MaxCompute最佳实践 – 基于DataWorks

https://help.aliyun.com/document_detail/120535.html?spm=5176.10695662.1996646101.searchclickresult.19642d0cDQWghl&aly_as=J1PvdnP0

  • Elasticsearch数据迁移至MaxCompute – 基于DataWorks

https://help.aliyun.com/document_detail/121009.html?spm=a2c4g.11186623.4.4.2cf1145bNtEpla

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
14天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
47 2
|
1月前
|
SQL 分布式计算 NoSQL
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
28 1
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
|
1月前
|
分布式计算 大数据 Linux
大数据体系知识学习(二):WordCount案例实现及错误总结
这篇文章介绍了如何使用PySpark进行WordCount操作,包括环境配置、代码实现、运行结果和遇到的错误。作者在运行过程中遇到了Py4JJavaError和JAVA_HOME未设置的问题,并通过导入findspark初始化和设置环境变量解决了这些问题。文章还讨论了groupByKey和reduceByKey的区别。
27 1
|
1月前
|
消息中间件 存储 druid
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
大数据-156 Apache Druid 案例实战 Scala Kafka 订单统计
40 3
|
1月前
|
存储 大数据 分布式数据库
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
大数据-165 Apache Kylin Cube优化 案例 2 定义衍生维度及对比 & 聚合组 & RowKeys
33 1
|
1月前
|
消息中间件 druid 大数据
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(二)
32 2
|
1月前
|
消息中间件 分布式计算 druid
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
大数据-153 Apache Druid 案例 从 Kafka 中加载数据并分析(一)
53 1
|
26天前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
37 0
|
1月前
|
存储 SQL 分布式计算
大数据-142 - ClickHouse 集群 副本和分片 Distributed 附带案例演示
大数据-142 - ClickHouse 集群 副本和分片 Distributed 附带案例演示
132 0
|
1月前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势