案例详解|大数据上云助力新零售企业数智化转型,挖掘数据的价值

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
简介: 传统大卖场发展面临全新的挑战,本案例详细介绍在这个时代的拐点,零售企业如何借助大数据上云实现企业运营数智化转型,提升精细化运营能力,最终实现业务创新。

传统大卖场营收持续下滑,必须通过业务创新走出困境

  曾经风光无限的零售大型超市业态--大卖场,当初代表先进零售模式进入中国市场,激起零售行业蓬勃发展的大浪潮,但是近年来,随着人们消费方式的巨大转变以及来自电子商务的冲击,传统大卖场的发展发生逆转。传统的零售技术和模式已经无法满足顾客的需求,同时传统门店面临租金高,成本高,人流量减少等困境,亟需寻求新的发展。
以数字化改造为手段,提升大卖场精细化运营能力成为行业共识。面对新消费时代,商家可以借助大数据和人工智能等技术手段,快速从业务数据中找到业务特点,同时具备千人千面精准营销的能力,从而提升会购物体验,增强复购和会员粘性。数据中台是大数据时代的概念,大量的业务行为数据集中到数据中台做大数据分析,企业可对各类业务行为进行分析,给企业在营收、库存管理、商品管理等各个方面的决策提供数据依据。
  D客户是中国连锁超市领军企业,年销售额过千亿,全国覆盖华东、华南、华中、东北、华北等多个大区,全国门店数四百家左右,单店平均面积在2万平米以上。近年来,在整个商超业绩下行的趋势下,D客户年度净利润保持百分之十几同比增长的同时,单店营收呈现负增长,所以几年前就启动了数字化改造,提升精细化运营能力,寻求新的发展。

为什么上云-数据分析效率低,影响业务分析与决策

  D客户基于商品、会员、仓储、供应商、商户等业务行为产生大量的数据,基于这些数据要做大量的数据分析完成营收分析(成本、损耗、收入、价格等),库存管理(滞销、临保、缺货、周转率等),商品管理和商品竞争(淘汰、品类覆盖、价格指数等)。而D客户在IDC自建的大数据平台,数据吞吐量规模存在瓶颈,查询性能也不够理想,导致数据分析能力弱,效率低,影响业务分析与决策,如全年商品汰换率目标无法达成。
  阿里云为企业大数据实施提供了一套完整的一站式大数据解决方案,覆盖企业数仓、商业智能、机器学习、数据可视化等多个领域,助力企业在DT时代更敏捷、更智能、更具洞察力。通过对客户现状的分析,推荐D客户使用的大数据产品MaxCompute有如下好处:

  1. 数据产生价值周期更快: 阿里云MaxCompute比自建的Hive 2.0+Tez快90%,使得数仓离线计算的数据处理时间不到原来自建方式的1/3。
  2. 托管服务免运维,让企业专注业务:最重要的是采用阿里云Maxcompute,客户将所有精力都放在业务上,节省了自建机房在学习成本、开发成本、管理成本、投入机房资源和运维成本的总成本,相比自建Hadoop物理集群,使用阿里云数加MaxCompute的总成本有较大降低,应用开发效率有很大提高。
  3. 开箱即用提升效率:基于阿里云数加MaxCompute提供的开放接口和各类工具,以及一站式的大数据开发套件,项目实施难度低,让开发者将精力全部放在数据处理、分析和应用上,极大的降低大数据应用开发的技术难度。
  4. 专业服务保驾护航:阿里云平台所提供的7×24小时技术支持服务则可以让客户随时随地获得专业的技术支持,让IT不再成为业务发展的限制。 依托于阿里云在安全性方面有全面考虑的底层平台和众多的安全监控工具,客户的各类应用数据即使放在云端也可以确保万无一失。

为什么上云-云下IDC资源利用率较低,部署冗余,人力支出高,资源弹性和扩展性不足

  D客户通过在自建IDC服务器资源构建大数据平台,资源利用率不高,部署较为冗余,升级和维护困难,运维和基础设备开发人力支出成本比较高,而且随着自建IDC规模的扩大,企业成本大幅上升。
  选择阿里云,可以按需使用云服务,无需人力维护物理设备,相对成本线性,实际TCO更低。

为什么上云-享受技术红利,提升效率

  选择阿里云,阿里巴巴每年数百亿的研发投入带来的技术红利,云上即享。阿里云将达摩院机器智能技术实验室所有的智能技术,如智能语音、NLP、知识图谱、人脸识别、机器翻译等技术通过阿里云官网开放给用户,目前阿里云官网上大约有适用于300多个场景的130多个AI产品供用户使用。D客户上云后就尝试使用了阿里云智能推荐产品,阿里云智能推荐内置大量推荐算法以及模型训练的样本,训练深度、效率和准确率相比D客户原自建的推荐产品有很大的提升。

上云步骤与方案-丰富的解决方案,搬站工具和最佳实践使得企业上云周期短、切换影响小

  阿里云拥有丰富的迁云工具和解决方案,截止2019年4月,阿里云官网已上线200+云产品、200+解决方案,100+上云最佳实践,帮助企业客户快速完成迁云方案评估,迁云实施和生产流量切换,全面提升企业业务的可靠性、安全性。
  下面以D客户大数据平台上云切换为例介绍大数据上云步骤。
TB1Gpd8vkT2gK0jSZFkXXcIQFXa-497-315.png

图1上云前架构示意图


  图1为D客户在上云之前的大数据平台整体架构,大数据平台为自建IDC集群,规模在40+台,数据量近300TB(压缩策略为1:3),整体以Hadoop+Spark生态为架构,另外采购列式存储的MPP数据库Vertica作为上层应用依赖的核心数据库。
TB1KNDvuubviK0jSZFNXXaApXXa-1492-806.png

图2云上架构示意图


  经历1月的POC测试后,D客户项目管理层最终决定,D客户数据中台基于阿里DataWorks+MaxCompute为主要核心来构建,最终解决方案如上图2所示。迁移方案具体说明如下:
  • Hive历史数据(csv、txt、parquet、orc文件)通过MMA进行迁移。
  • MySQL/Oracle业务数据通过DataWorks-数据集成/DataX进行增量方式拉入MaxCompute。
  • Kakfa数据为日志数据,通过DataWorks -DataX脚本模式增量写入。

  成熟的自动化迁移工具在本案例中起到至关重要的作用,大大缩短了迁移进程,并降低了迁移难度。以线下Hadoop的Hive数据迁移到云上MaxCompute为例,通过迁移工具MaxCompute Migration Assist(MMA)来加速迁移工作,如图3所示。
TB1YBV1veT2gK0jSZFvXXXnFXXa-1492-810.png

图3 通过MMA迁移工具迁移Hive数据示意图


   MMA的工作流程主要分为四个步骤:
  1. Metadata抓取
    Meta carrier连接用户的Hive Metastore服务,抓取用户的Hive Metadata并在指定目录下生成一个目录,包含搬站所需的Metadata。用户可自行修改该目录下的文件来自定义搬站工具的一些行为。
  2. MaxCompute DDL与Hive UDTF生成
    利用上述步骤抓取到的Metadata,生成另一个目录,包含用于创MaxCompute表和分区的所有的DDL语句,还包含用于数据迁移的Hive UDTF SQL。
  3. MaxCompute 表创建
    运行上述批量生成的MaxCompute DDL,创建Hive迁移所需映射到MaxCompute的表与分区。
  4. Hive数据迁移
    在用户Hadoop集群上运行上述步骤中所生成的Hive UDTF SQL,进行传输数据。需要注意的是,该UDTF是执行在用户Hadoop集群上,故需要关注到资源占用情况以及Hadoop集群到MaxCompute集群的网络连通性情况。

客户收益

  • 通过大数据平台上云并建立数据中台,整合线上业务和渠道,线下门店和B2B渠道的数据,D客户形成9大数据主题域,建立战略决策、管理决策、门店运营的数据运营体系,为业务提供及时的数据决策支持,效率提升的同时保证商品汰换的效率和频度。
  • 阿里云提供了完善的云上托管的数据处理方案、大规模计算储存、细粒度节点依赖管理等功能,D客户上云后,节省了30%的服务及人力成本。托管服务,无需对复杂作业进行运维,使企业更加专注于业务。
  • 使用成本低,同时提供更高的数据吞吐量和查询性能,可视化编辑界面,方便操作,且与阿里云大数据产品生态融为一体。
  • 电商平台相关单品推荐点击率提升70%到150%

附录

本案例涉及到的最佳实践列表:

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
Java 关系型数据库 数据库连接
Mybatis+MySQL动态分页查询数据经典案例(含代码以及测试)
Mybatis+MySQL动态分页查询数据经典案例(含代码以及测试)
|
JavaScript 前端开发 BI
最好用的 7 款 Vue admin 后台管理系统测评
Vue admin 后台管理系统作为每个项目必备的管理后台,对大家来说十分重要。选不好,配不好,不仅现在用着抓狂,未来迭代升级也困难重重,步步是坑。所以在技术选型阶段,就要对市面上主流的 Vue admin 做到全面了解,知道他们的优缺点,再根据自己项目的需求,有针对性的选择。我试用了市面上所有主流 Vue admin 都 npm 到本地测了一遍,筛掉长期不更新,bug 明显,社区活跃度低,功能单一的 admin 后台,把最好、最有特点的 7 款 Vue admin 挑出来,分享给大家。这些后台各有各的特点,有些功能多样,但整体很重;有些虽然稳定,但上线年头久远,含有大量陈旧功能;有些功能
3434 0
|
消息中间件 SQL 数据可视化
最接地气的.NET微服务框架 - Wing
最接地气的.NET微服务框架 - Wing
460 0
|
SQL 存储 数据库
SQL部分字段编码设置技巧与方法
在SQL数据库管理中,设置字段的编码对于确保数据的正确存储和检索至关重要
|
Web App开发 自然语言处理 搜索推荐
基于OpenSearch搭建高质量商品搜索服务
本场景主要介绍开放搜索(OpenSearch)打造独有的电商行业垂直解决方案,模板内置电商查询分析、排序表达式及行业算法能力,沉浸式体验更高性能和效果的智能搜索服务,助力企业在线业务智能增长。
|
存储 监控 安全
ERP系统中的用户权限与安全管理
【7月更文挑战第25天】 ERP系统中的用户权限与安全管理
1039 2
|
JavaScript Java 测试技术
基于SpringBoot+Vue+uniapp的图书管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
基于SpringBoot+Vue+uniapp的图书管理系统的详细设计和实现(源码+lw+部署文档+讲解等)
143 0
|
消息中间件 监控 Java
在Java项目中实现事件驱动架构
在Java项目中实现事件驱动架构
|
消息中间件 存储 SQL
关于Lindorm Ganos
Lindorm 是阿里云推出的云原生超融合多模数据库,集成了宽表、时序、搜索、文件等多种引擎。深度融合的 Lindorm Ganos 时空数据库引擎,能够高效处理海量移动对象的存储、管理和查询需求,弥补了 NoSQL 数据库在时空数据处理上的不足。Ganos 具备原生时空数据类型、多层级索引能力和广适应兼容性,支持标准 SQL 语法,显著提升了计算效率和查询性能。相较传统方案,Ganos 在多种场景下性能提升 3-5 倍,并大幅降低存储计算成本。
476 0
|
存储 搜索推荐 开发者
django-haystack,具有全文搜索功能的 Python 库!
django-haystack,具有全文搜索功能的 Python 库!
351 0