案例详解|大数据上云助力新零售企业数智化转型,挖掘数据的价值

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
大数据开发治理平台 DataWorks,不限时长
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 曾经风光无限的零售大型超市业态--大卖场,当初代表先进零售模式进入中国市场,激起零售行业蓬勃发展的大浪潮,但是近年来,随着人们消费方式的巨大转变以及来自电子商务的冲击,传统大卖场的发展发生逆转。传统的零售技术和模式已经无法满足顾客的需求,同时传统门店面临租金高,成本高,人流量减少等困境,亟需寻求新的发展。本篇文章将以D客户为案例,详解上云带来的核心价值以及上云方案和步骤,希望能给您的业务带来一定帮助。

传统大卖场营收持续下滑,必须通过业务创新走出困境

  曾经风光无限的零售大型超市业态--大卖场,当初代表先进零售模式进入中国市场,激起零售行业蓬勃发展的大浪潮,但是近年来,随着人们消费方式的巨大转变以及来自电子商务的冲击,传统大卖场的发展发生逆转。传统的零售技术和模式已经无法满足顾客的需求,同时传统门店面临租金高,成本高,人流量减少等困境,亟需寻求新的发展。
以数字化改造为手段,提升大卖场精细化运营能力成为行业共识。面对新消费时代,商家可以借助大数据和人工智能等技术手段,快速从业务数据中找到业务特点,同时具备千人千面精准营销的能力,从而提升会购物体验,增强复购和会员粘性。数据中台是大数据时代的概念,大量的业务行为数据集中到数据中台做大数据分析,企业可对各类业务行为进行分析,给企业在营收、库存管理、商品管理等各个方面的决策提供数据依据。
  D客户是中国连锁超市领军企业,年销售额过千亿,全国覆盖华东、华南、华中、东北、华北等多个大区,全国门店数四百家左右,单店平均面积在2万平米以上。近年来,在整个商超业绩下行的趋势下,D客户年度净利润保持百分之十几同比增长的同时,单店营收呈现负增长,所以几年前就启动了数字化改造,提升精细化运营能力,寻求新的发展。

为什么上云-数据分析效率低,影响业务分析与决策

  D客户基于商品、会员、仓储、供应商、商户等业务行为产生大量的数据,基于这些数据要做大量的数据分析完成营收分析(成本、损耗、收入、价格等),库存管理(滞销、临保、缺货、周转率等),商品管理和商品竞争(淘汰、品类覆盖、价格指数等)。而D客户在IDC自建的大数据平台,数据吞吐量规模存在瓶颈,查询性能也不够理想,导致数据分析能力弱,效率低,影响业务分析与决策,如全年商品汰换率目标无法达成。
  阿里云为企业大数据实施提供了一套完整的一站式大数据解决方案,覆盖企业数仓、商业智能、机器学习、数据可视化等多个领域,助力企业在DT时代更敏捷、更智能、更具洞察力。通过对客户现状的分析,推荐D客户使用的大数据产品MaxCompute有如下好处:

  1. 数据产生价值周期更快: 阿里云MaxCompute比自建的Hive 2.0+Tez快90%,使得数仓离线计算的数据处理时间不到原来自建方式的1/3。
  2. 托管服务免运维,让企业专注业务:最重要的是采用阿里云Maxcompute,客户将所有精力都放在业务上,节省了自建机房在学习成本、开发成本、管理成本、投入机房资源和运维成本的总成本,相比自建Hadoop物理集群,使用阿里云数加MaxCompute的总成本有较大降低,应用开发效率有很大提高。
  3. 开箱即用提升效率:基于阿里云数加MaxCompute提供的开放接口和各类工具,以及一站式的大数据开发套件,项目实施难度低,让开发者将精力全部放在数据处理、分析和应用上,极大的降低大数据应用开发的技术难度。
  4. 专业服务保驾护航:阿里云平台所提供的7×24小时技术支持服务则可以让客户随时随地获得专业的技术支持,让IT不再成为业务发展的限制。 依托于阿里云在安全性方面有全面考虑的底层平台和众多的安全监控工具,客户的各类应用数据即使放在云端也可以确保万无一失。

为什么上云-云下IDC资源利用率较低,部署冗余,人力支出高,资源弹性和扩展性不足

  D客户通过在自建IDC服务器资源构建大数据平台,资源利用率不高,部署较为冗余,升级和维护困难,运维和基础设备开发人力支出成本比较高,而且随着自建IDC规模的扩大,企业成本大幅上升。
  选择阿里云,可以按需使用云服务,无需人力维护物理设备,相对成本线性,实际TCO更低。

为什么上云-享受技术红利,提升效率

  选择阿里云,阿里巴巴每年数百亿的研发投入带来的技术红利,云上即享。阿里云将达摩院机器智能技术实验室所有的智能技术,如智能语音、NLP、知识图谱、人脸识别、机器翻译等技术通过阿里云官网开放给用户,目前阿里云官网上大约有适用于300多个场景的130多个AI产品供用户使用。D客户上云后就尝试使用了阿里云智能推荐产品,阿里云智能推荐内置大量推荐算法以及模型训练的样本,训练深度、效率和准确率相比D客户原自建的推荐产品有很大的提升。

上云步骤与方案-丰富的解决方案,搬站工具和最佳实践使得企业上云周期短、切换影响小

  阿里云拥有丰富的迁云工具和解决方案,截止2019年4月,阿里云官网已上线200+云产品、200+解决方案,100+上云最佳实践,帮助企业客户快速完成迁云方案评估,迁云实施和生产流量切换,全面提升企业业务的可靠性、安全性。
  下面以D客户大数据平台上云切换为例介绍大数据上云步骤。
TB1Gpd8vkT2gK0jSZFkXXcIQFXa-497-315.png

图1上云前架构示意图


  图1为D客户在上云之前的大数据平台整体架构,大数据平台为自建IDC集群,规模在40+台,数据量近300TB(压缩策略为1:3),整体以Hadoop+Spark生态为架构,另外采购列式存储的MPP数据库Vertica作为上层应用依赖的核心数据库。
TB1KNDvuubviK0jSZFNXXaApXXa-1492-806.png

图2云上架构示意图


  经历1月的POC测试后,D客户项目管理层最终决定,D客户数据中台基于阿里DataWorks+MaxCompute为主要核心来构建,最终解决方案如上图2所示。迁移方案具体说明如下:

  • Hive历史数据(csv、txt、parquet、orc文件)通过MMA进行迁移。
  • MySQL/Oracle业务数据通过DataWorks-数据集成/DataX进行增量方式拉入MaxCompute。
  • Kakfa数据为日志数据,通过DataWorks -DataX脚本模式增量写入。

  成熟的自动化迁移工具在本案例中起到至关重要的作用,大大缩短了迁移进程,并降低了迁移难度。以线下Hadoop的Hive数据迁移到云上MaxCompute为例,通过迁移工具MaxCompute Migration Assist(MMA)来加速迁移工作,如图3所示。
TB1YBV1veT2gK0jSZFvXXXnFXXa-1492-810.png

图3 通过MMA迁移工具迁移Hive数据示意图


   MMA的工作流程主要分为四个步骤:

  1. Metadata抓取

Meta carrier连接用户的Hive Metastore服务,抓取用户的Hive Metadata并在指定目录下生成一个目录,包含搬站所需的Metadata。用户可自行修改该目录下的文件来自定义搬站工具的一些行为。

  1. MaxCompute DDL与Hive UDTF生成

利用上述步骤抓取到的Metadata,生成另一个目录,包含用于创MaxCompute表和分区的所有的DDL语句,还包含用于数据迁移的Hive UDTF SQL。

  1. MaxCompute 表创建

运行上述批量生成的MaxCompute DDL,创建Hive迁移所需映射到MaxCompute的表与分区。

  1. Hive数据迁移

在用户Hadoop集群上运行上述步骤中所生成的Hive UDTF SQL,进行传输数据。需要注意的是,该UDTF是执行在用户Hadoop集群上,故需要关注到资源占用情况以及Hadoop集群到MaxCompute集群的网络连通性情况。

客户收益

  • 通过大数据平台上云并建立数据中台,整合线上业务和渠道,线下门店和B2B渠道的数据,D客户形成9大数据主题域,建立战略决策、管理决策、门店运营的数据运营体系,为业务提供及时的数据决策支持,效率提升的同时保证商品汰换的效率和频度。
  • 阿里云提供了完善的云上托管的数据处理方案、大规模计算储存、细粒度节点依赖管理等功能,D客户上云后,节省了30%的服务及人力成本。托管服务,无需对复杂作业进行运维,使企业更加专注于业务。
  • 使用成本低,同时提供更高的数据吞吐量和查询性能,可视化编辑界面,方便操作,且与阿里云大数据产品生态融为一体。
  • 电商平台相关单品推荐点击率提升70%到150%

附录

本案例涉及到的最佳实践列表:

  • DataWorks一站式大数据智能云研发平台

https://data.aliyun.com/product/ide?spm=5176.12825654.h2v3icoap.156.e9392c4aA8nWLQ&aly_as=nV7UhLXe

  • Hive数据如何同步到MaxCompute之实践讲解 – 基于MMA

https://yq.aliyun.com/articles/727330?spm=5176.10695662.1996646101.searchclickresult.c8c4262e5167ek

  • Kafka数据迁移MaxCompute最佳实践 – 基于DataWorks

https://help.aliyun.com/document_detail/120535.html?spm=5176.10695662.1996646101.searchclickresult.19642d0cDQWghl&aly_as=J1PvdnP0

  • Elasticsearch数据迁移至MaxCompute – 基于DataWorks

https://help.aliyun.com/document_detail/121009.html?spm=a2c4g.11186623.4.4.2cf1145bNtEpla

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6天前
|
消息中间件 数据采集 JSON
大数据 - DWD&DIM 行为数据
大数据 - DWD&DIM 行为数据
19 1
|
13天前
|
机器学习/深度学习 人工智能 分布式计算
理解并利用大数据的力量:解锁数据背后的价值
【8月更文挑战第7天】大数据已成为推动社会进步和经济发展的重要力量。通过理解并利用大数据的力量,企业可以解锁数据背后的价值,优化业务流程、提升决策效率和创新能力。然而,大数据应用也面临着诸多挑战和风险,需要企业不断学习和实践以应对。相信在未来的发展中,大数据将为我们带来更多的惊喜和机遇。
|
13天前
|
数据采集 数据挖掘 Python
python爬虫去哪儿网上爬取旅游景点14万条,可以做大数据分析的数据基础
本文介绍了使用Python编写的爬虫程序,成功从去哪儿网上爬取了14万条旅游景点信息,为大数据分析提供了数据基础。
|
13天前
|
存储 分布式计算 大数据
大数据处理竟然这么简单?学会这几招,你也能在数据洪流中游刃有余,秒变数据大师!
【8月更文挑战第6天】面对海量数据,有效处理成为关键。本文介绍大规模数据处理的核心挑战及解决方案,涵盖分布式存储(如HDFS)和计算(如Spark)。通过示例代码展示HDFS文件读写及Spark数据处理流程。此外,还强调了数据质量、安全及合理资源配置的重要性,助您在数据海洋中洞察先机。
34 1
|
6天前
|
消息中间件 大数据 Kafka
大数据 - DWD&DIM 业务数据
大数据 - DWD&DIM 业务数据
15 0
|
14天前
|
SQL 开发框架 大数据
【数据挖掘】顺丰科技2022年秋招大数据挖掘与分析工程师笔试题
顺丰科技2022年秋招大数据挖掘与分析工程师笔试题解析,涵盖了多领域选择题和编程题,包括动态规划、数据库封锁协议、概率论、SQL、排序算法等知识点。
28 0
|
22天前
|
机器学习/深度学习 人工智能 分布式计算
人工智能平台PAI使用问题之如何在MaxCompute上使用Protobuf处理数据
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
19天前
|
人工智能 自然语言处理 Serverless
阿里云百炼应用实践系列-让微信公众号成为智能客服
本文主要介绍如何基于百炼平台快速在10分钟让您的微信公众号(订阅号)变成 AI 智能客服。我们基于百炼平台的能力,以官方帮助文档为参考,让您的微信公众号(订阅号)成 为AI 智能客服,以便全天候(7x24)回应客户咨询,提升用户体验,介绍了相关技术方案和主要代码,供开发者参考。
阿里云百炼应用实践系列-让微信公众号成为智能客服
|
3月前
|
自然语言处理 达摩院 决策智能
阿里云智能客服开发者社区
阿里云智能客服开发者社区
|
自然语言处理
阿里云产品体系分为6大分类——企业应用——分为11类——智能客服
阿里云产品体系分为6大分类——企业应用——分为11类——智能客服自制脑图
148 1