Amazon如何利用云服务处理大规模多维数据集

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

智能电视设备能够了解需要录制哪些节目,浓缩咖啡机则能够在需要维修时自动报警,冰箱在牛奶即将耗尽前及时发出提醒——这一切都依托于数据分析的力量而实现。随着人们对于市场未来与消费者行为做出预测的愿望变得愈发迫切,以沃尔玛、Amazon、eBay以及Nordstrom等企业为代表的零售业巨擘已然将预测性分析视为一种必需。

 根据EKN Research发布的一份最新报告,有80%的电子商务巨头表示他们已经开始紧随Amazon走上分析技术发展道路。Jeff Bezos和他的管理团队在过去十七年中一直努力推动Amazon针对在线购物业务做出革新,并借此拿下每年20亿美元营收(其中包括高级电子商务业务与云计算服务)。在今天的文章中,我们将一同了解Amazon如何利用大数据分析机制提振自身业务。顺带一提,与网络层面的带头大哥一样,沃尔玛作为实体店铺经营领域的领袖亦在大数据分析研究方面颇具心得。

总部位于西雅图的电子商务巨头Amazon公司正利用大数据技术处理其约2亿个客户账户,并将来自客户的高达10亿GB数据保存在超过140万台服务器之上,旨在借此做出预测性分析并推动销售成效。数据已经成为Amazon公司的命脉,该公司利用数据确保自身能够通过个性化推荐、价格优惠、针对性营销等方式为客户带来独特的购物体验。大数据分析对于Amazon公司无异于一支魔杖,帮助其在当下这个市场竞争极为激烈的时代下利用个人数据维持客户忠诚度这种使用数据并实施正确创新的能力也成为Amazon得以跻身全球财富五百强企业的前提条件。

“数据即力量”可谓指引Amazon走向成功的座右铭。大家不妨打开自己的Amazon主页,其中的内容永远不会一成不变。Amazon公司会对大家在电子商务网站以及应用当中的一切操作做出追踪——旨在尽可能多地收集数据。当审视Amazon当中的“账户”选项时,我们能够从中窥探到其对于客户动向的强大追踪能力——“您可能喜欢的”、“看过上述产品的客户还看过这些宝贝”、“同类产品推荐”、“购买该产品的客户还购买了”等等,Amazon不断追踪客户的动向,从而为其提供个性化的卓越购物体验。

举例来说,我们可以通过以下页面看到如果大家选择在Amazon.com上购买一块磁盘驱动器,那么页面同时会显示与之类似且售出数量较高的其它产品以及大家可能希望一同购买的其它相关产品。

Amazon如何运用Hadoop技术

Amazon公司已经通过云环境下的一系列工具对大数据具体使用方式加以扩展,从而实现数据存储、数据收集、数据处理、数据共享以及数据协作等等。Amazon公司的Elastic MapReduce能够帮助这家零售商有效管理并使用其分析平台,同时以Hadoop框架为基础构建起预测性分析体系。与电子商务货架上约15亿种产品相关的各产品分类数据广泛存在于全球范围内的200多座数据中心,保存于Amazon S3当中且每周进行约5000万次更新。S3中的产品数据目录每30分钟进行一次处理,并将结果发送回各数据仓库当中。

Amazon建立的个性化推荐机制

Amazon公司利用大数据分析机制了解客户的实际购买行为、搜索哪些关键字以及具体需求,并据此赢得了客户的高度认同。

Amazon generates an additional 10%-30% revenue in response to the recommended suggestions it offers to its customers. Amazon公司全部营收中约有10%到30%来自其为客户提供的购买建议。Amazon公司是大数据挖掘领域的先驱,其能够利用数据分析结论提供个性化营销手段,从而为客户提供独一无二的购物体验。凭借跨越十个国家的超过200万卖家以及2亿消费者,Amazon公司得以利用极具创新性的数据驱动型技术为受众群体提供个性化推荐。

在Amazon方面看来,其客户主要分为两类:

Amazon买家客户

立足于Amazon市场之上的卖家客户

Amazon公司的推荐算法包含有大量相关因素,包括购买记录、浏览记录、好友影响、特定产品销售趋势、社交媒体对高人气产品之宣传以及客户此前曾进行过的类似产品购买行为等等。经过重重处理,其最终才会为客户提供产品推荐。Amazon公司一直在完善其推荐算法,从而寻求为客户提供更理想服务水平的途径。

电子商务市场中的卖家面对的问题包括:

 他们应当在自己的货架上添加哪些新产品?

 他们应当为特定产品准备多少库存以满足客户的实际需要?

 如何通过提供更多选项与更出色的服务保持客户满意度?

Amazon公司在服务卖家客户方面亦取得了巨大成功,其举措包括为卖家提供库存建议、新产品添加选项指导以及如何为特定产品匹配合适的交付方式从而满足客户等等。平均来讲,Amazon公司的每位卖家客户能够获得超过100条关于产品目录的建议与意见。

在提高客户满意度方面,最具挑战也最为关键的一点就是提升产品库存管理机制。Amazon公司提供的一类常见建议就是提醒卖家哪类产品即将售罄。根据推荐算法中的各项因素,Amazon公司会向卖家提供建议以展望其产品的未来市场需求,从而提醒其尽早在Amazon市场上进行补货——这无疑是一项双赢战略。

Amazon的动态价格优化机制

价格优化在零售市场上是一项关键性因素,因为各零售商都在努力为每款产品提供最具吸引力的价格优势。价格管理工作一直受到Amazon的严格关注,这也成为其吸引买家、压倒其它竞争对手并提振业务利润率的有效途径。

动态定价机制能够帮助Amazon公司以24 x 7 x 365的全天候方式关注产品价格并借此提升25%销售利润率。Amazon公司从2012年到2013年的销售总额增长了27.2%,同时也第一次凭借可观的营业额跻身全美十大顶级零售商。Amazon公司的产品定价策略通过对站内客户行为、产品可用库存、竞争对手同类产品价格、订购历史、产品偏好性以及产品预期利润率等数据来源的分析支持实时价格调整。Amazon公司目前每十分钟即对全部产品进行一次价格变更。

购物者们可能总会发现Amazon永远能够在电商竞争对手当中拿出最为优惠的产品价格——而这应当归功于其动态定价策略。Amazon的动态定价算法能够根据价格感知以及人类心理琢磨等方式在一小时内实现多次价格调整。除了利用摊薄成本压低畅销产品价格之外,Amazon还能够及时上调滞销产品价格以提振利润额。

举例来说,Amazon公司能够将销量最可观的智能手机的价格设定为较竞争对手低25%,同时将人气不高的智能手机机型的价格提升为较竞争对手高10%。

根据《彭博商务》发布的一份分析报告,“Amazon公司在特定时期内可能并不是特定产品价格最低的卖家,但其能够始终保持高关注产品的价格优势并借此吸引到大量客户,从而实现更理想的整体收益——在这方面Amazon的表现甚至超越了沃尔玛。”

Amazon拥有众多对其服务极为满意的客户,他们之所以给出高评价,完全是由于Amazon的动态定价策略,甚至未能在正确时间享受折扣时不会斥责Amazon而更倾向于归咎于自身原因。动态定价策略方面最典型的例子就是不久之前Amazon公司以70美元超低价对《星球大战》系列蓝光合集进行清仓,但一周之后价格则上涨到了134美元。买到这套礼盒的客户窃喜不已,而未能及时下手的买家则捶胸顿足。

Amazon的供应链优化机制

Amazon公司显然已经在强化客户购物体验方面取得了成功,但如果没有高效的供应链与发货机制,这一切仍然是空谈。根据由CapGemini发布的一份调查报告,89%的美国客户在无法立即得到发货服务时会立即转换到其它商务平台。而且相较于沃尔玛的约50万货品发送量,Amazon的发货强度高达1000万件。

Amazon公司拥有与制造商之间的实时对接通道,能够根据同一天内或者次日的交货数据追踪库存并为客户提供更易接受的选项。Amazon公司利用大数据系统根据供应商供应能力选择数据仓库,从而避免客户们由于无法及时收到货品而决定退单。这些大数据系统帮助Amazon预测必要的数据仓库数量以及每套仓库所需要的具体容量。

Amazon公司还利用图论原则选择优化规划、路线以及产品分组,从而最大程度降低交付成本。

预测式出货——Amazon在客户决定购买前即掌握其需求

Amazon公司凭借着预测式出货(Anticipatory Shipping)专利技术显著提升交货速度,从而进一步扩大了自身与竞争对手间的比较优势。直观来讲,这项专利旨在利用预测式分析工具预先判断客户是否会购买对应产品,并在其实际下单之前就开始发货。这项专利表明,Amazon对于自己的预测分析系统在准确性方面的表现极具信心,甚至能够判断出客户要买什么、何时购买。

众多传统零售商都有能力为客户提供个性化购买建议,但Amazon正试图通过准确预测客户想要购买的货品而将技术手段提升至新的水平。如果其大数据算法出现了错误,那么Amazon可能必须承担产品重返物流中心所带来的种种意外成本。尽管存在着这些潜在挑战,但预测式出货技术仍然值得期待,我们也将关注其如何帮助Amazon在未来继续保持强大的竞争优势。

以沃尔玛、Amazon、eBay以及Norstrom为代表的各零售商正积极投资大数据技术,旨在维护客户关系并拓展自身业务。人们惊讶地发现零售商已经能够做出极为准确的预测,而这些与客户行为相关的准确判断将在长远角度上切实推动其业务价值。



本文转自d1net(转载)

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5月前
|
存储 数据采集 人工智能
AI时代:云存储加速多模态数据存储与管理创新
阿里云存储产品高级解决方案架构师欧阳雁(乐忱)分享了中国企业在全闪存高端存储市场的快速增长,指出AI大模型的发展推动了企业级存储市场。去年,高端企业级存储闪存占比约为25%,相较于欧美50%的比例,显示出中国在AI领域的巨大增长潜力。演讲涵盖AI业务流程,包括数据预处理、训练和推理的痛点,以及针对这些环节的存储解决方案,强调了稳定、高性能和生命周期管理的重要性。此外,还介绍了数据预处理的全球加速和弹性临时盘技术,训练阶段的高性能存储架构,推理场景的加速器和AI Agent的应用,以及应对大数据业务的存储考量,如对象存储、闪电立方和冷归档存储产品。
38712 20
|
存储 机器学习/深度学习 人工智能
大模型时代的存储趋势
从2022年下半年,大模型和AIGC这两个词变得极其火热,而GPU的市场也是一卡难求。对于这种迷乱和火热,让我想起了当年的比特币挖矿和IPFS。似乎世界一年一个新风口,比特币、元宇宙、NFT、AIGC,金钱永不眠,IT炒作永不停歇。 每一个新的风口出现,总有两拨势力在冲突,保守派不断探索业务的真实价值,通过价值投资试图证明这又是一个新的庞氏骗局;另一波则是来势汹汹,集结一切可团结的力量,证明新时代已经来临。对于这一个个的风口,AIGC和大模型似乎与前几年的风口不一样,让我们看到了一丝真正的未来科技,在这篇文章,我会分享我对大模型&AIGC的看法,以及从存储的视角思索,在大模型时代存储的趋势。
|
存储
大数据分析基础——维度模型
image.png 1基本概念 维度模型的概念出自于数据仓库领域,是数据仓库建设中的一种数据建模方法。维度模型主要由事实表和维度表这两个基本要素构成。
2651 0
|
21小时前
|
SQL 人工智能 JSON
XGrammar:陈天奇团队推出的LLM结构化生成引擎
XGrammar是由陈天奇团队推出的开源软件库,专为大型语言模型(LLM)设计,提供高效、灵活且可移植的结构化数据生成能力。基于上下文无关语法(CFG),XGrammar支持递归组合以表示复杂结构,适用于生成JSON、SQL等格式数据,并通过字节级下推自动机优化解释CFG,实现百倍加速。
7 0
XGrammar:陈天奇团队推出的LLM结构化生成引擎
|
3月前
|
机器学习/深度学习 分布式计算 Cloud Native
云原生架构下的高性能计算解决方案:利用分布式计算资源加速机器学习训练
【8月更文第19天】随着大数据和人工智能技术的发展,机器学习模型的训练数据量和复杂度都在迅速增长。传统的单机训练方式已经无法满足日益增长的计算需求。云原生架构为高性能计算提供了新的可能性,通过利用分布式计算资源,可以在短时间内完成大规模数据集的训练任务。本文将探讨如何在云原生环境下搭建高性能计算平台,并展示如何使用 PyTorch 和 TensorFlow 这样的流行框架进行分布式训练。
130 2
|
存储 机器学习/深度学习 传感器
TDengine+OpenVINO+AIxBoard,助力时序数据分类
本文将通过一个具体的案例,介绍 Intel 团队如何使用 TDengine 作为基础软件存储实验数据,并通过 TDengine 高效的查询能力在 OpenVINO 部署深度学习模型,最终在 AIxBoard 开发板上实时运行分类任务。
157 1
|
6月前
|
SQL 存储 人工智能
Google BigQuery深度解析:云端大数据分析服务的威力
【4月更文挑战第8天】本文是关于Google Cloud Platform的BigQuery在大数据和云技术领域的应用分析。BigQuery的核心特性包括无服务器、全托管架构,实现高性能的超大规模并行处理,并严格遵循安全与合规标准。在实战应用中,它用于数据湖分析、机器学习与AI,以及实时数据分析与BI。BigQuery的极致性能、易用性和与GCP生态的整合,使其成为云端大数据分析的强大工具,适用于各种行业场景,帮助企业释放数据价值。作者将持续分享相关技巧和最佳实践。
824 0
|
6月前
|
存储 机器学习/深度学习 数据采集
云存储在AIOps、数字人以及训练推理场景的最佳实践
12月2日,阿里云存储团队、通义实验室、阿里云培训中心在深圳粤海国际化企业服务交流中心联合举办了云存储技术实战营之数据+AI专场沙龙,吸引了众多开发者和企业代表的关注。
104831 3
|
11月前
|
机器学习/深度学习 SQL 分布式计算
Azure 机器学习 - Azure机器学习产品和技术介绍全览
Azure 机器学习 - Azure机器学习产品和技术介绍全览
115 0
|
存储 NoSQL 数据库
如何使用图形数据库构建实时推荐引擎
“您可能还喜欢”是一个简单的短语,暗示了企业与客户互动和联系方式的新时代,图形数据库可以轻松帮助构建推荐引擎。
81 0
下一篇
无影云桌面