Amazon如何利用云服务处理大规模多维数据集

简介:

智能电视设备能够了解需要录制哪些节目,浓缩咖啡机则能够在需要维修时自动报警,冰箱在牛奶即将耗尽前及时发出提醒——这一切都依托于数据分析的力量而实现。随着人们对于市场未来与消费者行为做出预测的愿望变得愈发迫切,以沃尔玛、Amazon、eBay以及Nordstrom等企业为代表的零售业巨擘已然将预测性分析视为一种必需。

 根据EKN Research发布的一份最新报告,有80%的电子商务巨头表示他们已经开始紧随Amazon走上分析技术发展道路。Jeff Bezos和他的管理团队在过去十七年中一直努力推动Amazon针对在线购物业务做出革新,并借此拿下每年20亿美元营收(其中包括高级电子商务业务与云计算服务)。在今天的文章中,我们将一同了解Amazon如何利用大数据分析机制提振自身业务。顺带一提,与网络层面的带头大哥一样,沃尔玛作为实体店铺经营领域的领袖亦在大数据分析研究方面颇具心得。

总部位于西雅图的电子商务巨头Amazon公司正利用大数据技术处理其约2亿个客户账户,并将来自客户的高达10亿GB数据保存在超过140万台服务器之上,旨在借此做出预测性分析并推动销售成效。数据已经成为Amazon公司的命脉,该公司利用数据确保自身能够通过个性化推荐、价格优惠、针对性营销等方式为客户带来独特的购物体验。大数据分析对于Amazon公司无异于一支魔杖,帮助其在当下这个市场竞争极为激烈的时代下利用个人数据维持客户忠诚度这种使用数据并实施正确创新的能力也成为Amazon得以跻身全球财富五百强企业的前提条件。

“数据即力量”可谓指引Amazon走向成功的座右铭。大家不妨打开自己的Amazon主页,其中的内容永远不会一成不变。Amazon公司会对大家在电子商务网站以及应用当中的一切操作做出追踪——旨在尽可能多地收集数据。当审视Amazon当中的“账户”选项时,我们能够从中窥探到其对于客户动向的强大追踪能力——“您可能喜欢的”、“看过上述产品的客户还看过这些宝贝”、“同类产品推荐”、“购买该产品的客户还购买了”等等,Amazon不断追踪客户的动向,从而为其提供个性化的卓越购物体验。

举例来说,我们可以通过以下页面看到如果大家选择在Amazon.com上购买一块磁盘驱动器,那么页面同时会显示与之类似且售出数量较高的其它产品以及大家可能希望一同购买的其它相关产品。

Amazon如何运用Hadoop技术

Amazon公司已经通过云环境下的一系列工具对大数据具体使用方式加以扩展,从而实现数据存储、数据收集、数据处理、数据共享以及数据协作等等。Amazon公司的Elastic MapReduce能够帮助这家零售商有效管理并使用其分析平台,同时以Hadoop框架为基础构建起预测性分析体系。与电子商务货架上约15亿种产品相关的各产品分类数据广泛存在于全球范围内的200多座数据中心,保存于Amazon S3当中且每周进行约5000万次更新。S3中的产品数据目录每30分钟进行一次处理,并将结果发送回各数据仓库当中。

Amazon建立的个性化推荐机制

Amazon公司利用大数据分析机制了解客户的实际购买行为、搜索哪些关键字以及具体需求,并据此赢得了客户的高度认同。

Amazon generates an additional 10%-30% revenue in response to the recommended suggestions it offers to its customers. Amazon公司全部营收中约有10%到30%来自其为客户提供的购买建议。Amazon公司是大数据挖掘领域的先驱,其能够利用数据分析结论提供个性化营销手段,从而为客户提供独一无二的购物体验。凭借跨越十个国家的超过200万卖家以及2亿消费者,Amazon公司得以利用极具创新性的数据驱动型技术为受众群体提供个性化推荐。

在Amazon方面看来,其客户主要分为两类:

Amazon买家客户

立足于Amazon市场之上的卖家客户

Amazon公司的推荐算法包含有大量相关因素,包括购买记录、浏览记录、好友影响、特定产品销售趋势、社交媒体对高人气产品之宣传以及客户此前曾进行过的类似产品购买行为等等。经过重重处理,其最终才会为客户提供产品推荐。Amazon公司一直在完善其推荐算法,从而寻求为客户提供更理想服务水平的途径。

电子商务市场中的卖家面对的问题包括:

 他们应当在自己的货架上添加哪些新产品?

 他们应当为特定产品准备多少库存以满足客户的实际需要?

 如何通过提供更多选项与更出色的服务保持客户满意度?

Amazon公司在服务卖家客户方面亦取得了巨大成功,其举措包括为卖家提供库存建议、新产品添加选项指导以及如何为特定产品匹配合适的交付方式从而满足客户等等。平均来讲,Amazon公司的每位卖家客户能够获得超过100条关于产品目录的建议与意见。

在提高客户满意度方面,最具挑战也最为关键的一点就是提升产品库存管理机制。Amazon公司提供的一类常见建议就是提醒卖家哪类产品即将售罄。根据推荐算法中的各项因素,Amazon公司会向卖家提供建议以展望其产品的未来市场需求,从而提醒其尽早在Amazon市场上进行补货——这无疑是一项双赢战略。

Amazon的动态价格优化机制

价格优化在零售市场上是一项关键性因素,因为各零售商都在努力为每款产品提供最具吸引力的价格优势。价格管理工作一直受到Amazon的严格关注,这也成为其吸引买家、压倒其它竞争对手并提振业务利润率的有效途径。

动态定价机制能够帮助Amazon公司以24 x 7 x 365的全天候方式关注产品价格并借此提升25%销售利润率。Amazon公司从2012年到2013年的销售总额增长了27.2%,同时也第一次凭借可观的营业额跻身全美十大顶级零售商。Amazon公司的产品定价策略通过对站内客户行为、产品可用库存、竞争对手同类产品价格、订购历史、产品偏好性以及产品预期利润率等数据来源的分析支持实时价格调整。Amazon公司目前每十分钟即对全部产品进行一次价格变更。

购物者们可能总会发现Amazon永远能够在电商竞争对手当中拿出最为优惠的产品价格——而这应当归功于其动态定价策略。Amazon的动态定价算法能够根据价格感知以及人类心理琢磨等方式在一小时内实现多次价格调整。除了利用摊薄成本压低畅销产品价格之外,Amazon还能够及时上调滞销产品价格以提振利润额。

举例来说,Amazon公司能够将销量最可观的智能手机的价格设定为较竞争对手低25%,同时将人气不高的智能手机机型的价格提升为较竞争对手高10%。

根据《彭博商务》发布的一份分析报告,“Amazon公司在特定时期内可能并不是特定产品价格最低的卖家,但其能够始终保持高关注产品的价格优势并借此吸引到大量客户,从而实现更理想的整体收益——在这方面Amazon的表现甚至超越了沃尔玛。”

Amazon拥有众多对其服务极为满意的客户,他们之所以给出高评价,完全是由于Amazon的动态定价策略,甚至未能在正确时间享受折扣时不会斥责Amazon而更倾向于归咎于自身原因。动态定价策略方面最典型的例子就是不久之前Amazon公司以70美元超低价对《星球大战》系列蓝光合集进行清仓,但一周之后价格则上涨到了134美元。买到这套礼盒的客户窃喜不已,而未能及时下手的买家则捶胸顿足。

Amazon的供应链优化机制

Amazon公司显然已经在强化客户购物体验方面取得了成功,但如果没有高效的供应链与发货机制,这一切仍然是空谈。根据由CapGemini发布的一份调查报告,89%的美国客户在无法立即得到发货服务时会立即转换到其它商务平台。而且相较于沃尔玛的约50万货品发送量,Amazon的发货强度高达1000万件。

Amazon公司拥有与制造商之间的实时对接通道,能够根据同一天内或者次日的交货数据追踪库存并为客户提供更易接受的选项。Amazon公司利用大数据系统根据供应商供应能力选择数据仓库,从而避免客户们由于无法及时收到货品而决定退单。这些大数据系统帮助Amazon预测必要的数据仓库数量以及每套仓库所需要的具体容量。

Amazon公司还利用图论原则选择优化规划、路线以及产品分组,从而最大程度降低交付成本。

预测式出货——Amazon在客户决定购买前即掌握其需求

Amazon公司凭借着预测式出货(Anticipatory Shipping)专利技术显著提升交货速度,从而进一步扩大了自身与竞争对手间的比较优势。直观来讲,这项专利旨在利用预测式分析工具预先判断客户是否会购买对应产品,并在其实际下单之前就开始发货。这项专利表明,Amazon对于自己的预测分析系统在准确性方面的表现极具信心,甚至能够判断出客户要买什么、何时购买。

众多传统零售商都有能力为客户提供个性化购买建议,但Amazon正试图通过准确预测客户想要购买的货品而将技术手段提升至新的水平。如果其大数据算法出现了错误,那么Amazon可能必须承担产品重返物流中心所带来的种种意外成本。尽管存在着这些潜在挑战,但预测式出货技术仍然值得期待,我们也将关注其如何帮助Amazon在未来继续保持强大的竞争优势。

以沃尔玛、Amazon、eBay以及Norstrom为代表的各零售商正积极投资大数据技术,旨在维护客户关系并拓展自身业务。人们惊讶地发现零售商已经能够做出极为准确的预测,而这些与客户行为相关的准确判断将在长远角度上切实推动其业务价值。



本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
10天前
|
机器学习/深度学习 数据采集 算法
构建高效机器学习模型的五大策略
【4月更文挑战第30天】在数据驱动的时代,构建高效的机器学习(ML)模型已成为企业获取竞争优势的关键。本文将探讨五个关键策略,以优化机器学习工作流程,包括数据预处理、特征工程、模型选择、超参数调优和模型评估。通过这些策略的实施,读者可以提升其模型的性能、泛化能力和解释性,从而更有效地解决复杂问题。
|
29天前
|
SQL 存储 人工智能
Google BigQuery深度解析:云端大数据分析服务的威力
【4月更文挑战第8天】本文是关于Google Cloud Platform的BigQuery在大数据和云技术领域的应用分析。BigQuery的核心特性包括无服务器、全托管架构,实现高性能的超大规模并行处理,并严格遵循安全与合规标准。在实战应用中,它用于数据湖分析、机器学习与AI,以及实时数据分析与BI。BigQuery的极致性能、易用性和与GCP生态的整合,使其成为云端大数据分析的强大工具,适用于各种行业场景,帮助企业释放数据价值。作者将持续分享相关技巧和最佳实践。
40 0
|
9月前
|
存储 NoSQL 数据库
如何使用图形数据库构建实时推荐引擎
“您可能还喜欢”是一个简单的短语,暗示了企业与客户互动和联系方式的新时代,图形数据库可以轻松帮助构建推荐引擎。
57 0
|
9月前
|
数据采集 数据可视化 数据挖掘
使用Sentieon加速甲基化WGBS数据分析
使用Sentieon加速甲基化WGBS数据分析
126 0
使用Sentieon加速甲基化WGBS数据分析
|
9月前
|
存储 人工智能 自然语言处理
悦数图数据库:发布 AI 大模型解决方案,开启「图+ 大模型」应用新范式
随着 AI 人工智能技术的迅猛发展和自然语言处理领域的研究日益深入,如何构建强大的大语言模型对于企业来说愈发重要,而图数据库作为处理复杂数据结构的有力工具,为企业构建行业大语言模型提供了强大的支持。
|
10月前
|
存储 人工智能 运维
悦数图数据库v3.5.0发布:查询性能大幅提升,为智能决策和 AI 大模型应用提速
近日,悦数图数据库最新版本(v3.5.0)正式发布,进一步强化数据库内核的查询性能和稳定性,同时全面升级了自带的可视化探索和运维管理工具「悦数图探索」和「悦数运维监控」,全面提升用户体验。
悦数图数据库v3.5.0发布:查询性能大幅提升,为智能决策和 AI 大模型应用提速
|
12月前
|
机器学习/深度学习 数据可视化 测试技术
全方位支持任务数据集模型,Salesforce开源一站式视觉语言学习框架LAVIS
全方位支持任务数据集模型,Salesforce开源一站式视觉语言学习框架LAVIS
178 0
|
机器学习/深度学习 存储 自然语言处理
阿里开源自研工业级稀疏模型高性能训练框架 PAI-HybridBackend
近年来,随着稀疏模型对算力日益增长的需求, CPU集群必须不断扩大集群规模来满足训练的时效需求,这同时也带来了不断上升的资源成本以及实验的调试成本。为了解决这一问题,阿里云机器学习PAI平台开源了稀疏模型高性能同步训练框架HybridBackend,使得在同成本下GPU集群训练吞吐较CPU集群提升至5倍,大幅降低调试成本。那么HybridBackend背后的技术框架如何设计?未来有哪些规划?本文将和大家一起来深入了解。
阿里开源自研工业级稀疏模型高性能训练框架 PAI-HybridBackend
|
机器学习/深度学习 存储 自然语言处理
阿里开源自研工业级稀疏模型高性能训练框架 HybridBackend
近年来,随着稀疏模型对算力日益增长的需求, CPU集群必须不断扩大集群规模来满足训练的时效需求,这同时也带来了不断上升的资源成本以及实验的调试成本。
阿里开源自研工业级稀疏模型高性能训练框架 HybridBackend
|
机器学习/深度学习 SQL 分布式计算
伴鱼:借助 Flink 完成机器学习特征系统的升级
Flink 用于机器学习特征工程,解决了特征上线难的问题;以及 SQL + Python UDF 如何用于生产实践。
伴鱼:借助 Flink 完成机器学习特征系统的升级