阿里云数据湖解决方案全面满足数据需求,帮助企业释放数据价值

本文涉及的产品
对象存储 OSS,20GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
文件存储 NAS,50GB 3个月
简介: 基于阿里云对象存储OSS构建的数据湖解决方案,可以全面满足数据的存储、离线分析、交互查询等各种业务诉求,帮助企业释放数据的价值

1、行业综述

游戏市场需求旺盛,行业景气度持续提升
2020年突如其来的疫情,使全国上下在2—3月处于全面抗疫,严防死守的状态,各行各业都受到了冲击,对国民经济造成了不小的影响。虽然此次疫情对于各行各业产生的影响颇深,但是对于“宅经济”来说,确实一针兴奋剂。
据统计,2020年第一季度,国内游戏市场稳中有升,实际营销收入732.03亿元。一季度中国自主研发游戏海外市场营销收入37.81亿美元,环比增长31.19%,同比增长40.56%,继续保持较高增速。
相比往年,今年在8月份刚结束的ChinaJoy,会发现一个高频词浮现,那就是“云游戏”。根据今年早些时候发布的《2020年云游戏产业调查报告》,今年中国云游戏的市场规模将超过10亿元,未来两年每年增长率超过100%,接下来的3到5年将是中国云游戏的快速成长期。

2、行业发展方向

换皮游戏时代已经终结,大数据驱动智能化精准运营
随着国内游戏行业的迅速发展,游戏画面更加精良,游戏引擎也愈加真实,玩家对于游戏内容品质要求越来越高,且游戏厂商众多,游戏迭代速度加快,玩家留存率大大降低。流量称王的时代终结,单纯靠流量导流的方式获取客户的行为收益极低。因此“换皮游戏”逐渐被这个时代所抛弃,游戏厂商要想在行业立足,在提供画面更优质、内容更丰富、游戏性更强的游戏同时,还需要依靠大数据分析,解决玩家个性化的需求以及进行更加精准的营销。
在解决完画面、内容以及游戏性等“硬件要求”后,越来越多的企业已经开始意识到需要把游戏数据进行更加精细化的运营分析,根据用户的活跃数据、充值数据、偏好数据等为用户推送不同的活动以及玩法。同时还会根据用户的战绩数据、游玩时长等为不同的用户提供不同的匹配逻辑与关卡难度。
相信大家在游玩MOBA类游戏时会发现,一般在连胜后,就会遭遇连败,输到自己怀疑人生。但是连败后又往往会迎接一波连胜,如此循环,最后将胜率稳定在50%上下。可能这一把匹配到的队友超强,“全场带飞”,下一把的队友就可能是个“萌新小可爱”,蹦蹦跳跳地进入敌方防御塔范围送人头。
这其实就是运用大数据驱动的一种方式,通过综合分析游戏玩家每把游戏表现来为玩家匹配不同的队友,最终让大部分玩家的胜率保持在50%上下,避免玩家因为连胜或者连败对该款游戏失去兴趣,大大增强了玩家的整体游戏体验,增强玩家的留存率,刺激更多的玩家为提升自己的实力进行消费。

面临的痛点

大数据驱动下数据存储成难题,资源浪费成难题
虽然在大数据的驱动下,可以精确地对相关用户进行营销,但是在大数据系统构建的时候,很多企业又遇到各种各样的技术挑战。比如,一份数据存储在在生产存储上,需要通过RAID或者多副本的方式进行冗余存储。这个时候我们要做大数据分析,需要把这些数据进行抽取、ETL处理,来复制到像Hadoop、HDFS存储上。但是通常情况下HDFS需要做三副本,因此一份数据通常需要拷贝5,6份以上,占用了大量的存储空间。
随着后期数据量的不断增长,扩容也逐渐成为了一个头疼的问题,像Hadoop原生的这种计算、存储融合的架构,如果需要进行扩容,就必须购买原来同规格服务器,极易造成计算、存储资源的浪费。更让人头疼的是,多个业务系统的数据往往是孤立的竖井状的,各个数据处理、分析系统不兼容,不能用一套大数据平台进行统一的数据存储、分析,管理复杂度极高。
1.png

数据湖解决方案

**阿里云数据湖解决方案,助力企业真正释放数据价值
**
基于阿里云对象存储OSS构建的数据湖解决方案,可以全面满足数据的存储、离线分析、交互查询等各种业务诉求,帮助解决上面提到的这些难题。
首先,数据湖解决方案可为用户存储的数据提供高达12个9的可靠性,让数据安全存放,保障用户数据不丢不坏。

 其次,阿里云的数据湖解决方案,也是一套十分智能的解决方案。其中对象存储OSS,可以对接个多业务系统,存储来自不同业务系统的多种数据源,如些系统的原始数据、游戏日志数据等。等数据汇聚到数据湖之后,它的上层系统可以兼容多种计算引擎,如开源大数据引擎像Hadoop,Spark,阿里云EMR、DLA等,帮助用户便捷地实现数据处理和分析,不需要再重复拷贝多份。同时采用 Jindofs提供缓存加速方案,还可以获得比使用HDFS更好的体验。

同时DLA所提供的双引擎,SQL(兼容Presto)和Spark为用户提供了在计算引擎层面job级别的弹性能力,只需要为每一个job消耗的计算资源付费,而无需搭建集群,Serverless化的计算能力,让用户可以使用SQL&Spark赋能业务,结合OSS的弹性能力,真正意义做到按量付费,降本增效。

2.png
这样一套整体的数据存储、处理分析解决方案,能很大程度地减少系统兼容性问题,管理维护也更加简单,帮助IT人员从复杂且繁琐的运维中解放出来,更加专注在产品创新和业务模式的运营上。

最佳案例实践

客户介绍
国内顶级游戏公司,出海手游TOP10,涉及的游戏类型包括休闲类游戏、卡牌类游戏、回合类游戏等。

业务痛点:

出海经历了最初的跑马圈地阶段,中国厂商对出海重视程度来到了更高级别。
游戏比拼的聚焦在精细化运营上面,精细化运营作为出海的必备技能如何提升运营效率,如何实时渠道和流量分析,ROI分析,如何智能化提升玩家活跃度,用户行为分析提高游戏体验。常常会碰到下面这些问题:

1.需要处理海量并且日益增长的日志数据。
2.需要提供弹性能力,达到最优的财务平衡。
3.数据分析师熟悉SQL,常常会有大数据量的多表join。
4.需要提供全面的游戏运营指标分析功能。
5.需要有效分析渠道效果,使每分钱都花在刀刃上。
6.对付费用户追踪分析,从而更好的反映付费用户在整7.个生命周期的关键行为和价值。
8.分析玩家游戏行为,购买道具改进产品体验,提高游戏收益

解决方案:
1、利用DLA的弹性计算能力,配合OSS的近乎无限的弹性存储能力,构建弹性数据湖方案,打造最优性价比。
2、对数据做分层处理,历史日志数据通过SLS投递到OSS,实时日志存入AnalyticDB。
3、利用DLA对数据做汇聚和ETL处理,并将统计结果放在AnalyticDB上存储。

业务价值:
1、玩家链路实时监控,提高游戏体验,达到千万DAU
2、用户精细化实时运营,T+1->实时,客户留存率提升30%
3、实时渠道统计,节省约200万/月广告成本
3.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
4月前
|
数据采集 存储 分布式计算
构建智能数据湖:DataWorks助力企业实现数据驱动转型
【8月更文第25天】本文将详细介绍如何利用阿里巴巴云的DataWorks平台构建一个智能、灵活、可扩展的数据湖存储体系,以帮助企业实现数据驱动的业务转型。我们将通过具体的案例和技术实践来展示DataWorks如何集成各种数据源,并通过数据湖进行高级分析和挖掘,最终基于数据洞察驱动业务增长和创新。
262 53
|
4月前
|
存储 分布式计算 监控
揭秘阿里云EMR:如何巧妙降低你的数据湖成本,让大数据不再昂贵?
【8月更文挑战第26天】阿里云EMR是一种高效的大数据处理服务,助力企业优化数据湖的成本效益。它提供弹性计算资源,支持根据需求调整规模;兼容并优化了Hadoop、Spark等开源工具,提升性能同时降低资源消耗。借助DataWorks及Data Lake Formation等工具,EMR简化了数据湖构建与管理流程,实现了数据的统一化治理。此外,EMR还支持OSS、Table Store等多种存储选项,并配备监控优化工具,确保数据处理流程高效稳定。通过这些措施,EMR帮助企业显著降低了数据处理和存储成本。
137 3
|
4月前
|
安全 数据管理 大数据
数据湖的未来已来:EMR DeltaLake携手阿里云DLF,重塑企业级数据处理格局
【8月更文挑战第26天】在大数据处理领域,阿里云EMR与DeltaLake的集成增强了数据处理能力。进一步结合阿里云DLF服务,实现了数据湖的一站式管理,自动化处理元数据及权限控制,简化管理流程。集成后的方案提升了数据安全性、可靠性和性能优化水平,让用户更专注业务价值。这一集成标志着数据湖技术向着自动化、安全和高效的未来迈出重要一步。
79 2
|
4月前
|
存储 数据采集 数据挖掘
数据仓库VS数据湖:选择正确的数据存储解决方案
【8月更文挑战第23天】企业在选择数据存储解决方案时,应综合考虑业务需求、数据特性、技术实力及成本效益等多方面因素,以做出最符合自身发展的决策。
|
4月前
|
存储 机器学习/深度学习 弹性计算
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
|
4月前
|
存储 缓存 数据管理
阿里云EMR数据湖文件系统问题之JindoFS数据孤岛的问题如何解决
阿里云EMR数据湖文件系统问题之JindoFS数据孤岛的问题如何解决
|
4月前
|
存储 对象存储 云计算
阿里云EMR数据湖文件系统问题之JindoFS处理大量小文件的问题如何解决
阿里云EMR数据湖文件系统问题之JindoFS处理大量小文件的问题如何解决
|
4月前
|
存储 对象存储
阿里云EMR数据湖文件系统问题之JindoFS的Snapshot实现的问题如何解决
阿里云EMR数据湖文件系统问题之JindoFS的Snapshot实现的问题如何解决
|
4月前
|
安全 分布式数据库 数据安全/隐私保护
阿里云EMR数据湖文件系统问题之JindoFS支持Snapshot功能的问题如何解决
阿里云EMR数据湖文件系统问题之JindoFS支持Snapshot功能的问题如何解决
|
7月前
|
SQL 分布式计算 数据处理
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
Uber基于Apache Hudi增量 ETL 构建大规模数据湖
147 2