如何使用云原生数据湖,助力线上教育行业逐步智能化

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 阿里云基于对象存储OSS构建的数据湖解决方案,帮助企业有效消除数据孤岛的现象,让数据的价值真正被利用起来。

行业综述

线下教育行业因疫情受挫,线上教育却逆势增长
随着90年代互联网的引入,在线教育产品也依托于互联网诞生。随着互联网技术的发展,在线教育产品也开始了出现新的模式。在线教育从最初单纯的文字形式,开始往图片、音频方面开始发展。加上这几年直播技术的发展和人工智能等技术在在线教育的应用,在线教育成为今年疫情影响下,为数不多能实现逆势增长的行业。
由于疫情的影响,教育行业根据中央疫情防控工作部署,直接暂停各类线下授课,不举办任何形式的聚集性培训活动。在此期间各类线下培训机构遭受重创,某知名线下教育机构上半年营收同期降低30%,净亏损将近1亿。
和线下教育不同的是,线上教育行业整体呈现逆势增长的态势,根据数据显示,2020年中国在线教育用户规模预计将达到3.51亿人,预计市场规模将达到4858亿元。同时由于疫情的影响,三月份在线教育市场渗透率更是高达85%,增长率是2019年的5倍以上。

行业发展方向

在线教育向数据化发展,行业逐步智能化
教育在线化也进一步促进了数据化的发展,内容作为教育企业的核心资产,无论是数据化程度还是数据化规模都不断提升;同时用户使用时长的提升,又为教育AI提供了大量源数据。据统计今年3月份在线教育用户日均在线时长,超过200万天。如此海量的数据为行业的智能化发展提供了良好的土壤,推动了教学内容、课程营销、师资管理、质量评估等智能分析的发展。
7.png

面临的痛点

行业飞速发展,数据处理成难题
行业飞速发展,用户大量涌入,数据暴增,这就对企业在业务与数据多样性方向带来了挑战。
首先由于在线教育行业的特殊性,业务量会随着学校是否放假而产生波动,基本呈现“春秋高、寒暑低”的季节性规律。同时由于此次疫情事件,让整个行业重新认识到突发性业务的威力,因此如何更平滑地应对业务波动,对企业来说仍然是一个非常重要的挑战。
其次大量用户涌入平台,势必会带来大量的用户行为数据,数据的增加自然会带来存储成本的增长。但数据是有价值的,利用好数据,将会为企业带来更多的客户以及更高的转化。因此如何将这部分数据沉默成本与数据的价值相平衡,对企业来说也是一个巨大的挑战。
另外在线教育往往会涵盖多个细分领域,经常会包括学前教育、K12、语言类、职业类、高等教育等。教育机构往往会涉及到多应用、多教学场景,从而产生繁多的数据,因此如何应对多类型的数据存储,对于平台方来说也是一个不小的挑战。
8.png

教育行业数据湖解决方案

构建统一的在线教育数据湖,让数据的价值真正得到利用
基于以上问题,我们可以构建一个统一的在线教育数据湖。阿里云基于对象存储OSS构建的数据湖解决方案,帮助企业有效消除数据孤岛的现象,让数据的价值真正被利用起来。
9.png
首先阿里云基于云存储构建的数据湖天然具有很好的弹性伸缩能力,特别是在阿里云的节点及规模优势基础之上,能够轻松应对业务指数级的扩容需求,平滑应对业务各类型波动及峰值。
其次,阿里云对象存储OSS支持标准、低频、归档三种存储类型,覆盖热、温、冷的数据场景,结合生命周期管理功能,可以自动实现对数据的冷热分层,很好实现对数据存储的成本的管理。
在此基础上,DLA提供的弹性计算能力,Serverless SQL(Presto)和Serverless Spark双计算引擎,快速搭建业务分析系统,并且帮助用户轻松应对波峰波谷的压力,最大限度降本增效。
最后在应对丰富的数据类型上,面向教学场景的教学资源数据、教学过程数据、教学评价数据、教学行为数据;面向结构化或非结构化数据;面向音视频数据、各应用数据、日志数据等,都可以通过基于OSS的数据湖沉淀,并进行统一的存储。
10.png

最佳实践

客户介绍:
该客户需要可发内容资讯APP,为用户提供感兴趣、有价值的个性化内容,致力于让用户的阅读更有价值,因此个性化推荐就成为其产品重要的核心能力。

遇到的问题:
1、随着业务多年的发展,存储数据量规模已经达到百PB左右,数据在产生阶段会有比较密集的访问,随着时间的增长,数据的访问会逐渐趋冷,多年累积的冷数据已经对集群容量产生了极大压力

2、客户原计划通过扩大集群规模,去支撑冷数据的持续增长,但随着数据规模持续增加,让集群扩容难度大幅度提升。另一方面,扩容的服务器的计算资源利用率较低,无法形成资源的充分利用

数据湖解决方案
1、数据湖解决方案,可为用户提供数据冷热分层的功能,积累的冷数据被统一迁移到阿里云对象存储OSS,新产生的热数据保存在HDFS集群,热数据经过一段时间逐渐趋冷后,就会定期迁移到对象存储OSS进行冷处理

2、阿里云对象存储OSS对于Hadoop生态的支持特性,原有计算任务只需简单调整访问地址就可以按照原有方式运行,让计算任务能够平滑迁移到数据湖运行。对于存储到OSS冷数据,客户通过OSS Lifecycle机制,定期将一部分冷数据进一步深度转化为OSS归档类型,持续优化冷数据存储成本,达到降本增效

达到的效果
1、OSS提供业内最丰富的API接口,帮助客户将海量数据从其他从各个不同数据源轻松迁移到OSS
2、客户在OSS的基础上,还采用阿里云的日志服务,一站式解决日志采集、处理、查询、投递的各种难题,甚至还可以通过混合云存储阵列打通云上线下数据的一体化
3、数据湖消除了客户之前存在的数据孤岛现象,支持各种计算引擎的直接对接,存储与计算解耦合的架构,能够更容易使用弹性计算和serverless化的云服务,让数据分析和访问无处不在

相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
相关文章
|
2月前
|
人工智能 缓存 Kubernetes
.NET 9 首个预览版发布:瞄准云原生和智能应用开发
.NET 9 首个预览版发布:瞄准云原生和智能应用开发
|
3月前
电子好书发您分享《阿里云云原生数据湖体系全解读》
电子好书发您分享《阿里云云原生数据湖体系全解读》
120 2
|
4月前
|
存储 Cloud Native 关系型数据库
云原生与智能化的RDS
云原生与智能化的RDS
|
7月前
|
分布式计算 Kubernetes 流计算
Iceberg+Amoro+CloudEon体验云原生数据湖
通过使用CloudEon、Iceberg、Flink、Spark和Amoro,您可以轻松地在Kubernetes上构建一个强大的大数据基础环境。
262 0
|
5月前
|
存储 人工智能 Cloud Native
耳朵经济快速增长背后,喜马拉雅数据价值如何释放 | 创新场景
喜马拉雅和阿里云的合作,正走在整个互联网行业的最前沿,在新的数据底座之上,喜马拉雅的AI、大数据应用也将大放光彩。本文摘自《云栖战略参考》
46466 5
耳朵经济快速增长背后,喜马拉雅数据价值如何释放 | 创新场景
|
3月前
|
存储 人工智能 运维
【云原生企业级数据湖:打破数据孤岛,优化存储成本】
【云原生企业级数据湖:打破数据孤岛,优化存储成本】 随着大数据时代的到来,企业对于数据的处理和存储需求日益增长。如何有效地存储和管理大量数据,同时降低运维成本,成为了企业面临的一大挑战。盛通教育的云原生企业级数据湖方案,正是为了解决这一问题而设计的。
163 1
|
5月前
|
机器学习/深度学习 自然语言处理 Cloud Native
探索在云原生环境中构建的大数据驱动的智能应用程序的成功案例,并分析它们的关键要素。
大数据索引: Google使用大数据索引来构建其搜索引擎,并实时处理全球各种语言的文本数据。 云原生基础设施: Google Cloud提供了强大的云原生基础设施,支持大规模数据存储和处理。 自然语言处理: Google使用自然语言处理技术来理解和索引文本数据,从而提供高质量的搜索结果。 实时搜索: Google的
126 0
|
7月前
|
SQL Cloud Native 关系型数据库
快速构建轻量级云原生数据湖服务(二)
快速构建轻量级云原生数据湖服务(二)
203 0
|
7月前
|
SQL 存储 分布式计算
快速构建轻量级云原生数据湖服务(一)
快速构建轻量级云原生数据湖服务(一)
211 0
|
9月前
|
Cloud Native 大数据
阿里云最新产品手册——阿里云核心产品——云原生大数据计算服务——智能物流
阿里云最新产品手册——阿里云核心产品——云原生大数据计算服务——智能物流自制脑图
119 1