开发者社区> 阿里巴巴存储技术> 正文

如何使用云原生数据湖,助力线上教育行业逐步智能化

简介: 阿里云基于对象存储OSS构建的数据湖解决方案,帮助企业有效消除数据孤岛的现象,让数据的价值真正被利用起来。
+关注继续查看

行业综述

线下教育行业因疫情受挫,线上教育却逆势增长
随着90年代互联网的引入,在线教育产品也依托于互联网诞生。随着互联网技术的发展,在线教育产品也开始了出现新的模式。在线教育从最初单纯的文字形式,开始往图片、音频方面开始发展。加上这几年直播技术的发展和人工智能等技术在在线教育的应用,在线教育成为今年疫情影响下,为数不多能实现逆势增长的行业。
由于疫情的影响,教育行业根据中央疫情防控工作部署,直接暂停各类线下授课,不举办任何形式的聚集性培训活动。在此期间各类线下培训机构遭受重创,某知名线下教育机构上半年营收同期降低30%,净亏损将近1亿。
和线下教育不同的是,线上教育行业整体呈现逆势增长的态势,根据数据显示,2020年中国在线教育用户规模预计将达到3.51亿人,预计市场规模将达到4858亿元。同时由于疫情的影响,三月份在线教育市场渗透率更是高达85%,增长率是2019年的5倍以上。

行业发展方向

在线教育向数据化发展,行业逐步智能化
教育在线化也进一步促进了数据化的发展,内容作为教育企业的核心资产,无论是数据化程度还是数据化规模都不断提升;同时用户使用时长的提升,又为教育AI提供了大量源数据。据统计今年3月份在线教育用户日均在线时长,超过200万天。如此海量的数据为行业的智能化发展提供了良好的土壤,推动了教学内容、课程营销、师资管理、质量评估等智能分析的发展。
7.png

面临的痛点

行业飞速发展,数据处理成难题
行业飞速发展,用户大量涌入,数据暴增,这就对企业在业务与数据多样性方向带来了挑战。
首先由于在线教育行业的特殊性,业务量会随着学校是否放假而产生波动,基本呈现“春秋高、寒暑低”的季节性规律。同时由于此次疫情事件,让整个行业重新认识到突发性业务的威力,因此如何更平滑地应对业务波动,对企业来说仍然是一个非常重要的挑战。
其次大量用户涌入平台,势必会带来大量的用户行为数据,数据的增加自然会带来存储成本的增长。但数据是有价值的,利用好数据,将会为企业带来更多的客户以及更高的转化。因此如何将这部分数据沉默成本与数据的价值相平衡,对企业来说也是一个巨大的挑战。
另外在线教育往往会涵盖多个细分领域,经常会包括学前教育、K12、语言类、职业类、高等教育等。教育机构往往会涉及到多应用、多教学场景,从而产生繁多的数据,因此如何应对多类型的数据存储,对于平台方来说也是一个不小的挑战。
8.png

教育行业数据湖解决方案

构建统一的在线教育数据湖,让数据的价值真正得到利用
基于以上问题,我们可以构建一个统一的在线教育数据湖。阿里云基于对象存储OSS构建的数据湖解决方案,帮助企业有效消除数据孤岛的现象,让数据的价值真正被利用起来。
9.png
首先阿里云基于云存储构建的数据湖天然具有很好的弹性伸缩能力,特别是在阿里云的节点及规模优势基础之上,能够轻松应对业务指数级的扩容需求,平滑应对业务各类型波动及峰值。
其次,阿里云对象存储OSS支持标准、低频、归档三种存储类型,覆盖热、温、冷的数据场景,结合生命周期管理功能,可以自动实现对数据的冷热分层,很好实现对数据存储的成本的管理。
在此基础上,DLA提供的弹性计算能力,Serverless SQL(Presto)和Serverless Spark双计算引擎,快速搭建业务分析系统,并且帮助用户轻松应对波峰波谷的压力,最大限度降本增效。
最后在应对丰富的数据类型上,面向教学场景的教学资源数据、教学过程数据、教学评价数据、教学行为数据;面向结构化或非结构化数据;面向音视频数据、各应用数据、日志数据等,都可以通过基于OSS的数据湖沉淀,并进行统一的存储。
10.png

最佳实践

客户介绍:
该客户需要可发内容资讯APP,为用户提供感兴趣、有价值的个性化内容,致力于让用户的阅读更有价值,因此个性化推荐就成为其产品重要的核心能力。

遇到的问题:
1、随着业务多年的发展,存储数据量规模已经达到百PB左右,数据在产生阶段会有比较密集的访问,随着时间的增长,数据的访问会逐渐趋冷,多年累积的冷数据已经对集群容量产生了极大压力

2、客户原计划通过扩大集群规模,去支撑冷数据的持续增长,但随着数据规模持续增加,让集群扩容难度大幅度提升。另一方面,扩容的服务器的计算资源利用率较低,无法形成资源的充分利用

数据湖解决方案
1、数据湖解决方案,可为用户提供数据冷热分层的功能,积累的冷数据被统一迁移到阿里云对象存储OSS,新产生的热数据保存在HDFS集群,热数据经过一段时间逐渐趋冷后,就会定期迁移到对象存储OSS进行冷处理

2、阿里云对象存储OSS对于Hadoop生态的支持特性,原有计算任务只需简单调整访问地址就可以按照原有方式运行,让计算任务能够平滑迁移到数据湖运行。对于存储到OSS冷数据,客户通过OSS Lifecycle机制,定期将一部分冷数据进一步深度转化为OSS归档类型,持续优化冷数据存储成本,达到降本增效

达到的效果
1、OSS提供业内最丰富的API接口,帮助客户将海量数据从其他从各个不同数据源轻松迁移到OSS
2、客户在OSS的基础上,还采用阿里云的日志服务,一站式解决日志采集、处理、查询、投递的各种难题,甚至还可以通过混合云存储阵列打通云上线下数据的一体化
3、数据湖消除了客户之前存在的数据孤岛现象,支持各种计算引擎的直接对接,存储与计算解耦合的架构,能够更容易使用弹性计算和serverless化的云服务,让数据分析和访问无处不在

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Novell:低成本高效益的智能化数据中心
本文讲的是Novell:低成本高效益的智能化数据中心,近期,Novell与全球著名的咨询、顾问和活动服务专业提供商IDC在北京东方君悦酒店共同举办了主题为"事半功倍:低成本高效益的智能化数据中心"的研讨会,与众多企业IT部门的管理人员和决策者共同探讨了中国及全球云计算领域的发展和需求
1314 0
帆软FineReport如何使用程序数据集
大多数情况下,FineReport直接在设计器里使用“数据集查询”,直接写SQL就能满足报表要求,但对于一些复杂的报表,有时候SQL处理并不方便,这时可以把查询结果在应用层做一些预处理后,再传递给报表,即所谓的“程序数据集”,FineReport的帮助文档上给了一个示例: 1 package com.
1649 0
上海云栖:金融政企行业的CDN最佳实践
在刚刚结束的上海云栖大会飞天技术汇分论坛上,阿里云视频云产品架构师罗小飞进行了《阿里云CDN——面向金融政企的CDN最佳实践》主题分享,为上海的嘉宾介绍CDN的解决方案与技术服务体系。
2995 0
阿里大数据产品Dataphin上线公共云,将助力更多企业构建数据中台
日前,由阿里数据打造的智能数据构建与管理Dataphin,重磅上线阿里云-公共云,开启智能研发版本的公共云公测!在此之前,Dataphin以独立部署方式输出并服务线下客户,已助力多家大型客户高效自动化构建企业数据中台,不仅大幅度提升大数据研发效率,实现数据资产的标准化管理,更通过数据服务体系让数据智能驱动业务。
2679 0
云原生专场——阿里云峰会(上海)开发者大会PPT下载
7月24日,阿里云峰会(上海)开发者大会在上海世博中心盛大启程,与未来世界的开发者们分享开源大数据、IT基础设施云化、数据库、云原生、物联网等领域的技术干货,共同探讨前沿科技趋势,分析阿里云在一线生产场景的最佳实践,携手合作伙伴及广大开发者们共建云上开发新时代,让我们一起code up!
2414 0
Discord 公司如何使用 Cassandra 存储上亿条线上数据
Discord 是一款国外的类似 YY 的语音聊天软件。Discord 语音聊天软件及我们的 UGC 内容的增长速度比想象中要快得多。随着越来越多用户的加入,带来了更多聊天消息。2016 年 7 月,每天大约有 4 千万条消息;2016 年 12 月,每天超过亿条。
4575 0
139
文章
1
问答
来源圈子
更多
阿里云存储基于飞天盘古2.0分布式存储系统,产品包括对象存储OSS、块存储Block Storage、共享文件存储NAS、表格存储、日志存储与分析、归档存储及混合云存储等,充分满足用户数据存储和迁移上云需求,连续三年跻身全球云存储魔力象限四强。
+ 订阅
相关文档: 混合云容灾服务 混合云备份服务 日志服务
文章排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载