5分钟GET一场清华大数据讲座实战应用案例干货

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介:

9月13日晚,由数据科学研究院主办,国双科技、清华大数据产业联合会承办的2016秋季学期首场清华大数据“应用·创新”系列讲座,在清华大学FIT楼多功能厅顺利举行。本场讲座邀请到了国双联合创始人、国双副总裁黄勇坚,通过实战应用案例对Lambda架构进行了全方位解读。

演讲时长两个多小时,全场满满干货,虽然当天也做了线上视频直播,但依旧有很多没有到场的大数据爱好者对此表示很遗憾,同样身为一名数据粉的小编不忍心让大家遗憾,为了让大家快速GET这场演讲的内容,小编特地捞出干货供大家交流学习。

Google、微信之后是什么时代?

回顾整个IT技术发展历程,它始终是以促使人类办事更加容易,生活更加方便为发展趋势的。

上个世纪40年代以来,依据冯·诺依曼架构、图灵理论而造出了计算机。初心其实是为了打仗,计算原子弹路径千万别跑偏,当时需要庞大的人工的计算量,但二战期间人力有限。IBM的神话由此诞生。

随着时代的发展,除了计算,人们还产生了办公、娱乐等诉求。于是计算机逐步个人化、微型化。那个年代成就了微软、英特尔这样的巨头。

后来进入互联网时代,Google这样改变世界的企业应运而生,紧随其后的还有微信这样的移动互联网神器。如今,当计算世界进入到“大数据”时代,又会出现什么样的传奇呢?

为什么说近十年才是“大数据”的时代?当年比尔·盖茨靠Windows起家难道就没人提“大数据”吗? 十年前,当我们想去一个地方却不知道路怎么走的情况下,还会依赖纸质地图。如今可以直接用百度、高德地图随时导航。十几年前并非没有“数据”,也不是没有需求,而是在整个业态里面,没人有能力收集起来这些数据,“大数据”又从何谈起呢?

中国大数据的两条腿

实质上,大数据技术是以解决业务问题为导向的。国双科技这家公司的文化也是一样以客户为中心,利用“大数据”帮助客户去解决业务问题,同时发现新的问题,以此也可以驱使技术进步。

中国的技术市场比较偏应用,各种基于大数据的应用满天飞,但是做底层做框架的公司并不多。另一方面,由于中国互联网用户数量庞大,大数据的应用又在不断产生新的数据。

为了能够用好这么海量的数据,中国的大数据行业需要两方面的人才,第一类是业务人才,第二类是技术人才。首先,“大数据”需要解决业务问题,业务专家必不可少。其次,相关专业的技术人才所做的的研究也不可或缺。因此“大数据”这个领域将会是一个非常宽广的就业市场。

大数据解决四类问题

“所有的技术的发展是为了解决业务问题,解决人们的衣食住行等生活问题,使人类社会变得更加美好”。用抽象的方式做个归类的话,基本可以归为四大类:

【描述性分析】:发生了什么?

【诊断性分析】:事情发生后,分析为什么会发生?

【预测性分析】:掌握规律,预测下一次什么时候发生?

【分析应用】:根据已经发生的事来解决实际问题,促进业务的发展。

奥运会上的大数据

在奥运会期间,全球数以亿计的观众会通过例如电视、PC,安卓等多个平台对比赛进行观看,这样就产生了跨区域、跨平台的海量数据。这时,国双通过技术帮助CNTV(中国网络电视台)进行“用户播放行为分析”。比如某个赛事在北京的收视率如何,各类终端占比是多少。

商用大数据的最低配置

类似奥运会的商用“大数据”系统有哪些必须满足的性能呢?

第一,高可用性。系统里的这些组件可能会随时挂掉一个,或者若干个,我们必须保证系统还要能正常的工作;

第二,可伸缩性。系统可以通过横向扩容去加机器,去解决数据量增大的问题。

第三,容错性。如果程序出了错误之后,要易于恢复;

第四,高性能。要做到实时且快速反应,不能半天才出来结果。

大数据领域的最基本问题与解决之道

回到上面提到的“在奥运期间,不同的终端,不同的地域,观众究竟分别观看了多少次呢?”这个问题,从问题到答案我们可以看到“大数据”领域最基本的问题以及解决之道。

我们要解决业务问题,究竟现在的在线人数有多少,终端比例是多少等这些问题的本质就是——查询,能把业务问题解决掉的实质也就是把查询这项功能做好。说起来“查询”二字好像很容易,但是这“大数据”行业里面的查询可并不简单,查询可以由这三类构成,分别是OLAP查询、OLTP查询、实时查询。为了支持最基本的问题——查询,Storm的作者就提出了Lambda架构,对查询的问题进行了抽象概化,那么这三种查询究竟是什么样的呢?接下来就对这三种查询进行简单的学习与介绍。

【OLAP数据仓库】

OLAP的英文是Online AnalyticsProcessing,这种技术是专门用于数据分析的,它的核心概念是维度和指标,维度就是分析问题的角度,指标就是一个数字,经过聚合计算的一个数字,通过求平均、求和,用聚合的方式得到了一个指标。这些维度和指标会组成一个数据立方体,允许用户去进行多个维度的察看这些数据立方体的数字,不同的维度与指标交叉就产生了多维度自由剖析。

【OLTP数据库】

OLTP数据库典型的应用就是用户注册,在数据库里面新添加一条用户的信息,上飞机的时候看一下这个用户有没有买票,进图书馆把书还了等,把还的书从借阅的状态变成未借阅的状态,这很显然是数据的更新、查找,一般不用聚合,这是很典型的OLTP数据库应用。

【实时查询(CEP)】

实时查询顾名思义就是要求在很短的延期内,能够对数据做各种各样的预计算,“在奥运期间,不同的终端,不同的地域,观众究竟分别观看了多少次呢?”的问题就是典型的应用,它强调的实时,现在这一刻。

在学习和了解了解决业务的这三种查询方法之后,我们回过头来看CNTV的那个问题,就是做实时的查询,在此基础上利用OLTP及OLAP进行聚合分析,满足那些没有提到的更为复杂的功能需求时,这就是Lambda架构在企业大

数据领域的实际应用。

今天我们从对“大数据”行业的理解说到大数据技术是以“解决业务”为导向,再到大数据能解决什么问题?解决了CNTV的什么问题?最后利用国双提供给CNTV服务中的一个小问题来实例证明“大数据”里面最基础的问题其实也是最佳的解决之道——查询,怎么查询呢?我将查询分为三种查询,有OLAP、OLTP以及实时查询,跟大家讲了这些查询的概念,今天跟大家所讲的Lambda的架构,主要是从一个企业的实际角度来讲,用实际发生的案例让大家来理解Lambda架构在满足高可用性、容错性、可伸缩性和高性能的情况下,怎么能够通过分层的方式,巧妙的把这些东西揉到一起,去解决业务的问题,希望大家能够通过我的这次演讲对“大数据”对“Lambda架构”有新的认识,谢谢大家。


本文作者:数据派

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
146 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
2月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
180 1
|
2月前
|
分布式计算 监控 大数据
大数据-131 - Flink CEP 案例:检测交易活跃用户、超时未交付
大数据-131 - Flink CEP 案例:检测交易活跃用户、超时未交付
90 0
|
27天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI与大数据在IT运维中的应用探索####
本文旨在探讨人工智能(AI)与大数据分析技术如何革新传统IT运维模式,提升运维效率与服务质量。通过具体案例分析,揭示AI算法在故障预测、异常检测及自动化修复等方面的实际应用成效,同时阐述大数据如何助力实现精准运维管理,降低运营成本,提升用户体验。文章还将简要讨论实施智能化运维面临的挑战与未来发展趋势,为IT管理者提供决策参考。 ####
|
1月前
|
机器学习/深度学习 存储 大数据
云计算与大数据技术的融合应用
云计算与大数据技术的融合应用
|
2月前
|
SQL 分布式计算 NoSQL
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
39 1
大数据-164 Apache Kylin Cube优化 案例1 定义衍生维度与对比 超详细
|
2月前
|
存储 分布式计算 druid
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
78 1
大数据-149 Apache Druid 基本介绍 技术特点 应用场景
|
1月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
2月前
|
分布式计算 大数据 Linux
大数据体系知识学习(二):WordCount案例实现及错误总结
这篇文章介绍了如何使用PySpark进行WordCount操作,包括环境配置、代码实现、运行结果和遇到的错误。作者在运行过程中遇到了Py4JJavaError和JAVA_HOME未设置的问题,并通过导入findspark初始化和设置环境变量解决了这些问题。文章还讨论了groupByKey和reduceByKey的区别。
45 1
ly~
|
2月前
|
供应链 搜索推荐 安全
大数据模型的应用
大数据模型在多个领域均有广泛应用。在金融领域,它可用于风险评估与预测、智能营销及反欺诈检测,助力金融机构做出更加精准的决策;在医疗领域,大数据模型能够协助疾病诊断与预测、优化医疗资源管理和加速药物研发;在交通领域,该技术有助于交通流量预测、智能交通管理和物流管理,从而提升整体交通效率;电商领域则借助大数据模型实现商品推荐、库存管理和价格优化,增强用户体验与企业效益;此外,在能源和制造业中,大数据模型的应用范围涵盖从需求预测到设备故障预测等多个方面,全面推动了行业的智能化转型与升级。
ly~
230 2