Spark入门必学:预测泰坦尼克号上的生还情况
第一次听闻Spark是2013年年末,当时笔者对Scala(Spark的编程语言)感兴趣。一段时间之后做了一个有趣的数据科学项目,试图预测泰坦尼克号上的生还情况(Kaggle竞赛项目,通过使用机器学习预测泰坦尼克号上哪些乘客具备更高的生还可能性)。通过该项目可以更深入地理解Spark的概念和编程方式
【ATF】钱正平:大规模实时计算及其在阿里的应用与创新
2016 ATF阿里技术论坛中,阿里云高级专家钱正平深入分享了在大规模实时计算及其在阿里的应用与创新经验。在他看来,用户需求是真正驱动分布式计算领域发展和变化的核心因素。除了一些比较有特色的技术点之外,还有五大经验:审计、动态重构、持续维护、异常处理和数据特例。
TIDB分布式数据库在360金融中的应用
为什么选择TIDB?
凡事事出有因,选择某类框架也肯定有它存在的原因。所以想先来谈谈我们为什么要选择TIDB。其实几乎所有公司从传统数据库转向分布式数据库都有个共同的原因,随着业务量的不断增大,RDBMS有瓶颈了,我们也是如此,跑批耗费时间特别长,数据有延迟,给业务带来了很多不便。
数加平台如何通过Serverless 架构实现普惠大数据
Serverless 架构旨在将应用开发者从底层基础设施的运维中解放出来,更加专注于业务价值的实现上,这种思想对于大数据应用尤其适用,数据科学家更需要投入到数据价值的探索和挖掘上。本文讲述了数据平台如何利用Serverless 的架构来降低大数据应用的门槛,真正的实现普惠大数据。