开源大数据周刊-第60期-阿里云开发者社区

开发者社区> 阿里云EMR> 正文

开源大数据周刊-第60期

简介: 本期周刊聚焦Spark新版本以及大数据行业最新的进展,在技术文章中推荐了微博和携程等互联网公司的大数据平台实践。

资讯

Spark 2.2.0 持续了半年的开发,近期发布了2.2.0版本,此版本是 2.x 版本线的第三个版本。在这个版本 Structured Streaming 的实验性标记(experimental tag)已经被移除,这也意味着后面的 2.2.x 之后就可以放心在线上使用了。除此之外,这个版本的主要集中点是系统的可用性和稳定性。关于 Apache Spark 2.2.0 的详细新功能介绍请参见文章

网络安全法正式实施前后,像一场寒流,席卷了整个大数据行业:数据接口公司可能会被直接关门,大数据营销公司在法律上也出现了一些障碍。数据行业进入整肃期,而新的规则大家都没头绪,数据管理和数据交易方式都有待理顺。

提到大数据可能有些令人生畏。在了解一定基本概念的基础上,掌握其中一些关键术语也是至关重要的。本文介绍了25个基本的大数据术语,包括算法、分析、批量处理、内存计算、数据湖、Spark、Hadoop等。

技术

Spark Streaming是一套优秀的实时计算框架。其良好的可扩展性、高吞吐量以及容错机制能够满足我们很多的场景应用。本篇结合作者的应用场景,介结了在使用Spark Streaming方面的技术架构,并着重讲解Spark Streaming两种计算模型:无状态和状态计算模型以及该两种模型的注意事项。接着介绍了Spark Streaming在监控方面所做的一些事情,最后总结了Spark Streaming的优缺点。

本文主要从架构和业务的角度介绍下携程信息安全团队的数据平台建设之路,以及如何为业务和风控提供支持的。从早期以RabbitMQ和MySQL为核心的1.0架构到2.0架构的演进过程中,引入了Spark、Storm、Presto和Kafka等组件,并从数据采集、计算和任务调度等几个方面阐述了平台的痛点和解决方案。

Hubble平台定位为微博广告智能全景监控、数据透视和商业洞察系统,Hubble利用HDFS、Kafka、Spark等开源技术,提供了从机器、应用和业务等多个维度的监控到趋势预测等智能化的功能,帮助广告系统发现数据后面最本质的东西。本文介绍了Hubble系统的设计原理及在智能全景监控实践中的一些思考。

更新操作系统以及应用安全补丁或修补程序等系统维护操作是任何数据中心的常规操作。需要开展这种维护操作的Hadoop存储节点DataNodes可能会脱机工作几分钟到几个小时。按照Hadoop之前的设计HDFS可以处理DataNodes停止或下线。但是,同时在多个DataNode上进行任何非协同维护操作可能会导致临时性的数据可用性问题。在Hadoop新版中,将会引入一个HDFS维护状态,旨在克服滚动升级和下线功能存在的缺点,可以避免数据块的不必要复制,并使计划性维护活动更加无缝地进行

欢迎入群技术交流!

_HBase_dingding

EMR_dingding

云HBase微信交流群请加:g418615


版权声明:信息都是来自互联网,如果侵权,请联系我们,我们负责删除。

阿里云E-Mapreduce团队出品

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
+ 订阅

阿里巴巴开源大数据技术团队成立阿里云EMR技术圈, 每周推送前沿技术文章,直播分享经典案例、在线答疑,营造纯粹的开源大数据氛围,欢迎加入!加入钉钉群聊阿里云E-MapReduce交流2群,点击进入查看详情 https://qr.dingtalk.com/action/joingroup?code=v1,k1,cNBcqHn4TvG0iHpN3cSc1B86D1831SGMdvGu7PW+sm4=&_dt_no_comment=1&origin=11

官方博客
官网链接