开源大数据周刊-第51期-阿里云开发者社区

开发者社区> 阿里云EMR> 正文

开源大数据周刊-第51期

简介:

阿里云E-Mapreduce动态

  • E-MapReduce张北可用区上线服务。
  • E-MapReduce调度功能强化,支持分钟、小时、天、周、月,多种时间维度的调度。

资讯

有人认为 Hadoop 正在失败,但硅谷数据管理公司 Hortonworks 的总经理 Vamsi K. Chemitiganti 并不这么看,为了反驳此前一篇文章《为什么 Hadoop 正在消亡?(Why Hadoop is Failing)》的观点,他在自己的博客上写了一篇论述自己看法的文章,他认为达尔文式的开源生态系统正在确保 Hadoop 成为稳固和成熟的技术平台。机器之心对这篇反驳文章进行了编译介绍,但本文内容并不代表机器之心的观点。

人工智能交易软件能通过吸取大量数据来了解这个世界,然后对股票、债券、商品和其他金融产品进行预测。人工智能机器可以获取书籍、Twitter消息、新闻报道、金融数据、企业财报、国际货币政策,甚至是综艺节目概况等一切有助于其软件理解全球趋势的信息。人工智能可以持续不间断地观察这些信息,从不知疲倦,一直学习,不断优化预测。

2017 年的春季招聘季刚刚过去,在这 2016 资本寒冬年后的第一个招聘旺季,互联网招聘市场正悄然变化。最大的一个变化也许是,招募互联网高端人才的主力,正在从中小型创业公司向中大型公司转移。我们汇总了 2017 年一季度 100offer 上高端互联网人才的面试邀请数据,为你展现这个春天里,互联网人才流动的「变」与「不变」。

技术

Kafka凭借着自身的优势,越来越受到互联网企业的青睐,唯品会也采用Kafka作为其内部核心消息引擎之一。Kafka作为一个商业级消息中间件,消息可靠性的重要性可想而知。如何确保消息的精确传输?如何确保消息的准确存储?如何确保消息的正确消费?这些都是需要考虑的问题。本文首先从Kafka的架构着手,先了解下Kafka的基本原理,然后通过对kakfa的存储机制、复制原理、同步原理、可靠性和持久性保证等等一步步对其可靠性进行分析,最后通过benchmark来增强对Kafka高可靠性的认知。

Stripe有上亿规模的订阅数据。做一次与所有这些数据都相关的大型迁移就意味着非常非常多的工作。Stripe的用户希望我们提供的API要具备可用性和一致性。这意味着在做迁移时,我们必须非常小心:存储在我们系统中的数据要有非常准确的值,而且Stripe的服务必须时刻保证可用。
在这篇文章中,Stripe将分享如何安全地完成了一次涉及上亿数据量的大迁移经历。

Apache Spark中,对Block的查询、存储管理,是通过唯一的Block ID来进行区分的。所以,了解Block ID的生成规则,能够帮助我们了解Block查询、存储过程中是如何定位Block以及如何处理互斥存储/读取同一个Block的。

欢迎加入阿里云开源大数据交流钉钉群

screenshot

版权声明

信息都是来自互联网,都给出了原文的链接,如果侵权,请联系我们,我们负责删除。

阿里云E-Mapreduce团队 出品

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
+ 订阅

阿里巴巴开源大数据技术团队成立阿里云EMR技术圈, 每周推送前沿技术文章,直播分享经典案例、在线答疑,营造纯粹的开源大数据氛围,欢迎加入!加入钉钉群聊阿里云E-MapReduce交流2群,点击进入查看详情 https://qr.dingtalk.com/action/joingroup?code=v1,k1,cNBcqHn4TvG0iHpN3cSc1B86D1831SGMdvGu7PW+sm4=&_dt_no_comment=1&origin=11

官方博客
官网链接