开源大数据周刊-第51期-阿里云开发者社区

开源大数据周刊-第51期

2017-05-05 2390

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

阿里云E-Mapreduce动态

E-MapReduce张北可用区上线服务。
E-MapReduce调度功能强化，支持分钟、小时、天、周、月，多种时间维度的调度。

资讯

Hadoop没有消亡，它是大数据的未来

有人认为 Hadoop 正在失败，但硅谷数据管理公司 Hortonworks 的总经理 Vamsi K. Chemitiganti 并不这么看，为了反驳此前一篇文章《为什么 Hadoop 正在消亡？（Why Hadoop is Failing）》的观点，他在自己的博客上写了一篇论述自己看法的文章，他认为达尔文式的开源生态系统正在确保 Hadoop 成为稳固和成熟的技术平台。机器之心对这篇反驳文章进行了编译介绍，但本文内容并不代表机器之心的观点。

深度起底人工智能，两万字长文告诉你什么是AI革命

人工智能交易软件能通过吸取大量数据来了解这个世界，然后对股票、债券、商品和其他金融产品进行预测。人工智能机器可以获取书籍、Twitter消息、新闻报道、金融数据、企业财报、国际货币政策，甚至是综艺节目概况等一切有助于其软件理解全球趋势的信息。人工智能可以持续不间断地观察这些信息，从不知疲倦，一直学习，不断优化预测。

2017跳槽旺季，大数据告诉你该怎么选

2017 年的春季招聘季刚刚过去，在这 2016 资本寒冬年后的第一个招聘旺季，互联网招聘市场正悄然变化。最大的一个变化也许是，招募互联网高端人才的主力，正在从中小型创业公司向中大型公司转移。我们汇总了 2017 年一季度 100offer 上高端互联网人才的面试邀请数据，为你展现这个春天里，互联网人才流动的「变」与「不变」。

都叫AI巨头，Google百度微软亚马逊体量差多少？
AI领域，有几家公司常被叫做巨头。那么巨头和巨头之间，到底哪一个更巨头呢？巧了，今天好像是一个发财报的黄道吉日。几大中外AI巨头，一起交出新一季度的成绩单。

技术

Kafka高可用性实现原理

Kafka凭借着自身的优势，越来越受到互联网企业的青睐，唯品会也采用Kafka作为其内部核心消息引擎之一。Kafka作为一个商业级消息中间件，消息可靠性的重要性可想而知。如何确保消息的精确传输？如何确保消息的准确存储？如何确保消息的正确消费？这些都是需要考虑的问题。本文首先从Kafka的架构着手，先了解下Kafka的基本原理，然后通过对kakfa的存储机制、复制原理、同步原理、可靠性和持久性保证等等一步步对其可靠性进行分析，最后通过benchmark来增强对Kafka高可靠性的认知。

Stripe的大规模数据在线迁移经验

Stripe有上亿规模的订阅数据。做一次与所有这些数据都相关的大型迁移就意味着非常非常多的工作。Stripe的用户希望我们提供的API要具备可用性和一致性。这意味着在做迁移时，我们必须非常小心：存储在我们系统中的数据要有非常准确的值，而且Stripe的服务必须时刻保证可用。
在这篇文章中，Stripe将分享如何安全地完成了一次涉及上亿数据量的大迁移经历。