开源大数据周刊-第66期-阿里云开发者社区

开发者社区> 阿里云EMR> 正文
登录阅读全文

开源大数据周刊-第66期

简介:

资讯:

  • Python超过R,成为数据科学和机器学习的最常用语言

    近期,数据挖掘资讯网站KDnuggets开展了一项调查,问题是“2016年和2017年,在数据分析、数据科学和机器学习工作中,你使用R、Python、两者都用,还是其他工具?”。2017年Python生态系统已经超越了R,成为数据分析、数据科学和机器学习领域领先的平台,同时也在迅速吸引其他平台的用户。
    
  • 解读大数据产业:区域集聚发展格局逐步形成

    8月24日,中国电子信息产业发展研究院在工业和信息化部信软司指导下发布了《中国大数据产业发展水平评估报告(2017年)》。作为《大数据产业发展规划(2016—2020年)》颁布后的第一个年度大数据产业评估报告,为我国大数据产业健康发展和相关产业管理工作提供了有力支撑。
    
  • 报告 | 中国大数据应用发展报告精读

    近日,中国管理科学学会大数据管理专委会、国务院发展研究中心产业互联网课题组、社会科学文献出版社共同举办的《大数据应用蓝皮书:中国大数据应用发展报告No.1(2017)》发布会在北京举行。本书是国内首本研究大数据应用的蓝皮书。
    

技术

  • LinkedIn开源Kafka Cruise Control,旨在使Kafka实现大规模运维自动化!

    本文介绍Kafka Cruise Control的开发动机、一般用途和其在LinkedIn的用途、体系结构,以及开发它时面临的一些独特挑战。
    
  • 重磅开源KSQL:用于Apache Kafka的流数据SQL引擎

    Kafka的作者Neha Narkhede在Confluent上发表了一篇博文,介绍了Kafka新引入的KSQL引擎——一个基于流的SQL。推出KSQL是为了降低流式处理的门槛,为处理Kafka数据提供简单而完整的可交互式SQL接口。KSQL目前可以支持多种流式操作,包括聚合(aggregate)、连接(join)、时间窗口(window)、会话(session),等等。
    
  • 使用KyBot优化Apache Kylin存储

    Apache Kylin使用“空间换时间”极大提高了查询效率,但“空间”也并非无限,因此,在保持查询效率不变的前提下,减少存储占用显得尤为重要。本文介绍如何使用KyBot优化存储资源。
    
  • HBase原理 – 所有Region切分的细节都在这里了

    Region自动切分是HBase能够拥有良好扩张性的最重要因素之一,也必然是所有分布式系统追求无限扩展性的一副良药。这篇文章将会对这些细节进行基本的说明,一方面可以让大家对HBase中Region自动切分有更加深入的理解,另一方面如果想实现类似的功能也可以参考HBase的实现方案。
    

欢迎入群技术交流!

_HBase_dingding

EMR_dingding

云HBase微信交流群请加:g418615


版权声明:信息都是来自互联网,如果侵权,请联系我们,我们负责删除。

阿里云E-Mapreduce团队出品

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
+ 订阅

阿里巴巴开源大数据技术团队成立阿里云EMR技术圈, 每周推送前沿技术文章,直播分享经典案例、在线答疑,营造纯粹的开源大数据氛围,欢迎加入!加入钉钉群聊阿里云E-MapReduce交流2群,点击进入查看详情 https://qr.dingtalk.com/action/joingroup?code=v1,k1,cNBcqHn4TvG0iHpN3cSc1B86D1831SGMdvGu7PW+sm4=&_dt_no_comment=1&origin=11

官方博客
最新文章
相关文章
官网链接