开源大数据周刊-第27期-阿里云开发者社区

开发者社区> 阿里云EMR> 正文

开源大数据周刊-第27期

简介: 大数据技术和产业发展趋势,机器学习神经网络的内部结构,奇虎360的日志收集实践,Spark在医疗行业的应用一例。

阿里云E-Mapreduce动态

E-Mapreduce产品即将发布的版本信息如下:

1.6.0版本

  • 交互式查询(支持Hive、Spark)

资讯

  • 大数据有多火:盘点54家,A轮占比27.8%,增速41.1% ,北京占比57.4%
    本文重点汇总了54家从事大数据的初创企业,从地理分布、融资情况、企业定位、市场趋势、以及业务类型角度对大数据的热火程度进行描绘。
  • 2016年大数据技术发展趋势概述
    对大规模数据集进行分析能够帮助我们掌握隐藏模式、客户偏好、未知关联性、市场趋势以及其它极具价值的业务信息。在此基础之上,企业能够实现成本削减、促进决策制定并提供更多有针对性的产品与服务。在这篇文章中共享了解2016年内出现的几项大数据技术发展趋势。包括Apache Spark、基于Hadoop的多核心服务器、数据湖泊等等。
  • DaaS调研与简要分析:市场现状、商业模式及展望
    文章介绍了DaaS的基本定义和当前市面上的典型产品(Amazon EMR、Altiscale、Qubole等),并分析了DaaS可能存在的商业模式:DaaS提供上承担合约和数据保护的成本,行业巨头需要释放数据价值获取更多的数据。
  • (技术)一文读懂 CNN、DNN、RNN 内部网络结构区别
    这一篇知乎的答案介绍了神经网络技术的起源和演进,三类典型的神经网络的内部结构和使用场景。推荐神经网络的初学者入门。
  • (技术)流处理和Lamda架构中的挑战
    这篇InfoQ翻译的文章介绍了LinkedIn公司在使用Apache Samza(一个流式计算框架,依赖于Kafka做消息传输,使用Hadoop Yarn做隔离、容错和资源管理等)做数据处理中避免Lambda架构的原因和具体的做法。
  • (技术)基于Scribe的奇虎360日志收集系统架构
    文章对Scribe日志系统做了简单介绍,并将Flume和Scribe框架进行了对比。在奇虎360日志收集系统架构里有日志服务器、中心服务器、存储服务器三层,文中介绍了日志的基本流动路线,以及日志系统的可用性、可靠性和可扩展性保证。
  • (技术)Predicting Breast Cancer Using Apache Spark Machine Learning Logistic Regression(英文)
    这篇博客文章介绍了用Spark机器学习库的逻辑回归算来预测乳腺癌的发病情况。MLlib是在Spark DataFrame基础上构建的一系列API和算法库,使用MLlib能极大的提升用户构建机器学习算法的性能和效率。逻辑回归是MLlib里比较典型的分类算法,提供二分模型预测功能。

欢迎加入阿里云开源大数据交流钉钉群

screenshot

国内大数据相关会议

| 会议 | 地点 | 时间 | 费用 |
| --- | --- | --- | --- |
| CBIS 2016中国(上海)大数据产业创新峰会 | 上海 | 2016.12.1 | 2080元起 |

版权声明

信息都是来自互联网,都给出了原文的链接,如果侵权,请联系我们,我们负责删除。

阿里云E-Mapreduce团队 出品

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
+ 订阅

阿里巴巴开源大数据技术团队成立阿里云EMR技术圈, 每周推送前沿技术文章,直播分享经典案例、在线答疑,营造纯粹的开源大数据氛围,欢迎加入!加入钉钉群聊阿里云E-MapReduce交流2群,点击进入查看详情 https://qr.dingtalk.com/action/joingroup?code=v1,k1,cNBcqHn4TvG0iHpN3cSc1B86D1831SGMdvGu7PW+sm4=&_dt_no_comment=1&origin=11

官方博客
官网链接