2016年杭州第四次spark meetup见闻-阿里云开发者社区

开发者社区> 封神> 正文

2016年杭州第四次spark meetup见闻

简介: 此次会议有spark2.0、mllib、streaming及CarbonData,内容还是很丰富的。
+关注继续查看

引言

spark发展非常快,2.0都快要发布了。在不同的城市都会有一些交流聚会,杭州有很多互联网企业,创业的氛围也非常好。大家每隔一段时间的交流还是必须的。不过最好还是时间上密集点,最好重点在于大家讨论,互相交流。
这次是挖财网的时金魁同学主办的,感谢时金魁同学,演讲稿下载链接
screenshot

期待2.0发布,最近E-MapReduce团队在做benchmark,找时间单独对比下1.6与2.0之间的性能差距。

过程

有4场次的分享,分别为:

  • 《Spark 2.0介绍》来自七牛的陈超
    大致介绍了spark2.0的一些新的功能,包括Dataset、Structured Streaming、Tungsten Phase2。记得最清楚就是 陈超说: 目前Structured Streaming还不成熟,吹了很多牛,大家得等到2.x版本吧,不管怎么搞还是基于batch,想跟flink一样估计到3.0,不过hadoop 3.0还没有发布,那spark也不知道啥时间了。

笔者路上堵车了,所以也只听到了一半。PS:陈超 别怪我写的不多,下面的图是借过来的。
现在网上分析2.0的文章比较多,笔者就不细讲了。
screenshot

  • 《spark mllib大数据实践和优化》来自阿里念钧
    screenshot

这个笔者是剧中人,还是比较熟悉的,经历过太多辛酸苦辣。念钧同学讲的比较好,从13年到16年虽然几度变化,但是还是在mllib上摸索。 此次讲了阿里mllib从13年到16年的一些事情,比如:机器学习算法平台的建设(可以拖的图形化界面,把算法包装好),在mllib踩过的一些坑(基本是数据量大以后的事情),MPI跟mllib的对比(mpi性能高,灵活性稳定性不够)。目前大数据方面,会有越来越多人从事大数据分析、数据挖掘上,这是一个热点。

  • 《Spark+CarbonData(New File Format For Faster Data Analysis》来自华为陈亮,spark作为分析引擎可以基于CarbonData获取更快的查询性能。CarbonData是一个新的存储格式,跟parquet、orcfile比较类似。大致就是在列式存储的基础上加上编码、倒排等index的技术。看了 陈亮的演示,在100w条数据下,CarbonData比parquet快数倍的。不过现场有很多的问题,比如:写的性能怎么样?对于中文支持怎么样?cpu等有没有额外的开销? 目前没有这方面的数据,最近进入了apache孵化器,期待后续有更加详细的数据。架构在于平衡,有利必有弊的。CarbonData 确实是一个很好的尝试,把传统DB的思想用来做大数据的数据存储格式也是很好的。 详细的信息见:CarbonData
    screenshot
  • 《Spark Streaming简要图解》来自挖财网时金魁(现场照图片,比较可惜,补一张pdf里面封面,请时金魁见谅),介绍了挖财网用了spark+mesos+kafka+elasticsearch+kibana+Hbase,提到了Hbase作为数据存储服务扛不住sparkStreaming的压力,后开启了Hbase的反压,选择了mesos原因是在做隔离方面更好及Marathon对长服务支持更好,kibana对于展示metric比较好,最后图解了 Spark Streaming,看源码这样画一个图还是很方便理解的,比较赞成说代码写的比较乱,这快笔者也看过。
    screenshot

最后大家互相留下来,加了个微信,点个赞。

总结

此次会议有spark2.0、mllib、streaming及CarbonData,内容还是很丰富的。
出来参加spark meetup除了听分享外,最主要还是互相认识下,大家最好不要听完就走了。

版权声明

笔者微博:阿里封神 欢迎转载,但请保留原文地址

社群

技术交流钉钉大群 阿里云 HBase+Spark社区 【强烈推荐!】 群内每周进行群直播技术分享及问答

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
机器学习时代,神经科学家如何阅读和解码人类的思想
作者:Jiying 编辑:Joni 这篇文章围绕机器学习(ML)和功能性磁共振成像(fMRI)的应用问题,以三篇最新的研究型论文为基础,探讨基于统计学中 ML 的 fMRI 分析方法。
6 0
session 的钝化和活化 | 学习笔记
快速学习 session 的钝化和活化。
3 0
【Go语言入门100题】003 个位数统计 (15 分) Go语言|Golang
L1-003 个位数统计 (15 分) Go语言|Golang 输入格式: 每个输入包含 1 个测试用例,即一个不超过 1000 位的正整数 N。 输出格式: 对 N中每一种不同的个位数字,以 D:M 的格式在一行中输出该位数字 D及其在N中出现的次数M。要求按D 的升序输出。 输入样例:
8 0
【超级账本】Fabric介绍及其环境搭建(一)
目录 前言 1. fabric 介绍 1.1 fabric和以太坊的区别 1.2 身份管理介绍 1.3 账本:每个节点中都有 1.4 交易管理介绍 1.5 节点介绍 1.6 通道介绍--channel 2. fabric 环境搭建 2.1 安装虚拟机 2.2 安装必要配置 2.2.1换源 2.2.2 安装vim 2.2.3 安装python2.7 以及 python-pip2 2.2.5 安装go 2.2.6 安装docker 2.2.7 安装docker-compose 2.2.8 Fabric的Docker镜像下载 2.2.9 拉取fabric代码 最后
5 0
【超级账本】Fabric 层次结构以及核心模块的介绍(二)
目录 1. 结构介绍 2. 核心代码 3. 核心模块 3.1 peer 系统模块 3.2 order 系统模块 3.3 cryptogen 工具模块 3.4 configtxgen 工具模块 3.5 configtxlator 工具模块 最后
8 0
SAP Kyma能像SAP BYD那样做field extension吗
SAP Kyma能像SAP BYD那样做field extension吗
6 0
【Go语言入门100题】005 考试座位号 (15 分) Go语言|Golang
L1-005 考试座位号 (15 分) Go语言|Golang 每个 PAT 考生在参加考试时都会被分配两个座位号,一个是试机座位,一个是考试座位。正常情况下,考生在入场时先得到试机座位号码,入座进入试机状态后,系统会显示该考生的考试座位号码,考试时考生需要换到考试座位就座。但有些考生迟到了,试机已经结束,他们只能拿着领到的试机座位号码求助于你,从后台查出他们的考试座位号码。
6 0
【七天入门Go语言】 文件 && 包 | 第五天
目录 1. 文件处理 1.1 JSON文件 1.1.1 已知JSON结构 1.1.2 未知JSON结构 1.1.3 Encoder & Decoder 1.2 XML文件 1.3 二进制文件 1.4 zip文件 1.4.1 创建zip 1.4.2 读取zip文件 2. 包管理 2.1 包路径 2.2 包声明 最后
6 0
99行代码实现冰雪奇缘特效的「太极」再进化,胡渊鸣团队、快手等联合打造
99 行代码实现《冰雪奇缘》特效的续集来了,太极编译器再次升级。
8 0
【Go语言入门100题】023 输出GPLT (20 分) Go语言 | Golang
L1-023 输出GPLT (20 分) Go语言|Golang 给定一个长度不超过10000的、仅由英文字母构成的字符串。请将字符重新调整顺序,按GPLTGPLT....这样的顺序输出,并忽略其它字符。当然,四种字符(不区分大小写)的个数不一定是一样多的,若某种字符已经输出完,则余下的字符仍按GPLT的顺序打印,直到所有字符都被输出。 下面给出甲、乙两人的酒量(最多能喝多少杯不倒)和划拳记录,请你判断两个人谁先倒。
5 0
+关注
封神
封神 09年加入阿里巴巴,阿里云高级技术专家、架构师;专注在大数据、分布式数据库领域,10年分布式研发经验;参与研发万台大数据Hadoop离线计算平台;负责研发多款阿里云一级大数据及数据库产品,如云Cassandra
34
文章
259
问答
来源圈子
更多
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载