2016年杭州第四次spark meetup见闻

本文涉及的产品
云原生多模数据库 Lindorm,多引擎 多规格 0-4节点
云数据库 Tair(兼容Redis),内存型 2GB
云数据库 MongoDB,独享型 2核8GB
推荐场景:
构建全方位客户视图
简介: 此次会议有spark2.0、mllib、streaming及CarbonData,内容还是很丰富的。

引言

spark发展非常快,2.0都快要发布了。在不同的城市都会有一些交流聚会,杭州有很多互联网企业,创业的氛围也非常好。大家每隔一段时间的交流还是必须的。不过最好还是时间上密集点,最好重点在于大家讨论,互相交流。
这次是挖财网的时金魁同学主办的,感谢时金魁同学,演讲稿下载链接
screenshot

期待2.0发布,最近E-MapReduce团队在做benchmark,找时间单独对比下1.6与2.0之间的性能差距。

过程

有4场次的分享,分别为:

  • 《Spark 2.0介绍》来自七牛的陈超
    大致介绍了spark2.0的一些新的功能,包括Dataset、Structured Streaming、Tungsten Phase2。记得最清楚就是 陈超说: 目前Structured Streaming还不成熟,吹了很多牛,大家得等到2.x版本吧,不管怎么搞还是基于batch,想跟flink一样估计到3.0,不过hadoop 3.0还没有发布,那spark也不知道啥时间了。

笔者路上堵车了,所以也只听到了一半。PS:陈超 别怪我写的不多,下面的图是借过来的。
现在网上分析2.0的文章比较多,笔者就不细讲了。
screenshot

  • 《spark mllib大数据实践和优化》来自阿里念钧
    screenshot

这个笔者是剧中人,还是比较熟悉的,经历过太多辛酸苦辣。念钧同学讲的比较好,从13年到16年虽然几度变化,但是还是在mllib上摸索。 此次讲了阿里mllib从13年到16年的一些事情,比如:机器学习算法平台的建设(可以拖的图形化界面,把算法包装好),在mllib踩过的一些坑(基本是数据量大以后的事情),MPI跟mllib的对比(mpi性能高,灵活性稳定性不够)。目前大数据方面,会有越来越多人从事大数据分析、数据挖掘上,这是一个热点。

  • 《Spark+CarbonData(New File Format For Faster Data Analysis》来自华为陈亮,spark作为分析引擎可以基于CarbonData获取更快的查询性能。CarbonData是一个新的存储格式,跟parquet、orcfile比较类似。大致就是在列式存储的基础上加上编码、倒排等index的技术。看了 陈亮的演示,在100w条数据下,CarbonData比parquet快数倍的。不过现场有很多的问题,比如:写的性能怎么样?对于中文支持怎么样?cpu等有没有额外的开销? 目前没有这方面的数据,最近进入了apache孵化器,期待后续有更加详细的数据。架构在于平衡,有利必有弊的。CarbonData 确实是一个很好的尝试,把传统DB的思想用来做大数据的数据存储格式也是很好的。 详细的信息见:CarbonData
    screenshot
  • 《Spark Streaming简要图解》来自挖财网时金魁(现场照图片,比较可惜,补一张pdf里面封面,请时金魁见谅),介绍了挖财网用了spark+mesos+kafka+elasticsearch+kibana+Hbase,提到了Hbase作为数据存储服务扛不住sparkStreaming的压力,后开启了Hbase的反压,选择了mesos原因是在做隔离方面更好及Marathon对长服务支持更好,kibana对于展示metric比较好,最后图解了 Spark Streaming,看源码这样画一个图还是很方便理解的,比较赞成说代码写的比较乱,这快笔者也看过。
    screenshot

最后大家互相留下来,加了个微信,点个赞。

总结

此次会议有spark2.0、mllib、streaming及CarbonData,内容还是很丰富的。
出来参加spark meetup除了听分享外,最主要还是互相认识下,大家最好不要听完就走了。

版权声明

笔者微博:阿里封神 欢迎转载,但请保留原文地址

社群

技术交流钉钉大群 阿里云 HBase+Spark社区 【强烈推荐!】 群内每周进行群直播技术分享及问答

相关实践学习
lindorm多模间数据无缝流转
展现了Lindorm多模融合能力——用kafka API写入,无缝流转在各引擎内进行数据存储和计算的实验。
云数据库HBase版使用教程
  相关的阿里云产品:云数据库 HBase 版 面向大数据领域的一站式NoSQL服务,100%兼容开源HBase并深度扩展,支持海量数据下的实时存储、高并发吞吐、轻SQL分析、全文检索、时序时空查询等能力,是风控、推荐、广告、物联网、车联网、Feeds流、数据大屏等场景首选数据库,是为淘宝、支付宝、菜鸟等众多阿里核心业务提供关键支撑的数据库。 了解产品详情: https://cn.aliyun.com/product/hbase   ------------------------------------------------------------------------- 阿里云数据库体验:数据库上云实战 开发者云会免费提供一台带自建MySQL的源数据库 ECS 实例和一台目标数据库 RDS实例。跟着指引,您可以一步步实现将ECS自建数据库迁移到目标数据库RDS。 点击下方链接,领取免费ECS&RDS资源,30分钟完成数据库上云实战!https://developer.aliyun.com/adc/scenario/51eefbd1894e42f6bb9acacadd3f9121?spm=a2c6h.13788135.J_3257954370.9.4ba85f24utseFl
目录
相关文章
|
28天前
|
分布式计算 大数据 Apache
Apache Spark & Paimon Meetup · 北京站,助力 LakeHouse 架构生产落地
2024年11月15日13:30北京市朝阳区阿里中心-望京A座-05F,阿里云 EMR 技术团队联合 Apache Paimon 社区举办 Apache Spark & Paimon meetup,助力企业 LakeHouse 架构生产落地”线下 meetup,欢迎报名参加!
91 3
|
SQL 分布式计算 Cloud Native
杭州 Meetup| Apache Kyuubi & Celeborn,助力 Spark 拥抱云原生
10月14日13:00-17:30,Apache Kyuubi & Celeborn 社区将在杭州举办「Apache Kyuubi & Celeborn (Incubating) 助力 Spark 拥抱云原生」Meetup,欢迎报名参会!
827 0
杭州 Meetup| Apache Kyuubi & Celeborn,助力 Spark 拥抱云原生
|
分布式计算 大数据 Apache
直播预约|Apache Spark + DolphinScheduler Meetup 1月11日正式上线
洞悉 Spark 任务调度新能力|Apache Spark + DolphinScheduler Meetup 将于 1 月 11 日在线上举办
216 1
直播预约|Apache Spark + DolphinScheduler Meetup 1月11日正式上线
|
分布式计算 大数据 Apache
Apache Spark Meetup China 第1期 最全资料下载
活动时间:2018年12月16日13:30-17:00 活动地点:杭州市余杭区文一西路998号未来科技城海创园4幢801C 主办单位:阿里云、袋鼠云、云栖社区 主题介绍: 主题一、Spark优化实践-13:30 - 14:30阿里云E-MapReduce-王道远介绍阿里云EMR中Spark计算引擎所包含的一系列额外优化工作,包括SmartShuffle、file skip index等。
2304 0
|
27天前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
81 2
ClickHouse与大数据生态集成:Spark & Flink 实战
|
2月前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
63 0
|
2月前
|
消息中间件 分布式计算 NoSQL
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
大数据-104 Spark Streaming Kafka Offset Scala实现Redis管理Offset并更新
42 0
|
2月前
|
消息中间件 存储 分布式计算
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
大数据-103 Spark Streaming Kafka Offset管理详解 Scala自定义Offset
93 0
|
28天前
|
SQL 机器学习/深度学习 分布式计算
Spark快速上手:揭秘大数据处理的高效秘密,让你轻松应对海量数据
【10月更文挑战第25天】本文全面介绍了大数据处理框架 Spark,涵盖其基本概念、安装配置、编程模型及实际应用。Spark 是一个高效的分布式计算平台,支持批处理、实时流处理、SQL 查询和机器学习等任务。通过详细的技术综述和示例代码,帮助读者快速掌握 Spark 的核心技能。
51 6
|
26天前
|
存储 分布式计算 Hadoop
数据湖技术:Hadoop与Spark在大数据处理中的协同作用
【10月更文挑战第27天】在大数据时代,数据湖技术凭借其灵活性和成本效益成为企业存储和分析大规模异构数据的首选。Hadoop和Spark作为数据湖技术的核心组件,通过HDFS存储数据和Spark进行高效计算,实现了数据处理的优化。本文探讨了Hadoop与Spark的最佳实践,包括数据存储、处理、安全和可视化等方面,展示了它们在实际应用中的协同效应。
86 2