暂无个人介绍
本讲义出自Luca Canali在Spark Summit EU 2016上的演讲,他首先对于Spark 1.6版本和Spark 2.0版本的区别进行了分析,并介绍了Spark SQL的相关内容,SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便,他还着重介绍了对于使用Flame Graphs提升Spark 2.0性能的相关研究。
本讲义出自Sameer Agarwal在Spark Summit EU 2016上的演讲,他首先从机器的存储、网络以及CPU等硬件的性能发展变化讲起,再谈到软件中Spark IO的优化、数据格式的改进提升,并介绍了Tungsten项目,该项目的目标是大幅度地提升Spark集群的内存和CPU的执行效率,推动Spark的性能最大可能地接近硬件性能的极限。
本讲义出自Nimbus Goehausen在Spark Summit EU 2016上的演讲,主要介绍了面对需要自动保证Spark的数据来源以及存储路径正确,并且在对于需要保存的数据进行保存而对于需要改变的数据进行改变,所以需要在Spark工作流中使用自动检查点来对以上要求进行保障,本讲义就主要介绍了Spark中自动检查点的使用。
本讲义出自Bas Geerdink在Spark Summit EU 2016上的演讲,主要介绍了物联网时代新的数据形式、新的用例、新的技术以及新的挑战,并介绍了什么是快速数据以及什么是大数据,并详细地介绍了物联网中的Lambda架构,流处理和批处理的相关内容以及如何使用Spark Streaming与MLlib进行快速数据分析。
本讲义出自Simon Whitear在Spark Summit EU 2016上的演讲,主要介绍了用于监控,识别并优化低效Spark的工具Sparklint。由于成功的Spark集群的规模往往会迅速扩张,往往会出现能力与任务不匹配的情况并造成资源竞争,为了使得Spark集群的效率得到提升,所以需要Sparklint这样的监控优化工具。
本讲义出自Christos Erotocritou在Spark Summit EU 2016上的演讲,主要介绍了Apache的通用数据库缓存系统——Ignite项目,Apache Ignite允许用户将常用的热数据储存在内存中,它支持分片和复制两种方式,让开发者可以均匀地将数据分布式到整个集群的主机上。
本讲义出自Bas Geerdink在Spark Summit EU 2016上的演讲,主要介绍了什么是ETL,其实ETL就是对于数据的提取、转换、加载(Extract-Transform-Load),并介绍了ETL的一些常用工具,除此之外Bas Geerdink着重介绍了为什么要用Spark来做ETL,并对于一些代码示例进行了分享。
本讲义出自Rolf Jagerman在Spark Summit EU 2016上的演讲,主要介绍了Spark的异步参数服务器Glint,随着机器学习的数据量越来越多,其所生成的模型的规模也越来越大,于是就出现了模型大小已经超出了一台机器的内存的情况,于是就需要参数服务器来解决这一问题。
本讲义出自Erwin Datema与Roeland van Ham在Spark Summit EU 2016上的演讲,主要介绍了面对世界人口剧增所带来了粮食危机的巨大挑战,KeyGene公司希望通过基因变异改变农作物的基因来提升农作物的产量,而这一过程需要大数据技术以及高性能计算能力作为支撑,本讲义介绍了如何使用Spark和大数据分析获取农作物的高产量的基因组。
本讲义出自Elena Lazovik在Spark Summit EU 2016上的演讲,主要介绍了对于对于Spark驱动的应用而言,需要能够在某些情景下修改某些功能或者参数以及改变数据来源,而这些操作不能让整个应用停止运行,这就需要对于Spark应用的动态实时修改来完成。
本讲义出自Zoltan Zvara在Spark Summit EU 2016上的演讲,聚合了物联网、社交网络和电信数据的应用在“玩具”数据集上运行的非常好,但是将应用部署到真实的数据集上时就可能变得缓慢甚至崩溃,为了应对这一问题,Zoltan Zvara与他的团队致力于实现基于Spark的数据感知分布式数据处理框架。
本讲义出自Nick Pentreath在Spark Summit EU 2016上的演讲,主要介绍了什么是因式分解机(Factorization Machines)以及使用Spark和Glint构建的分布式因式分解机过程中使用到的Spark线性模型、参数服务器以及分布式因式分解机等内容,除此之外讲义中还介绍了目前的研究成果以及面对的挑战和未来的研究发展方向。
本讲义出自Ahsan Javed Awan在Spark Summit EU 2016上的演讲,主要介绍了在服务器集群的规模不断扩展的状态下,如何获取运行于服务器集群上的Spark的性能指标并对于性能进行优化,并分享了为了使得架构设计能够提升节点级别的性能表现,该如何确定衡量指标,以及如何设计可扩展的架构。
本讲义出自Qifan Pu在Spark Summit EU 2016上的演讲,主要介绍了如何在多核机器上提升Spark的性能表现以及如何研究和实现内存shuffle。
本讲义出自Oscar Castaneda在Spark Summit EU上的演讲,主要介绍了将在Excel电子表格制作的Spark原型转化为Spark程序的SparkSheet,其可以看做是Excel编译器,可以构建从Excel转化为Spark程序的直接通路,本讲义还介绍了SparkSheet的架构体系以及整个的编译过程。
本讲义出自Shay Nativ与Dvir Volk在Spark Summit EU上的演讲,主要介绍了支持网络、可基于内存也可持久化的日志型、开源的Key-Value数据库Redis,并介绍了Spark与Redis的集成方式,还介绍了为了使Redis能够实现更多的功能对其模型进行进一步研发并将其用于Spark-ML的相关内容。
本讲义出自Miha Pelko与Til Piffl在Spark Summit EU上的演讲,主要介绍了汽车行业目前已经成为了主要的数据产生者,由于汽车行业的数据问题比较特殊,所以需要进行并行的时间序列分析。
本讲义出自Casey Stella在Spark Summit EU上的演讲,主要介绍了流数据分析和其优缺点以及异常数据分析的方法,还介绍了在分布式计算框架中可以附加到时间序列数据流的混合异常分析方法,并详细介绍了这种可伸缩的异常分析方法的架构设计。
本讲义出自Dean Wampler在Spark Summit EU上的演讲,主要介绍了Scala在Spark上的使用,以及Scala能够在Spark上发挥的作用,并在讲义中提供在Spark上使用Scala的相关指导的网址。
本讲义出自Josef Habdank在Spark Summit EU上的演讲,主要介绍了对于大规模数据科学的整体模型方法,基于DataBricks的每天几十亿行数据的机器学习模型系统架构,以及基于Spark Streaming的并行训练模型,分享了基于SparkML整体模型的对于机票价格的预测服务。
本讲义出自Tim Hunter在Spark Summit EU上的演讲,主要介绍了使用Spark进行数值计算的相关内容,并且分享了如何在搭建于Spark上的TensorFlow上使用通用计算的图形化计算单元(GPUs)以及在Spark上搭建TensorFlow深度学习框架的性能表现。
本讲义出自Ram Sriharsha与Vlad Feinberg在Spark Summit EU上的演讲,首先介绍了什么是在线学习,其实在线学习的主要特点就是在每个数据点都会更新数据参数,但是却无法再次访问之前的数据点。
本讲义出自Michael Nitschinger在Spark Summit EU上的演讲,主要介绍了Spark与Couchbase结合来扩展对于数据库的操作,并分享了使用Spark与Couchbase进行分析与机器学习、数据集成等用例,以及两种部署方式。
本讲义出自Oscar Castaneda在Spark Summit EU上的演讲,在使用ES-Hadoop进行开发的过程中,使Elasticsearch运行在Spark集群外部是一件非常繁琐的事情,为了在开发过程中更好地Elasticsearch实例,并且尽可能地降低开发团队之间的依赖关系,使用ES快照作为团队合作的接口,并且提高QA的效率,所提提出了在Spark集群中内置Elasticsearch的方式。
本讲义出自Kaarthik Sivashanmugam在Spark Summit EU上的演讲,主要介绍了微软公司的用于在.NET平台上构建Spark应用的C#的API——Mobius。
本讲义出自Mikhail Semeniuk与Hollin Wilkins在Spark Summit EU上的演讲,主要介绍了如何通过MLeap + Combust.ML帮助开发者直接将Spark Pipelines部署到生产环境上去。
本讲义出自 Mike Percy在Spark Summit EU上的演讲,主要介绍了Cloudera开发的大型开源储存引擎 Kudu,该引擎用于储存和服务大量不同类型的非结构化数据,并且介绍了使用Kudu+Spark SQL对于数据进行快速分析的方法,并分享了多个使用Kudu+Spark SQL进行数据分析的实际案例。
本讲义出自Yiannis Gkoufas在Spark Summit EU上的演讲,主要介绍了Spark监控框架的基本架构,并且对于Spark监控框架的扩展SparkOscope进行了详细地介绍,对于SparkOscope的架构基本原理以及基本安装方式等进行了介绍。
本讲义出自Jaroslav Bachorik与Adrian Popescu在Spark Summit EU上的演讲,主要介绍了Spark缓存中出现的关于when, what, where的挑战问题以及应对这一挑战使用RDDs的解决算法。
本讲义出自Jorg Schad在Spark Summit EU上的演讲,主要介绍了基于Mesos的开源的数据中心操作系统DC/OS,DC/OS可以用于处理容器和大数据。Jorg Schad还介绍了容器技术的相关内容,从容器技术的设计理念到容器技术与虚拟机技术的区别,以及容器技术控制组、命名空间等相关技术细节,在最后还讨论了Java与容器的关联。
本讲义出自Berni Schiefer在Spark Summit EU上的演讲,目前而言Spark SQL发展演进的速度非常迅猛,但是大多数情况下还是部署在传统的Hadoop集群上,为了尝试将Spark SQL使用在专为Spark设置的集群上,Berni Schiefer使用了最新版本的Spark SQL应对企业级标准的工作负载。
本讲义出自Heiko Korndorf在Spark Summit EU 2016上的演讲,主要分享了R语言以及现实场景下使用R语言进行数据分析的应用案例,并且将引领大家使用SparkR扩展R语言应用,并介绍了SparkR1.X和2.X架构,并介绍了这两个版本的SparkR分别如何获取。
本讲义出自Francois Garillot and Mohamed Kafsi在Spark Summit EU上的演讲,主要介绍了瑞士电信通过对于用户的集体移动大数据进行分析得到的理解。
本讲义出自Sital Kedia在Spark Summit EU上的演讲,主要介绍了60 TB+数据规模的Spark产品用例,他在开始时首先介绍了实体排序的用例,然后介绍之前使用Hive进行的实现以及现在使用Spark的实现方式,并对于两种实现方式进行了对比。
本讲义出自Kaarthik Sivashanmugam在Spark Summit EU上的演讲,主要介绍了在微软公司的Bing搜索每月上百万次搜索请求、每小时数十TB数据量、成千上万台机器组成数据中心、以及多个数据处理框架这样的规模下的Spark Streaming的应用。
本讲义出自Sol Ackerman与Franklyn D'souza在Spark Summit EU上的演讲,在已存在的数据仓库中使用Dataframes+Parquet的经验方法,实现了在保证原有代码的情况下,引进Dataframes+Parquet,并且重写比较慢的工作作为Dataframes的管道,用Spark对从输入端流入的数据进行处理并输出。
本讲义出自Stavros kontopoulos与Justin Pihony在Spark Summit EU 2016上的演讲,在演讲中他们分享了内存空间不足问题(OOM)、该方法不存在问题、大小混乱问题以及安全的流恢复问题,以及如何使用Spark解决相应的问题。
本讲义出自Brij Bhushan Ravat在Spark Summit EU上的演讲,主要介绍了爱立信公司研发的基于Spark与Cassandra的电信产品化解决方案Voucher Server。
本讲义出自Shaun Klopfenstein和Neelesh Shastry在Spark Summit EU上的演讲,主要介绍了为了面对当前大数据分析的业务需求和SaaS需求,使用Spark Steaming的优势所在,以及为了应对Spark+Kafka所带来的挑战,所设计出的Marketo框架。
本讲义出自Emlyn Whittick在Spark Summit EU上的演讲,他分享了数据的价值与所面临的挑战,并且以烹饪这一形象化的比喻分享了从数据收集到、依靠Spark对数据进行加工、处理等一系列过程,并且在这一过程中也分享了Spark的发展历程。
本讲义出自Pat Patterson在Spark Summit EU上的演讲,他首先介绍了数据工程中的一个难点就是数据漂流(Data Drift),以及应对数据漂流所出现的一些解决方案。之后详细介绍了开发和操作复杂数据流的开源软件StreamSets,并分享了当前在Spark上比较流行的数据通道。
本讲义出自Yaroslav Nedashkovsky与Andy Starzhinsky在Spark Summit EU 2016上的演讲,主要介绍了从数据收集到预测分析的石油行业的数据分析过程,并且分享了如何利用Spark打造处理石油工业数据的全球化计算引擎。
本讲义出自Johnathan Mercer在Spark Summit EU 2016上的演讲,主要介绍了作为移动应用智能公司的Apptopia,Apptopia致力于解决移动应用市场的问题,他们通过Spark将共有数据以及自己的私有数据进行结合进行分析预测。
本讲义出自Stephan Kessler在Spark Summit EU 2016上的演讲,主要介绍了目前商业智能的相关技术蓝图,并且从业务应用和大数据以及数据科学的角度谈论了目前商业智能蓝图中的不足,并分享了在Spark上集成的业务功能以及如何在Spark上利用不同来源的数据,并对HANA Vora 1.3进行了介绍。
本讲义出自Miklos Christine在Spark Summit EU 2016上的演讲,主要介绍了Spark Streaming的总体架构设计,Spark Streaming与结构化的流计算相比的不同之处以及目前阶段Spark Streaming的5大问题。
本讲义出自Ruben Pulido和Behar Veliqi在Spark Summit EU 2016上的演讲,主要介绍了IBM公司的沃森媒体分析系统,介绍了该系统之前针对于单租户的架构,所需面对的多租户挑战和面对该挑战产生出的新系统架构,以及在沃森媒体分析系统架构演变过程中所获取的经验。
本讲义出自Debasish Das与Pramod Narasimha在Spark Summit EU 2016上的演讲,主要介绍了基于Spark和Lucene构建的近实时预测模型。
本讲义出自Ion Stoica在Spark Summit East 2017上的演讲,主要分享了其所在的加州大学伯克利分校的RISELab的研究方向,并讨论了一些RISE技术能够输出的应用方向。
本讲义出自Matei Zaharia在Spark Summit East 2017上的演讲,主要介绍了2016年以及2017年大数据与Spark技术的未来的汇合的发展趋势以及Databricks对于使Spark与像深度学习库这样的原生代码能够更好地进行交互所做的工作。
本讲义出自Alexis Roos 在Spark Summit East 2017上的演讲,主要介绍了Salesforce正在研发的Einstein人工智能核心平台,Einstein助力世界上最优秀的CRM系统,并向其销售、服务以及市场团队提供先进的人工智能,帮助他们发现新的观点,预测可能的结果并且给出下一步的策略。