开源大数据周刊-第106期

简介: Apache Kylin社区于日前宣布:Apache Kylin v2.5.1 正式发布!Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop 之上的 SQL 查询接口及多维分析(OLAP)能力,支持对超大规模数据进行亚秒级查询。

资讯

  • Apache Kylin v2.5.1 正式发布
    Apache Kylin社区于日前宣布:Apache Kylin v2.5.1 正式发布!Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop 之上的 SQL 查询接口及多维分析(OLAP)能力,支持对超大规模数据进行亚秒级查询。Apache Kylin v2.5.1 是继 v2.5.0 版本后的一次修复 bug 的更新,共修复了超过30 个 issues,包括缺陷修复和改进等。
  • VMware 收购 Heptio:它由 Kubernetes 两位联合创始人创办
    在近期于欧洲召开大型客户会议期间,Vmware公司同时宣布了另一项收购决策,旨在帮助企业客户建立并运行基于Kubernetes的容器化架构。而本轮收购的对象,正是位于西雅图的初创企业Heptio。Heptio公司由Joe Beda与Craig McLuckie两位曾在2014年帮助谷歌联合建立Kubernetes项目的主力(当时的项目负责人共有三名)共同建立。
  • Databricks CTO Matei Zaharia专访:分布式是机器学习的未来!
    本文是在今年的 Spark 和人工智能欧洲峰会期间对 Matei Zaharia 的专访,他是 Spark 的商业支持公司 Databricks 的 CTO 。采访中,Zaharia 介绍了公司的整合分析目标,以及 Spark 和 MLFlow 框架的用例、编程语言、采纳模式,提出分布式是机器学习的未来发展方向。
  • Apache Spark 2.4正式发布以及新特性介绍
    美国当地时间2018年11月2日,Apache Spark完成了2.x的第五次发布:2.4.0版本。本文中详细介绍了Apache Spark 2.4.0版本的新特性,包括Barrier Execution Mode、Scala 2.12支持、Pandas UDF增强、Image Data Source支持以及k8s集成增强等。

技术

  • Adaptive Execution如何让Spark SQL更高效更好用?
    本文所述内容均基于 2018 年 9 月 17 日 Spark 最新 Spark Release 2.3.1 版本,以及截止到 2018 年 10 月 21 日 Adaptive Execution 最新开发代码。自动设置 Shuffle Partition 个数已进入 Spark Release 2.3.1 版本,动态调整执行计划与处理数据倾斜尚未进入 Spark Release 2.3.1。
  • 揭解读微软开源MMLSpark:统一的大规模机器学习生态系统
    目前,有很多深度学习框架支持与 Spark 集成,如 Tensorflow on Spark 等。然而,微软开源的 MMLSpark 不仅集成了机器学习框架(CNTK 深度学习计算框架、LightGBM 机器学习框架),还可以将这些计算资源作为一种服务,以 HTTP 服务的形式对外提供给用户。近日,微软 MMLSpark 团队发表了一篇论文对 MMLSpark 的架构进行详细解读,我们将基于这篇论文,就 MMLSpark 的相关组件的特性和一个利用 MMLSpark 进行物体识别的案例展开介绍。
  • Apache Pulsar在智联招聘的实践 -- 从消息队列到基于Apache Pulsar的事件中心
    本文介绍了以前的消息中间件在智联招聘的应用和场景;以及对消息中间件选型的诉求;详细描述了选型过程中的细致思考。接着介绍了为什么会选择Pulsar,以及Pulsar中和智联的场景匹配的特性。最后提供了详细的Pulsar落地实践。
  • Dynamic Query Re-Planning Using QOOP
    本文来自osdi'18大会录取论文。现代数据处理集群是高度动态的,无论是在并发运行的作业数量还是资源使用方面。为了提高性能,业界最近的工作重点都是优化集群调度程序和作业的查询计划程序,即选择正确的查询执行计划(QEP)。但是,由于现有解决方案在整个执行过程中使用固定的QEP,因此无法根据资源变化调整QEP,这通常会导致性能低下。本文主张动态查询重新规划,其中我们在执行期间重新评估和重新规划作业的QEP。论文中提出在三个组件(the query planner, the execution engine and the cluster scheduler)之间重新分配责任以简化其设计,而不是将更多复杂性推向调度程序或查询计划程序。在这中设计方案下,论文分析表明,即使在对抗性资源变化的情况下,用于重新规划和执行的贪婪算法以及简单的最大最小公平调度程序也可以提供可证明的竞争行为。最后在Apache Hive和Tez上编写了算法原型,通过大量实验表明,与最先进的替代方案相比,本文的设计可以提供1.47倍的中值性能提升。
相关文章
|
数据可视化 大数据 定位技术
GIS:开源webgl大数据地图类库整理
GIS:开源webgl大数据地图类库整理
796 0
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
992 6
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
存储 机器学习/深度学习 大数据
参与开源大数据Workshop·杭州站,共探企业湖仓演进实践
Apache Flink 诚邀您参加 7 月 27 日在杭州举办的阿里云开源大数据 Workshop,了解流式湖仓、湖仓一体架构的最近演进方向,共探企业云上湖仓实践案例。
411 12
参与开源大数据Workshop·杭州站,共探企业湖仓演进实践
|
机器学习/深度学习 监控 大数据
Serverless 应用的监控与调试问题之Flink在整个开源大数据生态中应该如何定位,差异化该如何保持
Serverless 应用的监控与调试问题之Flink在整个开源大数据生态中应该如何定位,差异化该如何保持
|
机器学习/深度学习 分布式计算 大数据
MaxCompute 2.0:开源系统的集成与创新
增强实时处理能力:进一步加强与Flink等实时处理框架的合作。 强化机器学习支持:提供更多内置的机器学习算法和工具。 增强数据治理功能:提供更完善的数据质量和安全治理方案。
|
存储 分布式计算 Hadoop
【专栏】Hadoop,开源大数据处理框架:驭服数据洪流的利器
【4月更文挑战第28天】Hadoop,开源大数据处理框架,由Hadoop Common、HDFS、YARN和MapReduce组成,提供大规模数据存储和并行处理。其优势在于可扩展性、容错性、高性能、灵活性及社区支持。然而,数据安全、处理速度、系统复杂性和技能短缺是挑战。通过加强安全措施、结合Spark、自动化工具和培训,Hadoop在应对大数据问题中保持关键地位。
482 1
|
SQL 存储 监控
构建端到端的开源现代数据平台
构建端到端的开源现代数据平台
907 4
|
关系型数据库 分布式数据库 数据处理
【PolarDB 开源】PolarDB 在大数据分析中的应用:海量数据处理方案
【5月更文挑战第25天】PolarDB是解决大数据挑战的关键技术,以其高性能和可扩展性处理大规模数据。通过与数据采集和分析工具集成,构建高效数据生态系统。示例代码显示了PolarDB如何用于查询海量数据。优化策略包括数据分区、索引、压缩和分布式部署,广泛应用于电商、金融等领域,助力企业进行精准分析和决策。随着大数据技术进步,PolarDB将继续发挥关键作用,创造更多价值。
533 0
|
SQL 存储 大数据
从0到1介绍一下开源大数据服务平台dataService
从0到1介绍一下开源大数据服务平台dataService
1417 1
|
关系型数据库 大数据 分布式数据库
PolarDB 开源版 使用PostGIS 数据寻龙点穴(空间聚集分析)- 大数据与GIS分析解决线下店铺选址问题
背景PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力.本文将介绍PolarDB 开源版 使用PostGIS 数据寻龙点穴(空间聚集分析)-...
897 0