开源大数据周刊-第106期

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: Apache Kylin社区于日前宣布:Apache Kylin v2.5.1 正式发布!Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop 之上的 SQL 查询接口及多维分析(OLAP)能力,支持对超大规模数据进行亚秒级查询。

资讯

  • Apache Kylin v2.5.1 正式发布
    Apache Kylin社区于日前宣布:Apache Kylin v2.5.1 正式发布!Apache Kylin 是一个开源的分布式分析引擎,提供 Hadoop 之上的 SQL 查询接口及多维分析(OLAP)能力,支持对超大规模数据进行亚秒级查询。Apache Kylin v2.5.1 是继 v2.5.0 版本后的一次修复 bug 的更新,共修复了超过30 个 issues,包括缺陷修复和改进等。
  • VMware 收购 Heptio:它由 Kubernetes 两位联合创始人创办
    在近期于欧洲召开大型客户会议期间,Vmware公司同时宣布了另一项收购决策,旨在帮助企业客户建立并运行基于Kubernetes的容器化架构。而本轮收购的对象,正是位于西雅图的初创企业Heptio。Heptio公司由Joe Beda与Craig McLuckie两位曾在2014年帮助谷歌联合建立Kubernetes项目的主力(当时的项目负责人共有三名)共同建立。
  • Databricks CTO Matei Zaharia专访:分布式是机器学习的未来!
    本文是在今年的 Spark 和人工智能欧洲峰会期间对 Matei Zaharia 的专访,他是 Spark 的商业支持公司 Databricks 的 CTO 。采访中,Zaharia 介绍了公司的整合分析目标,以及 Spark 和 MLFlow 框架的用例、编程语言、采纳模式,提出分布式是机器学习的未来发展方向。
  • Apache Spark 2.4正式发布以及新特性介绍
    美国当地时间2018年11月2日,Apache Spark完成了2.x的第五次发布:2.4.0版本。本文中详细介绍了Apache Spark 2.4.0版本的新特性,包括Barrier Execution Mode、Scala 2.12支持、Pandas UDF增强、Image Data Source支持以及k8s集成增强等。

技术

  • Adaptive Execution如何让Spark SQL更高效更好用?
    本文所述内容均基于 2018 年 9 月 17 日 Spark 最新 Spark Release 2.3.1 版本,以及截止到 2018 年 10 月 21 日 Adaptive Execution 最新开发代码。自动设置 Shuffle Partition 个数已进入 Spark Release 2.3.1 版本,动态调整执行计划与处理数据倾斜尚未进入 Spark Release 2.3.1。
  • 揭解读微软开源MMLSpark:统一的大规模机器学习生态系统
    目前,有很多深度学习框架支持与 Spark 集成,如 Tensorflow on Spark 等。然而,微软开源的 MMLSpark 不仅集成了机器学习框架(CNTK 深度学习计算框架、LightGBM 机器学习框架),还可以将这些计算资源作为一种服务,以 HTTP 服务的形式对外提供给用户。近日,微软 MMLSpark 团队发表了一篇论文对 MMLSpark 的架构进行详细解读,我们将基于这篇论文,就 MMLSpark 的相关组件的特性和一个利用 MMLSpark 进行物体识别的案例展开介绍。
  • Apache Pulsar在智联招聘的实践 -- 从消息队列到基于Apache Pulsar的事件中心
    本文介绍了以前的消息中间件在智联招聘的应用和场景;以及对消息中间件选型的诉求;详细描述了选型过程中的细致思考。接着介绍了为什么会选择Pulsar,以及Pulsar中和智联的场景匹配的特性。最后提供了详细的Pulsar落地实践。
  • Dynamic Query Re-Planning Using QOOP
    本文来自osdi'18大会录取论文。现代数据处理集群是高度动态的,无论是在并发运行的作业数量还是资源使用方面。为了提高性能,业界最近的工作重点都是优化集群调度程序和作业的查询计划程序,即选择正确的查询执行计划(QEP)。但是,由于现有解决方案在整个执行过程中使用固定的QEP,因此无法根据资源变化调整QEP,这通常会导致性能低下。本文主张动态查询重新规划,其中我们在执行期间重新评估和重新规划作业的QEP。论文中提出在三个组件(the query planner, the execution engine and the cluster scheduler)之间重新分配责任以简化其设计,而不是将更多复杂性推向调度程序或查询计划程序。在这中设计方案下,论文分析表明,即使在对抗性资源变化的情况下,用于重新规划和执行的贪婪算法以及简单的最大最小公平调度程序也可以提供可证明的竞争行为。最后在Apache Hive和Tez上编写了算法原型,通过大量实验表明,与最先进的替代方案相比,本文的设计可以提供1.47倍的中值性能提升。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5月前
|
SQL 存储 分布式计算
从0到1介绍一下开源大数据比对平台dataCompare
从0到1介绍一下开源大数据比对平台dataCompare
338 0
|
2月前
|
数据可视化 大数据 定位技术
GIS:开源webgl大数据地图类库整理
GIS:开源webgl大数据地图类库整理
|
3月前
|
存储 机器学习/深度学习 大数据
参与开源大数据Workshop·杭州站,共探企业湖仓演进实践
Apache Flink 诚邀您参加 7 月 27 日在杭州举办的阿里云开源大数据 Workshop,了解流式湖仓、湖仓一体架构的最近演进方向,共探企业云上湖仓实践案例。
163 12
参与开源大数据Workshop·杭州站,共探企业湖仓演进实践
|
2月前
|
机器学习/深度学习 监控 大数据
Serverless 应用的监控与调试问题之Flink在整个开源大数据生态中应该如何定位,差异化该如何保持
Serverless 应用的监控与调试问题之Flink在整个开源大数据生态中应该如何定位,差异化该如何保持
|
3月前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute 2.0:开源系统的集成与创新
增强实时处理能力:进一步加强与Flink等实时处理框架的合作。 强化机器学习支持:提供更多内置的机器学习算法和工具。 增强数据治理功能:提供更完善的数据质量和安全治理方案。
|
5月前
|
存储 分布式计算 Hadoop
【专栏】Hadoop,开源大数据处理框架:驭服数据洪流的利器
【4月更文挑战第28天】Hadoop,开源大数据处理框架,由Hadoop Common、HDFS、YARN和MapReduce组成,提供大规模数据存储和并行处理。其优势在于可扩展性、容错性、高性能、灵活性及社区支持。然而,数据安全、处理速度、系统复杂性和技能短缺是挑战。通过加强安全措施、结合Spark、自动化工具和培训,Hadoop在应对大数据问题中保持关键地位。
145 1
|
5月前
|
关系型数据库 分布式数据库 数据处理
【PolarDB 开源】PolarDB 在大数据分析中的应用:海量数据处理方案
【5月更文挑战第25天】PolarDB是解决大数据挑战的关键技术,以其高性能和可扩展性处理大规模数据。通过与数据采集和分析工具集成,构建高效数据生态系统。示例代码显示了PolarDB如何用于查询海量数据。优化策略包括数据分区、索引、压缩和分布式部署,广泛应用于电商、金融等领域,助力企业进行精准分析和决策。随着大数据技术进步,PolarDB将继续发挥关键作用,创造更多价值。
224 0
|
5月前
|
SQL 存储 监控
构建端到端的开源现代数据平台
构建端到端的开源现代数据平台
335 4
|
5月前
|
SQL 存储 大数据
从0到1介绍一下开源大数据服务平台dataService
从0到1介绍一下开源大数据服务平台dataService
402 1
|
5月前
|
关系型数据库 大数据 分布式数据库
PolarDB 开源版 使用PostGIS 数据寻龙点穴(空间聚集分析)- 大数据与GIS分析解决线下店铺选址问题
背景PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力.本文将介绍PolarDB 开源版 使用PostGIS 数据寻龙点穴(空间聚集分析)-...
167 0
下一篇
无影云桌面