开发者社区大数据文章正文

【Spark Summit East 2017】Apache Toree：Spark的一种Jupyter内核

2017-02-18 2642

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本讲义出自Marius van Niekerk在Spark Summit East 2017上的演讲，主要介绍了Toree的设计思想，Toree如何与Jupyter生态系统交互，以及用户如何借助强大的插件系统来扩展Apache Toree的功能。

更多精彩内容参见云栖社区大数据频道https://yq.aliyun.com/big-data；此外，通过Maxcompute及其配套产品，低廉的大数据分析仅需几步，详情访问https://www.aliyun.com/product/odps。

本讲义出自Marius van Niekerk在Spark Summit East 2017上的演讲，主要介绍了Toree的设计思想，Toree如何与Jupyter生态系统交互，以及用户如何借助强大的插件系统来扩展Apache Toree的功能。

目前许多数据科学家已经在利用Jupyter生态系统并进行数据分析，正在孵化中的Apache Toree是设计用于作为Spark网关，Apache Toree能让用户遵守Jupyter标准，这将允许用户非常简单地将Spark集成到已有的Jupyter生态系统中，并将允许用户轻松地语言和语境之间进行切换，而不需要切换到不同的工具集。

2a96ffda7adee5d512bc01ec8b0af7179d4cd602

b1b883708f13bf2b92c38f1f4c0e53e76c22b8f9

a8a470489d20dd63dc5365887202ef77166266b9

bbdb10b240b2ac56ba7a46511b9562fe87feef84

1c142403d5c92ceeb0ae3b79fd9fa9ef23b0fd8c

3f54cac70c4150d777aa5f736d100c82f1b53a7e

40fc87fa8efb5483b7fd9c2d38e3305909ab019a

54610f68a26dfd9339fb6ca73625ada2981fca9b

421ba579e592315b8b25f53b79ae78197d32537f

49284602f64dc0894793e51038b96f482fb0e4e0

be9351d85786172a2b39693d7b663eb142ebdc3d

bea7227dee5b793bab531a588a2852e762825da5

cec3cb509bd38d56ab99b3ed63b2c181f7e7d6a8

356f0f50d00215ce2845806bb55b16fbc6b1c7f6

8fbbeeab701e7afea899efb6722f8aca95a10983

文章标签：

Apache

分布式计算

Spark

关键词：

apache spark Apache

spark Apache

apache spark内核

Jupyter内核

Apache内核

小猫吃鱼569

SelectDB

存储消息中间件人工智能

AI大模型独角兽 MiniMax 基于阿里云数据库 SelectDB 版内核 Apache Doris 升级日志系统，PB 数据秒级查询响应

早期 MiniMax 基于 Grafana Loki 构建了日志系统，在资源消耗、写入性能及系统稳定性上都面临巨大的挑战。为此 MiniMax 开始寻找全新的日志系统方案，并基于阿里云数据库 SelectDB 版内核 Apache Doris 升级了日志系统，新系统已接入 MiniMax 内部所有业务线日志数据，数据规模为 PB 级，整体可用性达到 99.9% 以上，10 亿级日志数据的检索速度可实现秒级响应。

SelectDB

1049 14 14

龙大吉

分布式计算大数据 Apache

利用.NET进行大数据处理：Apache Spark与.NET for Apache Spark

【10月更文挑战第15天】随着大数据成为企业决策和技术创新的关键驱动力，Apache Spark作为高效的大数据处理引擎，广受青睐。然而，.NET开发者面临使用Spark的门槛。本文介绍.NET for Apache Spark，展示如何通过C#和F#等.NET语言，结合Spark的强大功能进行大数据处理，简化开发流程并提升效率。示例代码演示了读取CSV文件及统计分析的基本操作，突显了.NET for Apache Spark的易用性和强大功能。

龙大吉

458 1 1

张飞的猪

分布式计算大数据 Spark

Spark大数据处理：技术、应用与性能优化(全)PDF书籍推荐分享

《Spark大数据处理：技术、应用与性能优化》深入浅出介绍Spark核心，涵盖部署、实战与性能调优，适合初学者。作者基于微软和IBM经验，解析Spark工作机制，探讨BDAS生态，提供实践案例，助力快速掌握。书中亦讨论性能优化策略。[PDF下载链接](https://zhangfeidezhu.com/?p=347)。![Spark Web UI](https://img-blog.csdnimg.cn/direct/16aaadbb4e13410f8cb2727c3786cc9e.png#pic_center)

张飞的猪

518 1 1

SelectDB

SQL 存储运维

网易游戏如何基于阿里云瑶池数据库 SelectDB 内核 Apache Doris 构建全新湖仓一体架构

随着网易游戏品类及产品的快速发展，游戏数据分析场景面临着越来越多的挑战，为了保证系统性能和 SLA，要求引入新的组件来解决特定业务场景问题。为此，网易游戏引入 Apache Doris 构建了全新的湖仓一体架构。经过不断地扩张，目前已发展至十余集群、为内部上百个项目提供了稳定可靠的数据服务、日均查询量数百万次，整体查询性能得到 10-20 倍提升。

SelectDB

754 0 0

SelectDB

存储运维 OLAP

抖音集团基于 SelectDB 内核 Apache Doris 的实时数据仓库实践

在直播、电商等业务场景中存在着大量实时数据，这些数据对业务发展至关重要。而在处理实时数据时，我们也遇到了诸多挑战，比如实时数据开发门槛高、运维成本高以及资源浪费等。

SelectDB

514 0 0

jianz123

分布式计算 Hadoop 大数据

大数据处理框架在零售业的应用：Apache Hadoop与Apache Spark

【8月更文挑战第20天】Apache Hadoop和Apache Spark为处理海量零售户数据提供了强大的支持

jianz123

393 0 0

扬流

分布式计算 Serverless 数据处理

EMR Serverless Spark 实践教程 | 通过 Apache Airflow 使用 Livy Operator 提交任务

Apache Airflow 是一个强大的工作流程自动化和调度工具，它允许开发者编排、计划和监控数据管道的执行。EMR Serverless Spark 为处理大规模数据处理任务提供了一个无服务器计算环境。本文为您介绍如何通过 Apache Airflow 的 Livy Operator 实现自动化地向 EMR Serverless Spark 提交任务，以实现任务调度和执行的自动化，帮助您更有效地管理数据处理任务。

扬流

646 0 0

叫做饺子

分布式计算 Apache Spark

Python与Apache Spark：实时AI的大数据引擎——Spark Streaming实战

7月更文挑战第9天

叫做饺子

599 0 0

SelectDB

存储大数据关系型数据库

从 ClickHouse 到阿里云数据库 SelectDB 内核 Apache Doris：快成物流的数智化货运应用实践

目前已经部署在 2 套生产集群，存储数据总量达百亿规模，覆盖实时数仓、BI 多维分析、用户画像、货运轨迹信息系统等业务场景。

SelectDB

753 0 0

SelectDB

SQL Java Apache

阿里云数据库 SelectDB 版内核 Apache Doris 2.1.4 版本正式发布

亲爱的社区小伙伴们，Apache Doris 2.1.4 版本已于 2024 年 6 月 26 日正式发布。在 2.1.4 版本中，我们对数据湖分析场景进行了多项功能体验优化，重点修复了旧版本中异常内存占用的问题，同时提交了若干改进项以及问题修复，进一步提升了系统的性能、稳定性及易用性，欢迎大家下载使用。

SelectDB

480 0 0

【Spark Summit East 2017】Apache Toree：Spark的一种Jupyter内核

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【Spark Summit East 2017】Apache Toree：Spark的一种Jupyter内核

热门文章

最新文章

相关课程

相关电子书

推荐镜像