Bluemix中的Apache Spark数据分析服务入门

简介: Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。

Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。
Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。

创建服务实例

按以下步骤创建一个Apache Spark 服务的实例
1、登录 Bluemix ,进入仪表板页面,单击“数据和分析”下的“使用数据”。


2、在左侧的标签中选择“Analytics”,然后点击下面的“New Instance”;


3、了解价格与服务概述,创建服务实例;


查看不同地区的价格,但我没有找到中国,难道中国还没有服务器?


点击 Terms 可以查看服务描述


填写实例名称,然后点击“Create Instance”开始创建服务实例


4、实例创建成功后会返回到实例创建的引导页面,在Service下可以看到刚刚创建的Apache Spark服务,在Analytics的Instance下也可以看到刚刚创建的Apache Spark服务;

刚创建完成的时候,我返回到仪表盘去查看,发现没有,然后转到“Try the new Bluemix”找到了,以为仪表盘中不会显示,后来又打开仪表盘页面发现又有了,看样子是反应慢。

管理服务实例

在实例创建的引导页面,仪表盘,“Try the new Bluemix”等多个页面都可以查看并管理你的服务实例。


管理功能包括:

1、重命名、删除服务;

2、点击服务,可以进入服务功能的管理界面;


3、监视服务的使用情况,查看服务的使用历史记录;

4、使用笔记本电脑和Spark工作

5、运行Spark应用程序

6、查看和管理连接的应用程序或服务

单击“创建连接”可以将 spark test 连接到某个现有应用程序或兼容服务,这时你之前创建的应用都会列出来。

我还真是被搞晕了,“连接”这个管理功能从不同的地方进入管理页面有的有,有的没有!

7、服务凭证,可以查看,添加凭证,或复制凭证应用到你的应用中,凭证内容类似如下:

{
    "credentials": {
        "tenant_id": "s983-b882f590d2c0fc-b38a1adda111",
        "tenant_id_full": "2e50d60b-0b9b-4b64-a983-b882f590d2c0_5b31a712-0086-4d32-96fc-b38a1sdda111",
        "cluster_master_url": "https://169.54.219.20:8443",
        "instance_id": "2e50d60b-0b9b-4b64-a983-b88ss590d2c0",
        "tenant_secret": "f2f0ed85-b044-4c78-8da2-a245esda867a",
        "plan": "ibm.SparkService.PayGoPersonal"
    }
}

创建笔记本

要使用笔记本工作和开发,需要先创建笔记本;

笔记本电脑提供了一个交互式的计算环境中执行的数据来自不同来源的分析任务,让你在一个地方相结合的代码执行,丰富的文字,数学,情节和丰富的媒体。

1、进入仪表盘页面,单击使用数据;

2、在打开的页面左侧选择:Analytics

3、单击“NEW NOTEBOOK


4、我们可以先从笔记本样本示例来浏览和学习,单击“Samples”标签,选择“Precipitation Analysis”,单击“Create NOTEBOOK”按钮


5、阅读并探索这个样本Python笔记本了解什么是可用的,以及如何加载数据,并使用它。


参考:

Apache Spark数据分析入门

Apache Spark 学习中心

Get Started in Bluemix


目录
相关文章
|
消息中间件 数据挖掘 Kafka
Apache Kafka流处理实战:构建实时数据分析应用
【10月更文挑战第24天】在当今这个数据爆炸的时代,能够快速准确地处理实时数据变得尤为重要。无论是金融交易监控、网络行为分析还是物联网设备的数据收集,实时数据处理技术都是不可或缺的一部分。Apache Kafka作为一款高性能的消息队列系统,不仅支持传统的消息传递模式,还提供了强大的流处理能力,能够帮助开发者构建高效、可扩展的实时数据分析应用。
1070 5
|
存储 缓存 算法
分布式锁服务深度解析:以Apache Flink的Checkpointing机制为例
【10月更文挑战第7天】在分布式系统中,多个进程或节点可能需要同时访问和操作共享资源。为了确保数据的一致性和系统的稳定性,我们需要一种机制来协调这些进程或节点的访问,避免并发冲突和竞态条件。分布式锁服务正是为此而生的一种解决方案。它通过在网络环境中实现锁机制,确保同一时间只有一个进程或节点能够访问和操作共享资源。
605 3
|
Linux 网络安全 Apache
CentOS 7.2配置Apache服务httpd(上)
CentOS 7.2配置Apache服务httpd(上)
986 1
|
分布式计算 大数据 Apache
利用.NET进行大数据处理:Apache Spark与.NET for Apache Spark
【10月更文挑战第15天】随着大数据成为企业决策和技术创新的关键驱动力,Apache Spark作为高效的大数据处理引擎,广受青睐。然而,.NET开发者面临使用Spark的门槛。本文介绍.NET for Apache Spark,展示如何通过C#和F#等.NET语言,结合Spark的强大功能进行大数据处理,简化开发流程并提升效率。示例代码演示了读取CSV文件及统计分析的基本操作,突显了.NET for Apache Spark的易用性和强大功能。
484 1
|
存储 分布式计算 druid
大数据-155 Apache Druid 架构与原理详解 数据存储 索引服务 压缩机制
大数据-155 Apache Druid 架构与原理详解 数据存储 索引服务 压缩机制
340 3
|
存储 数据挖掘 数据处理
Apache Paimon 是一款高性能的数据湖框架,支持流式和批处理,适用于实时数据分析
【10月更文挑战第8天】随着数据湖技术的发展,越来越多企业开始利用这一技术优化数据处理。Apache Paimon 是一款高性能的数据湖框架,支持流式和批处理,适用于实时数据分析。本文分享了巴别时代在构建基于 Paimon 的 Streaming Lakehouse 的探索和实践经验,包括示例代码和实际应用中的优势与挑战。
883 1
|
Linux PHP Apache
CentOS 7.2配置Apache服务httpd(下)
CentOS 7.2配置Apache服务httpd(下)
318 1
|
分布式计算 大数据 Spark
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
《Spark大数据处理:技术、应用与性能优化》深入浅出介绍Spark核心,涵盖部署、实战与性能调优,适合初学者。作者基于微软和IBM经验,解析Spark工作机制,探讨BDAS生态,提供实践案例,助力快速掌握。书中亦讨论性能优化策略。[PDF下载链接](https://zhangfeidezhu.com/?p=347)。![Spark Web UI](https://img-blog.csdnimg.cn/direct/16aaadbb4e13410f8cb2727c3786cc9e.png#pic_center)
581 1
Spark大数据处理:技术、应用与性能优化(全)PDF书籍推荐分享
|
Ubuntu Linux 测试技术
在Linux中,已知 apache 服务的访问日志按天记录在服务器本地目录/app/logs 下,由于磁盘空间紧张现在要求只能保留最近7天的访问日志,请问如何解决?
在Linux中,已知 apache 服务的访问日志按天记录在服务器本地目录/app/logs 下,由于磁盘空间紧张现在要求只能保留最近7天的访问日志,请问如何解决?
|
应用服务中间件 Apache nginx
apache、nginx开启rewrite重写服务及伪静态
apache、nginx开启rewrite重写服务及伪静态
856 4

热门文章

最新文章

推荐镜像

更多