基于Spark的机器学习实践 (三) - 实战环境搭建-阿里云开发者社区

开发者社区> javaedge> 正文

基于Spark的机器学习实践 (三) - 实战环境搭建

简介: 0 相关源码 1 Spark环境安装 ◆ Spark 由scala语言编写,提供多种语言接口,需要JVM ◆ 官方为我们提供了Spark 编译好的版本,可以不必进行手动编译 ◆ Spark安装不难,配置需要注意,并且不一定需要Hadoop环境 下载 解压 tar zxvf spark-2.
+关注继续查看

0 相关源码

1 Spark环境安装

◆ Spark 由scala语言编写,提供多种语言接口,需要JVM

◆ 官方为我们提供了Spark 编译好的版本,可以不必进行手动编译

◆ Spark安装不难,配置需要注意,并且不一定需要Hadoop环境

  • 解压
tar zxvf spark-2.4.1-bin-hadoop2.7.tgz

2 Spark配置

◆ 在配置前尽量先阅读官方文档,避免直接从网上找配置教程

◆ 要为节点设 置好使用的内存,否则可能导致节点利用率低;

◆ 注意spark中IP与端口号的配置,以免UnknownHostException

[官网配置]()


单机环境配置

  • 本地IP

shell进行验证

bin/spark-shell

3 Spark shell

◆ Spark shell是一个bash脚本,在./bin目录下

◆ Spark shell 为我们事先配置好了上下文(context) 和会话(session)

  • context实例

  • session实例

4 实战Wordcount

4.1 Wordcount简介

◆ Wordcount
词频统计,是大数据分析中最为基础的一种任务
英文分词较容易,直接分割空格即可。

◆ 实现思路
首先将文件中所有的单词提取出来,然后合并相同单词

  • 实现示意图

项目搭建


  • 添加spark jar包
  • 全选jar包,先左键选中第一个,再拉到最后shift,再左键最后一个实现全选.


  • 新建类
  • 测试文件
`pwd`/`ls |grep L`

  • 编写函数
  • 运行成功
  • 打包

  • 移除这些多余的jar包


  • 构建


  • 将jar包放到spark/bin目录下 使用 Spark-submit 运行

Spark机器学习实践系列

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
Spark学习之基础相关组件(1)
Spark学习之基础相关组件(1) 1. Spark是一个用来实现快速而通用的集群计算的平台。 2. Spark的一个主要特点是能够在内存中进行计算,因而更快。 3. RDD(resilient distributed dataset弹性分布式数据集)表示分布在多个计算节点上可以并行操作的元素的集合,是Spark的主要编程抽象。 4. Spark是一个大一
1793 0
使用Spark SQL进行流式机器学习计算(上)
今天来和大家简单说一下如何使用Spark SQL进行流式数据的机器学习处理
1717 0
机器学习实战:基于概率论的分类方法:朴素贝叶斯(源码解析,错误分析)
按照惯例,先把代码粘到这里 from numpy import * def LoadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'proble...
835 0
Spark学习之在集群上运行Spark(6)
Spark学习之在集群上运行Spark(6) 1. Spark的一个优点在于可以通过增加机器数量并使用集群模式运行,来扩展程序的计算能力。 2. Spark既能适用于专用集群,也可以适用于共享的云计算环境。 3. Spark在分布式环境中的架构: Created with Raphaël 2.1.0我的操作集群管理器Mesos、YARN、或独立集群管理器N
1200 0
Day3-电子相册的相关搭建
通过阿里云提供的智能视觉平台中的人脸识别的SDK, 我们能够快速的搭建起电子相册, 包括人脸的表情属性识别等.
153 0
+关注
javaedge
关注公众号:JavaEdge,后台回复面试,领取更多大厂求职资源。曾在百度、携程、华为等大厂搬砖,专注Java生态各种中间件原理、框架源码、微服务、中台等架构设计及落地实战,只生产硬核干货!
2316
文章
1
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载