开发者学堂课程【大数据 Spark2020版(知识精讲与实战演练)第四阶段:工程搭建_创建】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/691/detail/12107
工程搭建_创建
在步骤中对流程进行更加详细的说明,要对整体步骤有一个更加直观的认识,知道是做什么,第一步读数据,第二步处理数据,第三步扩展行政区信息,第四步通过会话分析求的结果
在进行具体每一个步骤之前要创建工程,是当务之急
第一步 Create New Project
Next
创建工程后,做初始的任务
首先将对应的架包导入
将代码导入,等待加载
<?xml version="1.0"encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM /4.0.0"
xmlns :xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi :schemaLocation="http://maven.apache.org/POM/4.0.0
http://maven.apache.org/xsd/ maven-4.0.0.xsd">
<modelversion>4.0.0</modelVersion>
<groupId>cn.itcast</groupId>
<artifactId>taxi</artifactId>
<version>0.0.1</version>
<properties>
<scala.version>2.11.8</scala.version>
<spark.version>2.2.0</spark.version>
<hadoop.version>2.7.5</ hadoop.version>
<slf4j.version>1.7.16</slf4j.versiorE>
<log4j.version>1.2.17</log4j.version>
<mysql.version>5.1.35</mysql.version>
<esri.version>2.2.2</esri.version>
<json4s.version>3.6.6</json4s.version>
</properties>
<dependencies>
<!-- Scala库-->
<dependency>
<groupId>org.scala-lang</groupId>
<artifactId>scala-library</artifactId>
<version>${scala.version}</version>
</dependency>
<dependency>
<groupId>org.scala-lang.modules</groupId>
<artifactId>scala-xml_2.11</artifactId>
<version>1.0.6</version>
</dependency>
<!-- Spark系列包-->
<dependency>
<groupId>org.apache.spark</groupId
<artifactId>spark-core_2.11</artifactId>
<version>${spark.version}</version>
</dependency>
<dependency>
<groupId>org .apache.sparke/groupId>
<artifactId>spark-sql_2.11</artifactId>
<version>${spark.version}</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>${hadoop. version}</version>
</dependency>
<! --地理位置处理库-->
<dependency>
有一个 build 插件,需要创建一个新的 directory
<build>
<sourceDirectory>src/main/scala</sourceDirectory>
创建一个新的目录,目录作为源码目录
进入 src 下 main 下找到 main、new、Directory,命名为 scala
将 scala 标注为 Sources Root,工程创建完成
文件分为 properties 信息参数、dependencies 有几个不同类别的库,scala 支持库、spark 系列包、spark-core/spark-sql,使用 spark 需要将 Hadoop 写入,处理地理位置,导入 esri 库,导入 JSON 解析库,JSON 解析库实际是 jackson,使用 json4s API 分装,json4s 在 scala 中是一个常见的 API,日志相关工具以及插件,导入两个插件,第一个目的是指定,第二个插件打包 scala 代码
创建架包
命名为 cn.itcast.taxi
创建一个类
Scala class 定义为 TaxiProcessor
工程搭建完成
写一个 main 方法
package cn.itcast.taxi
class TaxiProcessor {
def main(args: Array[string]): unit = {
}
}