IP 转换_环境准备 | 学习笔记

简介: 快速学习 IP 转换_环境准备

开发者学堂课程【2020版大数据实战项目之 DMP 广告系统(第五阶段)IP 转换_环境准备】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/680/detail/11810


IP 转换_环境准备

 

环境准备

1、本课程进行具体的代码编写。第一步要拷贝数据集,接下来按照既定好的步骤一步一步实现。整体上的步骤第一步是创建 sparksession,第二步读取数据集,第三步处理 IP 数据,第四步进行数据落地。

image.png

2、第一步进的 files 目录当中,找到 pmt.json,拷贝这个主数据集以后,放到 IDEA 当中,这样第一步就完成了。下面应该继续创建环境,创建 sparksession 非常简单,拿到 spark 这样一个变量,使用 Sparksession.builder 创建 builder,接下来设置 appName,appName 叫做 pmt json etl,下一步设置 master,设置为 local【6】。接下来 getorCreate,现在是要做一个项目,就需要把配置文件加进来,刚才已经写过一个工具类了,在工具类当中,就有一个方法叫 load,但是这里没有显示,想使用演示转换是可以的,但是要先导入伴生对象,import cn. Itcast. utils.SparkConfigHelper.,

下面再去写 load,会发现 loadconfig,这是第一步要把 sparksession 创建出来。第二步就应该读取数据集,spark.read,read 可以直接设置 option,没有特别多的 option 需要设置,所以把他删掉,使用 json 读取配置文件,配置文件在 dataset 下叫做 pmt.json 文件里。这个时候拿到了 source,也可以叫 original,source 是代表数据源的数据,source.show。要确保每一步是没有问题的,只有确保每一步都没有问题,才能确保整体上是没有问题的。

import org. apache. spark. sql.SparkSession

object ETLRunner {

def main(args:Array[string]):Unit={

import cn. Itcast. utils.SparkConfigHelper.

//1.创建 SparkSession

val spark=SparkSession. builder()

.appName(·name="pmt json etl")

. master(master="local[6]")

.loadConfig()

·getOrCreate()

//2.读取数据集

val source=spark. read. json(path="dataset/pmt. json ")

source. show()

//3.数据操作

//对于不同的数据处理操作来说,需要把操作在这个位置调用//processor. Process

//4.数据落地

3、运行,整个数据集已经加载出来了,第一列是 adcreativeid,第二列是 adorderid,第三列是 adpayment,然后是 adplatformkey 等等,这些内容都已经加载出来,说明数据集的加载是没有问题的。

image.png

相关文章
|
存储 分布式计算 资源调度
在kubernetes上运行apache spark:最佳实践和陷阱
阿里云高级技术专家范振为大家带来在kubernetes上运行apache spark的介绍。内容包括Data Mechanic平台介绍,Spark on k8s,以及EMR团队云原生的思考和实践。以下由Spark+AI Summit中文精华版峰会的精彩内容整理。
4520 0
在kubernetes上运行apache spark:最佳实践和陷阱
|
资源调度 JavaScript 前端开发
探索 npm:JavaScript 的赛博配给站
在现代的软件开发世界中,包管理工具起着至关重要的作用。它们为开发者社区提供了一种高效共享和使用代码的方式。在 JavaScript 的范畴内,`npm`(Node Package Manager)伫立在这一领域的前沿,成为了开发者在进行Web开发时不可或缺的工具之一。
143 0
探索 npm:JavaScript 的赛博配给站
|
13天前
|
存储 弹性计算 人工智能
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
2025年9月24日,阿里云弹性计算团队多位产品、技术专家及服务器团队技术专家共同在【2025云栖大会】现场带来了《通用计算产品发布与行业实践》的专场论坛,本论坛聚焦弹性计算多款通用算力产品发布。同时,ECS云服务器安全能力、资源售卖模式、计算AI助手等用户体验关键环节也宣布升级,让用云更简单、更智能。海尔三翼鸟云服务负责人刘建锋先生作为特邀嘉宾,莅临现场分享了关于阿里云ECS g9i推动AIoT平台的场景落地实践。
【2025云栖精华内容】 打造持续领先,全球覆盖的澎湃算力底座——通用计算产品发布与行业实践专场回顾
|
5天前
|
云安全 人工智能 安全
Dify平台集成阿里云AI安全护栏,构建AI Runtime安全防线
阿里云 AI 安全护栏加入Dify平台,打造可信赖的 AI
|
12天前
|
人工智能 自然语言处理 自动驾驶
关于举办首届全国大学生“启真问智”人工智能模型&智能体大赛决赛的通知
关于举办首届全国大学生“启真问智”人工智能模型&智能体大赛决赛的通知
|
8天前
|
人工智能 运维 Java
Spring AI Alibaba Admin 开源!以数据为中心的 Agent 开发平台
Spring AI Alibaba Admin 正式发布!一站式实现 Prompt 管理、动态热更新、评测集构建、自动化评估与全链路可观测,助力企业高效构建可信赖的 AI Agent 应用。开源共建,现已上线!
776 23
|
7天前
|
人工智能 Java Nacos
基于 Spring AI Alibaba + Nacos 的分布式 Multi-Agent 构建指南
本文将针对 Spring AI Alibaba + Nacos 的分布式多智能体构建方案展开介绍,同时结合 Demo 说明快速开发方法与实际效果。
497 37