离线计算-数据改装程序|学习笔记

简介: 快速学习离线计算-数据改装程序

开发者学堂课程【大数据实战项目 - 反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第七阶段离线计算-数据改装程序】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/675/detail/11737


离线计算-数据改装程序


内容简介:

一、设置任务监控

二、测试数据的改装


一、设置任务监控

爬虫识别阶段的监控

离线分析的数据已经有了,但是支撑不了离线分析。所以需要对数据进行改装

(1)、需求

对当前 streaming 任务设置任务监控

(2)、代码

黄色部分为任务监控代码及:SparkStreamingMonitor.queryMonitor(sc,message)

注意下面这段黄色代码,此为集群获取代码:

//                  val              sparkDriverHost       =Sc.getConf.get(‘spark.org.apache.hadoop.yam.server.webproxy.amfilter.AmlpFilter.paramPROXY-URI-BAES”)

//监控信息页面路径+/proxy/+应用id+/metrics/json

//val url=s”${sparkDriverHost}/metrics/json”

设置任务监控使用代码:SparkStreamingMonitor(sc,message),打开代码以后,将下方黄色代码粘贴带入到 Monitor。我们现在使用的时本地计算,本地的


二、测试数据的改装

(1)、需求

在我们使用产生的真实测试文件中,并不包含我们离线分析的很多指标,如:国际查询,普通用户查询等,我们可以通过下面的程序将我们通过lua生成的测试数据进行一次改装,变成共离线统计使用的数据。

下面我们只提供改装测试数据的代码,规则比较简单,我们采取抽样修改数据,以满足我们图形显示的需求。

当然,在真实数据的情况下,会和我们改装后的数据类似,但是数据的形式可能会更离散化,而不是像我们改装的那么规律。

(2)、代码

代码在哪里跑?

在材料文件当中素材文件里项目代码文件有一个离线计算文件中有所有需要的离线计算代码

image.png

Data 里面的方面就是数据改装

素材文件里的样本文件中有我们需要的样本

①数据预处理,根据不同的行号条件,将数据进行相应的处理,如下面这段代码

val request=sc.textFile(path=”F:\\反爬虫项目\\素材\\资料包\\数据样本\\part-0000”)

.map(x=>{

var y=x

if(i%50==0){y=y.replace(target=”/B2C40/query/jaxb/direct/query.ad”,replacement=”/ita/int1/zh/shop/csair”)

}

if(i%201==0){y=y.replace(target=”/B2C40/query/jaxb/direct/query.ad”,replacement=”/modules/permissionnew/csair”).replace(

}

if(i%701==0){y=y.replace(target=”/B2C40/query/jaxb/direct/query.ad”,replacement=”/modules/permissionnew/csair”)

}

if(i%1001==0){y=y.replace(target=”/B2C40/query/jaxb/direct/query.ad”,replacement=”/upp_payment/pay/csair”)

}

if(i%2001==0){

y=y.replace(target=”192.168.56.1”,replacement=”243.234.12.43”)

}

If(i%200==0||i%402==0||i%2002==0||i%502==0){

Y=y.replace(target=”National”,replacement=”Internatinal”)

处理好的数据进入 test,处理好的数据进行离线数据计算

目录
打赏
0
0
0
0
55
分享
相关文章
|
12月前
|
U3D引擎虚拟仿真课程加载缓慢怎么解决?实时渲染技术
针对以上问题,既要考虑原有资源的利旧使用,也要考虑用户使用的流畅体验。实时渲染云流化技术方案,可以很好地解决这两个问题。因为点量云流实时渲染系统,不仅仅是针对U3D/UE引擎,还可以是webgl网页的流化,直接将整个浏览器流化给用户来使用。这样可以将这些原来比较老的webgl课程放在服务器端,为服务器配置高性能的显卡和CPU ,在教学或者使用过程中直接使用服务器算力,用户侧只需要普通的电脑、平板等轻终端设备即可实时使用这些课程。而且高性能的显卡,一般可以支持数十个用户同时使用,可能一台服务器1-2张显卡就可以满足30-40个人使用(这里只是预估,具体以实际为准)。
90 0
云端问道13期方案教学-告别资源瓶颈,函数计算驱动多媒体文件处理
《云端问道13期方案教学》由阿里云技术团队周博宇主讲,聚焦如何使用函数计算突破资源瓶颈,高效处理多媒体文件。方案涵盖六大要点:寻找云需求解决方案、选择函数计算的原因、对比不同文件处理方式、实现多媒体文件处理、应用场景广泛性及优惠购买推荐。通过将文件处理从主应用拆分,利用函数计算的按需扩展和自动弹性特性,确保核心业务稳定,并大幅降低成本。适用于图片、视频处理等多种场景。
云端问道13期方案教学-告别资源瓶颈,函数计算驱动多媒体文件处理
云端问道13期实操教学-告别资源瓶颈,函数计算驱动多媒体文件处理
《云端问道13期实操教学》介绍了使用函数计算实现多媒体文件处理的解决方案,分为五部分:方案概览、部署准备、一键部署、完成及清理和主流应用场景。通过创建VPC、ECS、RDS等资源,演示了如何利用函数计算处理PPT加水印并转PDF,解决了资源瓶颈问题。最后讲解了函数计算在部署外部应用、文件处理和音视频处理中的优势。
告别资源瓶颈,函数计算驱动多媒体文件处理方案:https://www.aliyun.com/solution/tech-solution/fc-drive-file
本文介绍了一种基于阿里云的一键部署解决方案,利用云服务器ECS、RDS MySQL、OSS、函数计算FC及MNS等服务,实现高效的多媒体文件处理。方案通过事件驱动机制,将文件处理任务解耦,并自动弹性扩展,按需付费,简化部署流程,提高处理效率。本文还提供了详细的部署步骤与体验反馈,展示了从配置到文件处理的全过程。
Python I/O管理新篇章:优化你的程序,让数据流动更顺畅
【9月更文挑战第13天】在数据驱动时代,Python因其在数据分析、科学计算及Web开发中的广泛应用而备受青睐。本文探讨了Python I/O管理的关键方面,包括理解I/O瓶颈、使用缓冲技术、并发与异步I/O、高效数据序列化及监控调试。通过具体示例,展示了如何优化文件读写和网络通信,提高程序性能。掌握这些技能,可使数据在程序中流动更加顺畅。
83 3
体验报告:《告别资源瓶颈,函数计算驱动多媒体文件处理》解决方案
体验报告:《告别资源瓶颈,函数计算驱动多媒体文件处理》解决方案
132 30
告别资源瓶颈,函数计算驱动多媒体文件处理
在数字化浪潮中,体验了《告别资源瓶颈,函数计算驱动多媒体文件处理》解决方案。详尽的文档和清晰的引导让上手变得容易,尽管高级功能的文档仍有提升空间。部署时,代码示例提升了效率,虽遇少许配置难题,但最终解决。性能表现卓越,稳定性强,按需付费有效控制成本,极力推荐企业采用此方案加速云端转型。同时,配套的云产品如存储、计算及数据库服务等表现出色,操作简单易懂,适合各水平用户。
体验《告别资源瓶颈,函数计算驱动多媒体文件处理》
体验《告别资源瓶颈,函数计算驱动多媒体文件处理》
测评《告别资源瓶颈,函数计算驱动多媒体文件处理》解决方案
该体验报告指出,引导文档详尽,涵盖初始设置与示例代码,但需增加常见问题解答及更多高级功能实例。提供的代码示例实用但在处理大文件时存在超时和权限问题。性能方面,处理多媒体文件表现出色,系统稳定,成本控制适宜中小企业。函数计算、对象存储与API网关等云产品在实际应用中表现出色,尤其适用于需要弹性处理的企业场景。建议增强常见问题解答部分以提升用户体验。
107 0

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等