日志分析实战之清洗日志小实例5：实现获取不能访问url

2023-01-14 258

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

日志服务 SLS，月写入数据量 50GB 1个月

简介： 日志分析实战之清洗日志小实例5：实现获取不能访问url

上篇文章简单的统计了一些信息，下一步希望找到404对应的url。

思路：

1.获取request字段

2.过滤不需要字符

3.实现获取url，并打印输出

1.创建getRequest函数获取request字段

// get the `request` field from an access log record
def getRequest(rawAccessLogString: String): Option[String] = {
  val accessLogRecordOption = p.parseRecord(rawAccessLogString)
  accessLogRecordOption match {
    case Some(rec) => Some(rec.request)
    case None => None
  }
}

2.创建extractUriFromRequest函数

// val request = "GET /foo HTTP/1.0"
def extractUriFromRequest(requestField: String) = requestField.split(" ")(1)

这个目的大家可以猜猜它的作用

获取404页面，并且打印出请求的URL.

val distinctRecs = log.filter(line => getStatusCode(p.parseRecord(line)) == "404")
                     .map(getRequest(_))
                     .collect { case Some(requestField) => requestField }
                     .map(extractUriFromRequest(_))
                     .distinct

distinctRecs.count

distinctRecs.collect().foreach(println(_))

3.获取url

val distinctRecs = log.filter(line => getStatusCode(p.parseRecord(line)) == "404")
                     .map(getRequest(_))
                     .collect { case Some(requestField) => requestField }
                     .map(extractUriFromRequest(_))
                     .distinct

通过上面看，其实挺简单。Scala本身是非常简洁的。

知识补充：

对于collect（）函数，是比较常见的，但是对于下面内容，是什么意思。

collect { case Some(requestField) => requestField }这个作用，类似map。

##################

更多信息：

在Scala中，当我需要对集合的元素进行转换时，自然而然会使用到map方法。而当我们在对tuple类型的集合或者针对Map进行map操作时，通常更倾向于在map方法中使用case语句，这比直接使用_1与_2更加可读。例如：

val languageToCount = Map("Scala" -> 10, "Java" -> 20, "Ruby" -> 5)
languageToCount map { case (_, count) => count + 1 }

然而对于上述场景，其实我们也可以使用collect方法：

languageToCount collect { case (_, count) => count + 1 }

日志分析实战之清洗日志小实例5：实现获取不能访问url

思路：

1.创建getRequest函数获取request字段

2.创建extractUriFromRequest函数

3.获取url

相关说明：

知识补充：

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

日志分析实战之清洗日志小实例5：实现获取不能访问url

思路：

1.创建getRequest函数获取request字段

2.创建extractUriFromRequest函数

3.获取url

相关说明：

知识补充：

热门文章

最新文章

相关课程

相关电子书