备案控制台

开发者社区大数据文章正文

Spark 分析网站排名热度

2017-11-09 990

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

需求:

/ 解决是一个各个子模块内的热度排名--》排名得用sortBy ---》（可能就是简单的排序，或者是二次排序） ---》

// 前面有一个wordCount---》算出次数出来 --》考虑什么作为key

//算的一个网站下面，每个子模块下面的网页热度前2名：

// 算的一个网站下面，每个子模块下面的网页热度前2名 --》每个子模块下面的网页的次数的前2名

// 在实际开发中，真正代码时间可能只占20-30% ，其他时间都在理解需求，想思路

import java.net.URL
import org.apache.spark.{SparkConf, SparkContext}

object Data_anlysis {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("data-anysis").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val linesRDD = sc.textFile("d://web_data.log")
    val rdd01 =linesRDD.map(line => {
      val lineSplited = line.split("\t")
      (lineSplited(1),1)
    })
    val rdd02 = rdd01.reduceByKey(_+_)
    val rdd03 = rdd02.map(tup => {
      val url = tup._1;
      val host = new URL(url).getHost
      (host,url,tup._2)
    })
    val rdd04 = rdd03.groupBy(_._1)
    val rdd05 = rdd04.mapValues(iter => {
      iter.toList.sortBy(_._3).reverse.take(2)
    })
    println(rdd05.collect().toBuffer)
    sc.stop()
  }
}

运行结果会把网站的日志数据按照某一模块的要求列出排名前2个结果展示出来。

本文转自 ChinaUnicom110 51CTO博客，原文链接:http://blog.51cto.com/xingyue2011/1950745

文章标签：

分布式计算

Spark

关键词：

apache spark分析

技术小牛人

目录

相关文章

敏叔V587

|

8天前

|

移动开发分布式计算 Spark

Spark的几种去重的原理分析

Spark的几种去重的原理分析

敏叔V587

16 0 0

疯狂的猿

|

22天前

|

机器学习/深度学习 SQL 分布式计算

Apache Spark 的基本概念和在大数据分析中的应用

介绍 Apache Spark 的基本概念和在大数据分析中的应用

疯狂的猿

206 0 0

程序猿～厾罗

|

22天前

|

机器学习/深度学习 SQL 分布式计算

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

程序猿～厾罗

111 0 0

诸葛子房

|

22天前

|

SQL 分布式计算 HIVE

Spark数据倾斜问题分析和解决

Spark数据倾斜问题分析和解决

诸葛子房

51 0 0

月亮给我抄代码

|

11天前

|

SQL 分布式计算关系型数据库

Spark 分析计算连续三周登录的用户数

本文介绍了如何使用窗口函数`range between`来查询`login_time`为2022-03-10的用户最近连续三周的登录数。首先在MySQL中创建`log_data`表并插入数据，接着定义需求为找出该日期前连续三周活跃的用户数。通过Spark SQL，分步骤实现：1)确定统计周期，2)筛选符合条件的数据，3)计算用户连续登录状态。在初始实现中出现错误，因未考虑日期在周中的位置，修正后正确计算出活跃用户数。

月亮给我抄代码

34 6 6

WIFI码密

|

22天前

|

分布式计算 Java 关系型数据库

spark用于分析数据并将数据保存到数据库中是

5月更文挑战第8天

WIFI码密

26 1 1

拓端数据部落

|

22天前

|

SQL 分布式计算数据可视化

数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析

数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析

拓端数据部落

44 4 4

vohelon

|

22天前

|

机器学习/深度学习分布式计算数据处理

Spark是一个基于内存的通用数据处理引擎，可以进行大规模数据处理和分析

【5月更文挑战第2天】Spark是一个基于内存的通用数据处理引擎，可以进行大规模数据处理和分析

vohelon

31 3 3

赵广陆

|

9月前

|

消息中间件分布式计算大数据

大数据Spark实时搜索日志实时分析

大数据Spark实时搜索日志实时分析

赵广陆

141 1 1

拓端数据部落

|

22天前

|

新零售分布式计算数据可视化

数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

拓端数据部落

98 0 0

热门文章

最新文章

图解大数据 | 使用Spark分析新冠肺炎疫情数据@综合案例

基于OpenCV的双目摄像头测距（误差小）

Linux块层技术全面剖析-v0.1

Python零基础学习笔记（二）——数据的存储

Java9模块化遇坑

封装之打线简介

7月24日晚Spark社区直播：【Apache Spark 基于 Apache Arrow 的列式存储优化】

Spark 源码分析 -- BlockStore

Spark RDD类源码阅读

MapReduce Shuffle原理与 Spark Shuffle原理

Spark学习---SparkSQL（概述、编程、数据的加载和保存、自定义UDFA、项目实战）

Spark学习---day07、Spark内核（Shuffle、任务执行）

Spark读取变更Hudi数据集Schema实现分析

实战|使用Spark Streaming写入Hudi

adb spark的lakehouse api访问内表数据，还支持算子下推吗

Spark学习---day06、Spark内核（源码提交流程、任务执行）

Spark学习--day05、SparkCore电商网站实操、SparkCore-工程代码

Spark【Spark学习大纲】简介+生态+RDD+安装+使用（xmind分享）

Spark【基础知识 03】【RDD常用算子详解】（图片来源于网络）

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考