手把手 | 教你爬下100部电影数据:R语言网页爬取入门指南

简介: 前言 网页上的数据和信息正在呈指数级增长。如今我们都使用谷歌作为知识的首要来源——无论是寻找对某地的评论还是了解新的术语。所有这些信息都已经可以从网上轻而易举地获得。 网络中可用数据的增多为数据科学家开辟了可能性的新天地。


前言

网页上的数据和信息正在呈指数级增长。如今我们都使用谷歌作为知识的首要来源——无论是寻找对某地的评论还是了解新的术语。所有这些信息都已经可以从网上轻而易举地获得。

网络中可用数据的增多为数据科学家开辟了可能性的新天地。我非常相信网页爬取是任何一个数据科学家的必备技能。在如今的世界里,我们所需的数据都在互联网上,使用它们唯一受限的是我们对数据的获取能力。有了本文的帮助,您定会克服这个困难。

网上大多数的可用数据并不容易获取。它们以非结构化的形式(HTML格式)表示,并且不能下载。因此,这便需要知识和专业技能来使用它们。

我在本文中准备带您走一遍用R来实现网页爬取的过程。让您学会如何使用互联网上任何类型的可用数据。


先决条件

用R来进行网页爬取的先决条件分为两个

要进行网页爬取,您必须具备R语言的操作知识。如果您正处于初识阶段或者想刷新基础知识,我强烈建议您按这个学习路径(https://www.analyticsvidhya.com/learning-paths-data-science-business-analytics-business-intelligence-big-data/learning-path-r-data-science/)学习R语言。在本文中,我们将使用R语言中由Hadley Wickham撰写的“rvest”包。您可以从下面的链接(https://cran.r-project.org/web/packages/rvest/rvest.pdf)获得rvest包的文档。请确保您安装了这个包。如果您现在还没有这个包,请按下面的代码来安装。

install.packages('rvest')

此外,如果有关于HTML和CSS的知识就更好了。我能找到的关于学习HTML和CSS的最好资源在这里(http://flukeout.github.io)。根据观察而言大多数数据科学家对于HTML和CSS不是那么精通。因此,我们会利用一个名为“Selector Gadget”的开源软件,对所有人来讲,用它来执行网页爬取是足够的。您可以从这里(http://selectorgadget.com)访问和下载Selector Gadge的扩展程序。请确保跟随该网站上的指示来安装这个扩展程序。我已经完成了这一步,现在正在使用谷歌chrome,并且可以通过chrome右上角的扩展栏上的这个图标使用它。

有了它,只需要轻轻的点击,您便可以选择网站的任何部分并获得相关标签。请注意:这是一个实际学习HTML和CSS并手动操作的方法。但是,要掌握网页爬取,我强烈建议您学习HTML和CSS以更好地理解和体味在搜索引擎背后发生的故事。


使用R语言实现网页爬取

现在,让我们开始爬取IMDb网站中2016年上映的100部最受欢迎的电影。您可以点击这里http://www.imdb.com/search/title?count=100&release;_date=2016,2016&title;_type=feature访问网站。

#加载rvest包

library('rvest')

#定义需要爬取网站的url

url <- 'http://www.imdb.com/search/title?count=100&release;_date=2016,2016&title;_type=feature'

#从网站中读取HTML代码

webpage <- read_html(url)

现在,我们将从这个网站上爬取以下数据。

Rank:电影排名(1-100),包括2016年上映的100个最受欢迎的电影。

Title:电影标题。

Description:电影描述。

Runtime:电影时长。

Genre:电影类型。

Rating:电影的IMDb评分(用户打分)。

Metascore:电影在IMDb网站上的metascore评分(评论家打分)。

Votes:电影赞成票数。

Gross_Earning_in_Mil:电影总收入,以百万为单位。

Director:电影的主要导演。注意,如果有多个导演,我只选取第一个。

Actor:电影的主要演员。注意,如果有多个演员,我只选取第一个。

这是一个包含如何排列所有这些字段的截图。

步骤1:现在,我们先来爬取Rank字段。为此,我们将使用Selector Gadget来获取包含排名的特定CSS选择器。您可以在浏览器中点击这个扩展程序,并用光标选择排名字段。

请确保所有的排名都被选中。您可以选择更多的排名部分,以防您无法获取所有这些排名,也可以通过单击所选部分以取消选择,用以确保只突出了您想要爬取的内容。

步骤2:当您确定已正确选择后,您需要复制相应的CSS选择器,这可以在底部中心查看。

步骤3:当您知道CSS选择器已包含了排名顺序之后,您可以使用这个简单的R语言代码来获取所有的排名:

#使用CSS选择器来爬取排名部分

rank_data_html <- html_nodes(webpage,'.text-primary')

#将排名数据转化为文本

rank_data <- html_text(rank_data_html)

#让我们来看看排名

head(rank_data)

[1] "1." "2." "3." "4." "5." "6."


步骤4:当您有了数据后,请确保它看起来是您所需的格式。我在对数据进行预处理,将其转换为数字格式。

#数据预处理:将排名转换为数字格式

rank_data<-as.numeric(rank_data)

#我们再来看看排名

head(rank_data)

[1] 1 2 3 4 5 6


步骤5现在您可以清除选择器部分并选择所有标题。您可以直观地检查所有标题是否被选中。使用您的光标进行任何所需的添加和删除。我在这里做了同样的事情。

步骤6:再一次,我有了相应标题的CSS选择器-- .lister-item-essay-header a。我将使用该选择器和以下代码爬取所有标题。

#使用CSS选择器来爬取标题部分

title_data_html <- html_nodes(webpage,'.lister-item-essay-header a')

#将标题数据转化为文本

title_data <- html_text(title_data_html)

#让我们来看看标题

head(title_data)

[1] "Sing"          "Moana"         "Moonlight"     "Hacksaw Ridge"

[5] "Passengers"    "Trolls"


步骤7:在下面的代码中,我对Description、Runtime、Genre、Rating、Metascore、Votes、Gross_Earning_in_Mil、Director和Actor数据做了同样的操作。

#使用CSS选择器来爬取描述部分

description_data_html <- html_nodes(webpage,'.ratings-bar+ .text-muted')

#将描述数据转化为文本

description_data <- html_text(description_data_html)

#让我们来看看描述数据

head(description_data)

[1] "\nIn a city of humanoid animals, a hustling theater impresario's attempt to save his theater with a singing competition becomes grander than he anticipates even as its finalists' find that their lives will never be the same."

[2] "\nIn Ancient Polynesia, when a terrible curse incurred by the Demigod Maui reaches an impetuous Chieftain's daughter's island, she answers the Ocean's call to seek out the Demigod to set things right."

[3] "\nA chronicle of the childhood, adolescence and burgeoning adulthood of a young, African-American, gay man growing up in a rough neighborhood of Miami."

[4] "\nWWII American Army Medic Desmond T. Doss, who served during the Battle of Okinawa, refuses to kill people, and becomes the first man in American history to receive the Medal of Honor without firing a shot."

[5] "\nA spacecraft traveling to a distant colony planet and transporting thousands of people has a malfunction in its sleep chambers. As a result, two passengers are awakened 90 years early."

[6] "\nAfter the Bergens invade Troll Village, Poppy, the happiest Troll ever born, and the curmudgeonly Branch set off on a journey to rescue her friends.

#Data-Preprocessing: removing '\n'

#数据预处理:去掉'\n'

description_data<-gsub("\n","",description_data)

#Let's have another look at the description data

#我们再来看看描述数据

head(description_data)

[1] "In a city of humanoid animals, a hustling theater impresario's attempt to save his theater with a singing competition becomes grander than he anticipates even as its finalists' find that their lives will never be the same."

[2] "In Ancient Polynesia, when a terrible curse incurred by the Demigod Maui reaches an impetuous Chieftain's daughter's island, she answers the Ocean's call to seek out the Demigod to set things right."

[3] "A chronicle of the childhood, adolescence and burgeoning adulthood of a young, African-American, gay man growing up in a rough neighborhood of Miami."

[4] "WWII American Army Medic Desmond T. Doss, who served during the Battle of Okinawa, refuses to kill people, and becomes the first man in American history to receive the Medal of Honor without firing a shot."

[5] "A spacecraft traveling to a distant colony planet and transporting thousands of people has a malfunction in its sleep chambers. As a result, two passengers are awakened 90 years early."

[6] "After the Bergens invade Troll Village, Poppy, the happiest Troll ever born, and the curmudgeonly Branch set off on a journey to rescue her friends."

#使用CSS选择器来爬取电影时长部分

runtime_data_html <- html_nodes(webpage,'.text-muted .runtime')

#将时长数据转化为文本

runtime_data <- html_text(runtime_data_html)

#让我们来看看时长

head(runtime_data)

[1] "108 min" "107 min" "111 min" "139 min" "116 min" "92 min"

#数据预处理:去掉'mins',并转换为数字格式

runtime_data<-gsub(" min","",runtime_data)

runtime_data<-as.numeric(runtime_data)

#我们再来看看时长数据

head(rank_data)

[1] 1 2 3 4 5 6

#使用CSS选择器来爬取电影类型部分

genre_data_html <- html_nodes(webpage,'.genre')

#将类型数据转化为文本

genre_data <- html_text(genre_data_html)

#让我们来看看类型

head(genre_data)

[1] "\nAnimation, Comedy, Family "

[2] "\nAnimation, Adventure, Comedy "

[3] "\nDrama "

[4] "\nBiography, Drama, History "

[5] "\nAdventure, Drama, Romance "

[6] "\nAnimation, Adventure, Comedy "

#数据预处理:去掉'\n'

genre_data<-gsub("\n","",genre_data)

#数据预处理:去掉多余的空格

genre_data<-gsub(" ","",genre_data)

#只选取每一部电影的第一种类型

genre_data<-gsub(",.*","",genre_data)

#将每种类型从文本转换为因子

genre_data<-as.factor(genre_data)

#我们再来看看类型数据

head(genre_data)

[1] Animation Animation Drama     Biography Adventure Animation

10 Levels: Action Adventure Animation Biography Comedy Crime Drama ... Thriller

#使用CSS选择器来爬取IMDB评分部分

rating_data_html <- html_nodes(webpage,'.ratings-imdb-rating strong')

#将评分数据转化为文本

rating_data <- html_text(rating_data_html)

#让我们来看看评分

head(rating_data)

[1] "7.2" "7.7" "7.6" "8.2" "7.0" "6.5"

#数据预处理:将评分转换为数字格式

rating_data<-as.numeric(rating_data)

#我们再来看看评分数据

head(rating_data)

[1] 7.2 7.7 7.6 8.2 7.0 6.5

#使用CSS选择器来爬取赞成票部分

votes_data_html <- html_nodes(webpage,'.sort-num_votes-visible span:nth-child(2)')

#将赞成票数据转化为文本

votes_data <- html_text(votes_data_html)

#让我们来看看赞成票数据

head(votes_data)

[1] "40,603"  "91,333"  "112,609" "177,229" "148,467" "32,497"

#数据预处理:去掉逗号

votes_data<-gsub(",","",votes_data)

#数据预处理:将赞成票数据转换为数字格式

votes_data<-as.numeric(votes_data)

#我们再来看看赞成票数据

head(votes_data)

[1]  40603  91333 112609 177229 148467  32497

#使用CSS选择器来爬取导演部分

directors_data_html <- html_nodes(webpage,'.text-muted+ p a:nth-child(1)')

#将导演数据转化为文本

directors_data <- html_text(directors_data_html)

#让我们来看看导演数据

head(directors_data)

[1] "Christophe Lourdelet" "Ron Clements"         "Barry Jenkins"

[4] "Mel Gibson"           "Morten Tyldum"        "Walt Dohrn"

#数据预处理:将导演数据转换为因子

directors_data<-as.factor(directors_data)

#使用CSS选择器来爬取演员部分

actors_data_html <- html_nodes(webpage,'.lister-item-content .ghost+ a')

#将演员数据转化为文本

actors_data <- html_text(actors_data_html)

#让我们来看看演员数据

head(actors_data)

[1] "Matthew McConaughey" "Auli'i Cravalho"     "Mahershala Ali"

[4] "Andrew Garfield"     "Jennifer Lawrence"   "Anna Kendrick"

#数据预处理:将演员数据转换为因子

actors_data<-as.factor(actors_data)

但是,我想让您紧跟我看看当我对Metascore评分数据做同样的事情时会发生什么。

#使用CSS选择器来爬取metascore评分部分

metascore_data_html <- html_nodes(webpage,'.metascore')

#将metascore数据转化为文本

metascore_data <- html_text(metascore_data_html)

#让我们来看看metascore

data head(metascore_data)

[1] "59        " "81        " "99        " "71        " "41        "

[6] "56        "

#数据预处理:去掉metascore中多余的空格

metascore_data<-gsub(" ","",metascore_data)

#让我们检查一下metascore数据的长度

length(metascore_data)

[1] 96

步骤8:我们正在爬取100部电影的数据,而metascore评分数据的长度是96。原因是因为有4部电影没有相应的Metascore字段。

步骤9:它是在爬取任何网站时都会发生的实际情况。不幸的是,如果我们简单地添加NA到最后4个条目,它将Metascrore数据中的NA映射到第96到100个电影,而实际上,数据丢失的是其他的一些电影。经过直观地检查,我发现缺失的是电影39、73、80和89的Metascore数据。我写了以下函数来解决这个问题。

for (i in c(39,73,80,89)){

a<-metascore_data[1:(i-1)]

b<-metascore_data[i:length(metascore_data)]

metascore_data<-append(a,list("NA"))

metascore_data<-append(metascore_data,b)

}

#数据预处理:将metascore转换为数字格式

metascore_data<-as.numeric(metascore_data)

#Let's have another look at length of the metascore data

#我们再来看看metascore数据长度

length(metascore_data)

[1] 100

#让我们来看看summary statistics

summary(metascore_data)

Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's

23.00   47.00   60.00   60.22   74.00   99.00       4


步骤10:同样的事情发生在Gross变量,这个数字代表这部电影的总收入。我使用相同的解决方案来解决这个问题:

#使用CSS选择器来爬取总收入部分

gross_data_html <- html_nodes(webpage,'.ghost~ .text-muted+ span')

#将总收入数据转化为文本

gross_data <- html_text(gross_data_html)

#让我们来看看总收入

head(gross_data)

[1] "$269.36M" "$248.04M" "$27.50M"  "$67.12M"  "$99.47M"  "$153.67M"

#数据预处理:去掉符号'$'和'M'

gross_data<-gsub("M","",gross_data)

gross_data<-substring(gross_data,2,6)

#我们再来看看总收入数据长度

length(gross_data)

[1] 86

 #用NA填补缺失条目

for (i in c(17,39,49,52,57,64,66,73,76,77,80,87,88,89)){

a<-gross_data[1:(i-1)]

b<-gross_data[i:length(gross_data)]

gross_data<-append(a,list("NA"))

gross_data<-append(gross_data,b)

}

#数据预处理:将总收入转换为数字格式

gross_data<-as.numeric(gross_data) 

#我们再来看看总收入数据长度

length(gross_data)

[1] 100

summary(gross_data)

Min. 1st Qu.  Median    Mean 3rd Qu.    Max.    NA's

0.08   15.52   54.69   96.91  119.50  530.70      14


步骤11:现在我们已经成功地爬取了2016年上映的100部最受欢迎的电影的所有11个特征。让我们合并它们到一个数据框并检查它的结构。

#合并所有列表构造一个数据框

movies_df<-data.frame(Rank = rank_data, Title = title_data,

Description = description_data, Runtime = runtime_data,

Genre = genre_data, Rating = rating_data,

Metascore = metascore_data, Votes = votes_data,                                                             Gross_Earning_in_Mil = gross_data,

Director = directors_data, Actor = actors_data)

#数据框的结构

str(movies_df)

'data.frame':            100 obs. of  11 variables:

$ Rank                : num  1 2 3 4 5 6 7 8 9 10 ...

$ Title               : Factor w/ 99 levels "10 Cloverfield Lane",..: 66 53 54 32 58 93 8 43 97 7 ...

$ Description         : Factor w/ 100 levels "19-year-old Billy Lynn is brought home for a victory tour after a harrowing Iraq battle. Through flashbacks the film shows what"| __truncated__,..: 57 59 3 100 21 33 90 14 13 97 ...

$ Runtime             : num  108 107 111 139 116 92 115 128 111 116 ...

$ Genre               : Factor w/ 10 levels "Action","Adventure",..: 3 3 7 4 2 3 1 5 5 7 ...

$ Rating              : num  7.2 7.7 7.6 8.2 7 6.5 6.1 8.4 6.3 8 ...

$ Metascore           : num  59 81 99 71 41 56 36 93 39 81 ...

$ Votes               : num  40603 91333 112609 177229 148467 ...

$ Gross_Earning_in_Mil: num  269.3 248 27.5 67.1 99.5 ...

$ Director            : Factor w/ 98 levels "Andrew Stanton",..: 17 80 9 64 67 95 56 19 49 28 ...

$ Actor               : Factor w/ 86 levels "Aaron Eckhart",..: 59 7 56 5 42 6 64 71 86 3 ...

您现在已经成功地在IMDb网站上爬取了2016年上映的最受欢迎的100部电影数据。 


分析从网页上爬取到的数据

一旦您有了数据,就可以进行不少操作,如分析数据、从数据中进行推算、在获得的数据上训练机器学习模型等等。我已经利用我们刚爬取到的数据做了一些有趣的数据可视化。跟着这些数据可视化并回答下面的问题。请在评论区留下您的答案,谢谢。

 

问1:基于上面的数据,哪种类型的电影时长最长? 

 

问2:基于上面的数据,时长在130到160分钟的电影中,哪种类型的电影最受青睐? 

问3:基于上面的数据,所有时长在100到120分钟的电影中,哪种类型的电影收入最高? 


结语:

我相信本文将帮助您理解如何利用R语言进行网页爬取。现在,你也许对遇到的问题和解决方案有了一些主意。由于大多数网页上的数据是以非结构化的形式表示的,对任何一个数据科学家来说,网页爬取都是一个极其方便带劲的技能。

原文发布时间为:2017-04-25

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
4月前
|
数据采集 机器学习/深度学习 数据可视化
R语言从数据到决策:R语言在商业分析中的实践
【9月更文挑战第1天】R语言在商业分析中的应用广泛而深入,从数据收集、预处理、分析到预测模型构建和决策支持,R语言都提供了强大的工具和功能。通过学习和掌握R语言在商业分析中的实践应用,我们可以更好地利用数据驱动企业决策,提升企业的竞争力和盈利能力。未来,随着大数据和人工智能技术的不断发展,R语言在商业分析领域的应用将更加广泛和深入,为企业带来更多的机遇和挑战。
|
5月前
|
存储 数据采集 数据处理
R语言数据变换:使用tidyr包进行高效数据整形的探索
【8月更文挑战第29天】`tidyr`包为R语言的数据整形提供了强大的工具。通过`pivot_longer()`、`pivot_wider()`、`separate()`和`unite()`等函数,我们可以轻松地将数据从一种格式转换为另一种格式,以满足不同的分析需求。掌握这些函数的使用,将大大提高我们处理和分析数据的效率。
|
4月前
R语言基于表格文件的数据绘制具有多个系列的柱状图与直方图
【9月更文挑战第9天】在R语言中,利用`ggplot2`包可绘制多系列柱状图与直方图。首先读取数据文件`data.csv`,加载`ggplot2`包后,使用`ggplot`函数指定轴与填充颜色,并通过`geom_bar`或`geom_histogram`绘图。参数如`stat`, `position`, `alpha`等可根据需要调整,实现不同系列的图表展示。
|
4月前
|
数据采集 数据可视化 数据挖掘
R语言在金融数据分析中的深度应用:探索数据背后的市场智慧
【9月更文挑战第1天】R语言在金融数据分析中展现出了强大的功能和广泛的应用前景。通过丰富的数据处理函数、强大的统计分析功能和优秀的可视化效果,R语言能够帮助金融机构深入挖掘数据价值,洞察市场动态。未来,随着金融数据的不断积累和技术的不断进步,R语言在金融数据分析中的应用将更加广泛和深入。
|
5月前
|
数据采集 机器学习/深度学习 数据挖掘
R语言数据清洗:高效处理缺失值与重复数据的策略
【8月更文挑战第29天】处理缺失值和重复数据是数据清洗中的基础而重要的步骤。在R语言中,我们拥有多种工具和方法来有效地应对这些问题。通过识别、删除或插补缺失值,以及删除重复数据,我们可以提高数据集的质量和可靠性,为后续的数据分析和建模工作打下坚实的基础。 需要注意的是,处理缺失值和重复数据时,我们应根据实际情况和数据特性选择合适的方法,并在处理过程中保持谨慎,以避免引入新的偏差或错误。
|
5月前
|
数据处理
R语言数据合并:掌握`merge`与`dplyr`中`join`的巧妙技巧
【8月更文挑战第29天】如果你已经在使用`dplyr`进行数据处理,那么推荐使用`dplyr::join`进行数据合并,因为它与`dplyr`的其他函数(如`filter()`、`select()`、`mutate()`等)无缝集成,能够提供更加流畅和一致的数据处理体验。如果你的代码中尚未使用`dplyr`,但想要尝试,那么`dplyr::join`将是一个很好的起点。
|
5月前
|
数据采集 存储 数据可视化
R语言时间序列分析:处理与建模时间序列数据的深度探索
【8月更文挑战第31天】R语言作为一款功能强大的数据分析工具,为处理时间序列数据提供了丰富的函数和包。从数据读取、预处理、建模到可视化,R语言都提供了灵活且强大的解决方案。然而,时间序列数据的处理和分析是一个复杂的过程,需要结合具体的应用场景和需求来选择合适的方法和模型。希望本文能为读者在R语言中进行时间序列分析提供一些有益的参考和启示。
|
5月前
|
并行计算 IDE 数据挖掘
R语言入门:如何安装与配置环境
【8月更文挑战第27天】通过本文的指南,你应该能够顺利安装并配置R语言环境,以便进行数据分析和编程任务。R语言以其强大的功能和灵活的扩展性,成为数据分析领域的重要工具。希望本文能够帮助你入门R语言,并激发你进一步学习和探索的兴趣。随着经验的积累,你将能够充分利用R语言的优势,提高工作效率和数据处理能力。
|
5月前
|
SQL 数据挖掘 数据处理
R语言数据操作:使用dplyr进行数据处理的深度探索
【8月更文挑战第27天】`dplyr`包以其简洁、强大的数据处理能力,在R语言的数据分析领域占据了重要地位。通过`select()`、`filter()`、`arrange()`、`mutate()`和`summarise()`等核心函数,结合管道操作符`%>%`,我们可以轻松地完成数据筛选、排序、变换和汇总等操作。掌握`dplyr`的使用,将极大地提高我们在R语言中进行
|
5月前
|
数据采集 机器学习/深度学习 数据可视化
使用R语言进行统计分析:入门与实践
【8月更文挑战第10天】通过本文,我们介绍了使用R语言进行统计分析的基本流程,包括数据加载、数据清洗、描述性统计、假设检验以及数据可视化等关键步骤。R语言以其强大的功能和丰富的包资源,为数据分析师和科学家提供了强大的工具。随着你对R语言的