截至2020年,Netflix上大约有3712部电影和1845部电视节目。如果你正在学习英语,有很多内容可以选择,但你可能没有时间看完所有的内容。这就是为什么需要数据科学技能来分析Netflix上最好的1500部电影和电视节目的文本。这样做的目的是为你提供许多不错的选择,以便您可以找到自己喜欢的电影或电视节目,这对学习英语也很有帮助,而不是强迫您观看不喜欢的电视节目。
为了找到Netflix上最好的电影和电视节目,我比较了对话中使用的词汇。在显示Netflix上面向英语学习者的最佳内容之前,让我们先比较一下最佳内容(如果英语不是您的母语,则可能是最差的内容)。
最好和最差的Netflix原创作品
下面的图片显示了Netflix在英语词汇难度方面排名前10和后10的原创电影。正如你所看到的,它们之间使用的词汇有很大的不同。例如,你只需要知道最常见的1000个英语单词,就可以理解电影《Bird Box》中94,5%的单词,但你至少需要3000个单词,就可以理解电影《Spelling The Dream》中94.5%的对话。这多余的2000个单词可能就是为什么你不明白对白在说什么——即使你的英语水平很高!
因此,让我们可以从看那些词汇量不大的电视节目和电影开始。让我们从Netflix上最简单最酷的内容开始吧!
Netflix上的最佳电视节目
当然,Netflix上的美剧和英剧都是为以英语为母语的人制作的。这就是为什么如果英语不是你的母语,你可能会在一些场景中理解对话有困难。幸运的是,我根据词汇的难易程度,在Netflix目录(223部Netflix原创作品)上对大约500部一流的电视节目进行了排名。
由于词汇简单,“老友记”《Friends 》被认为是学习英语的最佳电视节目之一。但是,该电视节目在Netflix目录中的排名仅为78,这意味着其他77部电视节目都和Friends一样好,甚至更好!例如,根据我的发现,电视连续剧《The End Of The F*ing World》(第13位)或《 13 Reasons Why》(第40位)等电视连续剧中的词汇更为简单。
通过在以下框中搜索词汇,您可以找到您喜欢的电视节目中词汇的难易程度。您会发现他们的排名和词汇范围。在整个Netflix目录中,前10名的电视节目词汇最简单。
如果您正在寻找适合您英语水平的完美电视节目,那么这对您来说是个好消息!我还对所有英语水平(初级,中级,高级)的接目进行了排名。最右边的节目在每个级别上使用更多的词汇。覆盖率越高,您越容易理解电视节目中的剧集。
这些是在Netflix目录中找到的顶级电视节目。Netflix无法播放您喜爱的某些电视节目,但是;我已经分析了其中的一些电视节目,例如《权力的游戏》或《辛普森一家》。此外,您所在国家/地区的Netflix目录可能会略有不同。因此,我只列出了最有可能在全球范围内出售的Netflix原创作品。
以下是学习英语的十大Netflix原创节目:
- Jinn
- Good Morning Call
- Tidelands
- Easy
- Black Summer
- Summertime
- Baby
- Top Boy
- Bloodline
- The End Of The F*ing World
Netflix目录上的最佳电影
如果您更喜欢电影,那么Netflix也有很棒的电影供您学习英语。我按词汇难度排列了Netflix上最受欢迎的950部电影(173部Netflix原创)。排名前100位的一些热门电影是《Bird Box》(30),《Spiderman Into The Spiderverse》(84)和《 The Pursuit Of Happyness》(81)。
您可以通过以下情节找到最适合您英语水平的电影。最右边的电影为初学者,中级和高级水平提供了更多的词汇。请记住,这些是在Netflix目录中找到的顶级电影。您不会在Netflix上找到《哈利·波特》,《阿凡达》或《玩具总动员》等电影。
我还列出了Netflix原创电影的清单,以防在你所在国家/地区的Netflix目录不同的情况下最有可能在全球范围内播放。
以下是学习英语的十大Netflix原创电影:
- In The Tall Grass (2019)
- A Secret Love (2020)
- Under The Riccione Sun (2020)
- Dangerous Lies (2020)
- Bird Box (2018)
- Who Would You Take To A Deserted Island (2019)
- Earthquake Bird (2019)
- Love Wedding Repeat (2020)
- Paddleton (2019)
- 6 Balloons (2018)
使用的数据
在此分析中,我使用了3个主要数据集,其中包括成文本,Netflix目录和Netflix Originals列表。我谷歌了一下,找到了大量的分析记录。使用用目录把录音文本和Netflix上的标题匹配起来。你可以在Kaggle(https://www.kaggle.com/shivamb/netflix-shows)上找到Netflix目录数据集。它包含2019年在Netflix上可以看到的电影,所以一些电影或电视节目今天可能无法在Netflix上看到。最后,我在这里找到了一份Netflix公司2020年前发布的原创剧集清单(IMDB),这对我的分析很有用。
分析的方法
我用Python做了所有这些分析,下面是我如何准备数据:
分词 Tokenization :为了分析文本中的词汇,我标记了所有由角色说的单词。在Python中有许多用于标记化的工具,但我使用了CountVectorizer,因为它将收集到的记录转换为标记计数的数据表,这简化了分析。
词形还原Lemmatization:分词后,我必须找到每个标记的基本形式。可以使用lemmatization之类的技术来实现这一点,在NLTK库中找到这些技术。但是我使用了词库列表,它们的作用类似,但也根据频率列出了每个词的难度。截至2020年,这里有29个单词的家庭列表,您可以在这里(https://www.wgtn.ac.nz/lals/resources/paul-nations-resources/vocabulary-lists)找到一些。这些列表是在与语言学和英语作为第二语言的学习有关的研究论文主题上进行评估的。
数据清理:我删除了在电影或剧集中听不到的单词,比如场景描述和说话者的名字。我还排除了对话中超过3.5%的单词与单词族列表不匹配的文本(它们可能是异常值或损坏的数据)。
完整的代码:https://github.com/ifrankandrade/netflix.git
一些分析和发现的问题
我用来在电视节目中对词汇进行分类的大多数词表都是由语料库制成的。词汇级别基于在语料库中发现单词的频率,这意味着这些文本中最常见的单词被标记为级别1。尽管以前的研究已经证明列表是可靠的,但对于这样的列表并不太准确具有多种含义的单词。例如,单词“ draw”在列表中被标记为1级。之所以会发生这种情况,是因为该词在指代“制作图片”时通常被使用,但如果含义是“拿出攻击某人的武器”或“得出结论”,则可能不是1级。
我花了数周的时间来寻找笔录,清理,处理数据,然后理解所获得的结果。但是,结果并不完美。电影中的发现可能比电视节目中的发现更准确。电影的文字记录是唯一的,但电视节目的播出情节不同,从而增加了每个电视节目的文字记录数量。这就是为什么我收集每个节目3到10集的样本以获取电视节目平均集所涵盖的词汇的原因。
总体而言,调查结果揭示了很多非常适合每个词汇水平的内容,但其中一些仍然让我感到惊讶。例如,我发现第62名的《行尸走肉》让我感到惊讶。我不是那个电视节目的忠实拥护者,但是我不认为带有僵尸的虚构节目在对话中使用简单的词汇。检查文字记录后,我确认《行尸走肉》中的词汇要求在整个情节中都有很多起伏。也就是说,某些情节可能比其他情节更难理解。