Python应用 | 我喜欢看什么美剧(一)

简介: Python应用 | 我喜欢看什么美剧(一)

《权利的游戏》、《天赋异禀》等耳熟能详的美剧,面对如此繁多的美剧,此时不禁会问自己,我喜欢看什么美剧呢?


这是一个非常难以回答的问题,原因在于不同的人会有不同的偏好。为了简化问题的求解,我们将尝试用Python语言进行数据分析来回答"我看什么美剧",先限定下主题就是我自己。


为了搞明白我看什么美剧,前提是要知道目前有哪些美剧,然后才能在这些美剧中根据条件筛选出我喜欢看的。所以第一件事要做的就是采集基本的数据。


Python实现数据采集需要用到的第三方库有requests和bs4,其中requests用来处理HTTP请求,bs4中的BeautifulSoup用来解析下载的HTML代码从中得到想要的数据。


1. 安装第三方库。

利用包管理软件pip来完成第三方库的安装。



pip install requests
pip install bs4


2. 利用requests库下载HTML代码。

requsts库是一种非常方便的处理HTTP请求的第三方库,只需要一行代码就可以实现HTML网页的下载。


html = requests.get('https://www.meiju.net/search.php?searchtype=5&tid=2', verify=False).content

代码执行的结果是:

打印的就是返回的HTML代码。


3. 利用BeautifulSoup解析HTML。

有了网页的HTML代码接下来就需要从这些代码中提取需要的、有价值的信息,这个工具就是BeautifulSoup来完成。我们将从代码中提取到美剧名称、URL地址以及评分数据。

soup = BeautifulSoup(html, 'html.parser') 
for item in soup.select('div.hy-video-list li > a'):  
    row = edict() 
    row.video_name = item['title']  
    row.video_url = item['href']  
    row.video_type =  i 
    score_tag = item.select_one('span.score') 
    if score_tag is not None: 
        row.video_score = score_tag.text  
    print(row)


执行结果为:


4. 批处理所有列表。

前面处理的是一页的列表,接下来利用循环处理所有的列表数据。

for i in tqdm(range(1, 112)): 
    url = 'https://www.meiju.net/search.php?page={}&searchtype=5&tid=2'.format(i) 
    soup = BeautifulSoup(requests.get(url, verify=False).content, 'html.parser')  
    for item in soup.select('div.hy-video-list li > a'):  
        row = edict() 
        row.video_name = item['title']  
        row.video_url = item['href']  
        score_tag = item.select_one('span.score') 
        if score_tag is not None: 
            row.video_score = score_tag.text  
        print(row)

至此便完成了网站所有美剧数据的采集,总共有美剧数量3972部。

结语

为了搞清楚"我喜欢看什么美剧"这一重大问题,提出了一种利用Python编程语言进行数据分析的方法,本文主要完成了数据分析的第一步数据采集的过程,采集了某网站所有的美剧基本信息,上面的代码可以看到目前这些数据都只是通过简单的print(row)的方式进行打印,并未进行任何数据保存,那么应该如何存储这些数据呢?

预知后事如何,欢迎持续关注。

目录
相关文章
|
3天前
|
Java API 开发工具
如何将python应用编译到android运行
【6月更文挑战第27天】本文介绍在Ubuntu 20上搭建Android开发环境,包括安装JRE/JDK,设置环境变量,添加i386架构,安装依赖和编译工具。并通过`p4a`命令行工具进行apk构建和清理。
20 6
如何将python应用编译到android运行
|
9天前
|
数据采集 数据可视化 大数据
Python在大数据处理中的应用实践
Python在大数据处理中扮演重要角色,借助`requests`和`BeautifulSoup`抓取数据,`pandas`进行清洗预处理,面对大规模数据时,`Dask`提供分布式处理能力,而`matplotlib`和`seaborn`则助力数据可视化。通过这些工具,数据工程师和科学家能高效地管理、分析和展示海量数据。
39 4
|
11天前
|
测试技术 API 数据库
Python反射机制在实际场景中的应用
Python 的反射机制是指在运行时动态地访问、检测和修改类和对象的属性和方法。:通过反射机制,可以动态加载和执行插件,无需在代码中硬编码每个插件的具体实现。这样可以实现插件化架构,使系统更加灵活和可扩展。:可以使用反射机制来读取和解析配置文件中的配置项,并动态地应用到程序中。这样可以实现灵活的配置管理,方便根据需要进行配置项的修改和扩展。:在自动化测试框架中,可以利用反射机制动态地加载和执行测试用例,从而实现自动化测试的灵活性和扩展性。
22 2
|
14天前
|
数据采集 存储 大数据
深入理解Python中的生成器及其应用
本文详细介绍了Python中的生成器概念,包括其定义、工作原理、常见用法以及在实际项目中的应用。通过具体示例和代码分析,帮助读者更好地理解和运用生成器,提高编程效率。
|
15天前
|
数据库 Python
Python实践:从零开始构建你的第一个Web应用
使用Python和轻量级Web框架Flask,你可以轻松创建Web应用。先确保安装了Python,然后通过`pip install Flask`安装Flask。在`app.py`中编写基本的"Hello, World!"应用,定义路由`@app.route('/')`并运行`python app.py`启动服务器。扩展应用,可添加新路由显示当前时间,展示Flask处理动态内容的能力。开始你的Web开发之旅吧!【6月更文挑战第13天】
41 2
|
12天前
|
关系型数据库 MySQL 数据库
如何使用Python的Flask框架来构建一个简单的Web应用
如何使用Python的Flask框架来构建一个简单的Web应用
24 0
|
1天前
|
测试技术 Go Python
在python中测试应用
【6月更文挑战第29天】本文介绍Python的unittest是内置的单元测试框架,适合线性控制流的代码测试。并举实例说明,如何组织测试代码,如何构造脚手架和测试套件。
17 6
在python中测试应用
|
4天前
|
开发者 Python
Python进阶:深入剖析闭包与装饰器的应用与技巧
Python进阶:深入剖析闭包与装饰器的应用与技巧
|
8天前
|
开发者 Python
探索 Python 中的协程:从基本概念到实际应用
在现代编程中,异步处理变得越来越重要,Python 通过其内置的协程提供了强大的工具来简化这一过程。本文将深入探讨 Python 中的协程,从基本概念出发,逐步展示其实际应用,并通过具体代码示例帮助你掌握这种技术。
|
7天前
|
算法 大数据 数据处理
深入理解Python中的生成器及其应用
生成器是Python中一种强大的工具,能够简化代码、节省内存并提高程序的效率。本文将详细介绍生成器的概念、语法以及在实际项目中的应用场景,帮助开发者更好地利用这一特性。