老程序员分享:python爬取电影网站信息并写入文件

简介: 老程序员分享:python爬取电影网站信息并写入文件

"

1 #

2 import //代码效果参考:https://v.youku.com/v_show/id_XNjQwMDE0OTIyOA==.html

requests

3 import re

4 from bs4 import BeautifulSoup

5 from urllib.parse import urlparse,parse_qs

6 import os

7

8

9 def get_url_content(url): //获取网站的源码

10 response=requests.get(url)

11 if response.status_code==200:

12 return response.text

13 else:

14 return False

15

16 def parse_Web_Content(content):

17 Object=BeautifulSoup(content,'html.parser')

18

19 filmName=get_film_name(Object)

20 filmCast=get_film_cast(Object)

21 filmIntro=get_film_introduction(Object)

22 filmUrl=get_film_url(Object)

23

24 film=【】

25 for i in range(len(filmName)):

26 indiv={

27 'fileName':filmName【i】,

28 'filmCast':filmCast【i】,

29 'filmIntro':filmIntro【i】,

30 'filmurl':''+filmUrl【i】

31 }

32 film.append(indiv)

3//代码效果参考:https://v.youku.com/v_show/id_XNjQwNjg1MjEyNA==.html

3 return film

34

35

36 def get_film_name(Soup):

37 Name=Soup.select("".play_info"")

38 name_list=【】

39 for i in range(len(Name)):

40 parsedName=Name【i】.a.string

41 name_list.append(parsedName)

42 return name_list

43

44 def get_film_cast(Soup):

45 Cast=Soup.find_all('p',attrs={'class':'space'})

46 film_Cast = 【】

47 for i in range(len(Cast)):

48 parsedCast=Cast【i】.text

49 film_Cast.append(parsedCast)

50 return film_Cast

51

52 def get_film_introduction(Soup):

53 Introduction=Soup.find_all('p',attrs={'class':'content'})

54 intro_list=【】

55 for i in range(len(Introduction)):

56 parsedIntro=Introduction【i】.text

57 intro_list.append(parsedIntro)

58 return intro_list

59

60 def get_film_url(Soup):

61

62 filmUrl=Soup.select("".play_info"")

63 Url_list=【】

64 for i in range(len(filmUrl)):

65 href=filmUrl【i】.a【'href'】

66 Url_list.append(href)

67 return Url_list

68

69 def writeTofile(parsedWebcontent):

70 with open('film.txt','a',encoding='utf-8') as f:

71 for i in range(len(parsedWebcontent)):

72 f.write(parsedWebcontent【i】【'fileName'】+'\t')

73 f.write(parsedWebcontent【i】【'filmCast'】 + '\t')

74 f.write(parsedWebcontent【i】【'filmIntro'】 + '\t')

75 f.write(parsedWebcontent【i】【'filmurl'】 + '\t')

76 f.write('\n')

77 f.close()

78

79

80 link=""""

81 for i in range(1,4):

82 url=link + str(i) + "".html""

83 webContent=get_url_content(url)

84

85 if webContent!=False:

86 Content=parse_Web_Content(webContent)

87 writeTofile(Content)


"
image.png
相关文章
|
2月前
|
JavaScript 前端开发 Android开发
【03】仿站技术之python技术,看完学会再也不用去购买收费工具了-修改整体页面做好安卓下载发给客户-并且开始提交网站公安备案-作为APP下载落地页文娱产品一定要备案-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
【03】仿站技术之python技术,看完学会再也不用去购买收费工具了-修改整体页面做好安卓下载发给客户-并且开始提交网站公安备案-作为APP下载落地页文娱产品一定要备案-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
99 13
【03】仿站技术之python技术,看完学会再也不用去购买收费工具了-修改整体页面做好安卓下载发给客户-并且开始提交网站公安备案-作为APP下载落地页文娱产品一定要备案-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
|
2月前
|
存储 算法 API
【01】整体试验思路,如何在有UID的情况下获得用户手机号信息,python开发之理论研究试验,如何通过抖音视频下方的用户的UID获得抖音用户的手机号-本系列文章仅供学习研究-禁止用于任何商业用途-仅供学习交流-优雅草卓伊凡
【01】整体试验思路,如何在有UID的情况下获得用户手机号信息,python开发之理论研究试验,如何通过抖音视频下方的用户的UID获得抖音用户的手机号-本系列文章仅供学习研究-禁止用于任何商业用途-仅供学习交流-优雅草卓伊凡
278 82
|
12天前
|
存储 监控 API
【Azure App Service】分享使用Python Code获取App Service的服务器日志记录管理配置信息
本文介绍了如何通过Python代码获取App Service中“Web服务器日志记录”的配置状态。借助`azure-mgmt-web` SDK,可通过初始化`WebSiteManagementClient`对象、调用`get_configuration`方法来查看`http_logging_enabled`的值,从而判断日志记录是否启用及存储方式(关闭、存储或文件系统)。示例代码详细展示了实现步骤,并附有执行结果与官方文档参考链接,帮助开发者快速定位和解决问题。
63 22
|
2天前
|
前端开发 关系型数据库 MySQL
基于python+django的外卖点餐网站-外卖点餐系统源码+运行
该系统是基于python+django开发的外卖点餐系统。适用场景:大学生、课程作业、毕业设计。学习过程中,如遇问题可以在github给作者留言。
21 1
|
27天前
|
数据采集 JavaScript Python
如何根据目标网站调整Python爬虫的延迟时间?
如何根据目标网站调整Python爬虫的延迟时间?
|
2月前
|
数据采集 数据安全/隐私保护 Python
从零开始:用Python爬取网站的汽车品牌和价格数据
在现代化办公室中,工程师小李和产品经理小张讨论如何获取懂车帝网站的汽车品牌和价格数据。小李提出使用Python编写爬虫,并通过亿牛云爬虫代理避免被封禁。代码实现包括设置代理、请求头、解析网页内容、多线程爬取等步骤,确保高效且稳定地抓取数据。小张表示理解并准备按照指导操作。
124 6
从零开始:用Python爬取网站的汽车品牌和价格数据
|
1月前
|
人工智能 自然语言处理 程序员
用通义灵码开发一个Python时钟:手把手体验AI程序员加持下的智能编码
通义灵码是基于通义大模型的AI研发辅助工具,提供代码智能生成、研发问答、多文件修改等功能,帮助开发者提高编码效率。本文通过手把手教程,使用通义灵码开发一个简单的Python时钟程序,展示其高效、智能的编码体验。从环境准备到代码优化,通义灵码显著降低了开发门槛,提升了开发效率,适合新手和资深开发者。最终,你将体验到AI加持下的便捷与强大功能。
|
6月前
|
Python
Python编程获取当前日期的所属周日期信息
Python编程获取当前日期的所属周日期信息
97 1
|
2月前
|
人工智能 自然语言处理 程序员
体验通义灵码的AI程序员:用Python+Tkinter实现表单向config.ini写入与读取
本文介绍了如何利用通义灵码的AI程序员快速开发一个基于Python和Tkinter的表单应用程序,实现对config.ini文件的读写。通过简单的自然语言描述,通义灵码能自动生成代码框架、自动补全功能代码,并提供错误检测与修复建议,极大提高了开发效率。开发者只需安装必要库(如configparser)并配置VSCode插件TONGYI Lingma,即可轻松创建包含多个输入项和按钮的表单界面。运行程序后,用户可以编辑表单并保存数据到config.ini文件中,再次启动时数据会自动加载显示。这一过程展示了AI在编程中的高效性和灵活性,为开发者提供了全新的开发方式。
162 3
|
4月前
|
JavaScript API C#
【Azure Developer】Python代码调用Graph API将外部用户添加到组,结果无效,也无错误信息
根据Graph API文档,在单个请求中将多个成员添加到组时,Python代码示例中的`members@odata.bind`被错误写为`members@odata_bind`,导致用户未成功添加。
70 10

热门文章

最新文章