老程序员分享:python爬取电影网站信息并写入文件

简介: 老程序员分享:python爬取电影网站信息并写入文件

"

1 #

2 import //代码效果参考:https://v.youku.com/v_show/id_XNjQwMDE0OTIyOA==.html

requests

3 import re

4 from bs4 import BeautifulSoup

5 from urllib.parse import urlparse,parse_qs

6 import os

7

8

9 def get_url_content(url): //获取网站的源码

10 response=requests.get(url)

11 if response.status_code==200:

12 return response.text

13 else:

14 return False

15

16 def parse_Web_Content(content):

17 Object=BeautifulSoup(content,'html.parser')

18

19 filmName=get_film_name(Object)

20 filmCast=get_film_cast(Object)

21 filmIntro=get_film_introduction(Object)

22 filmUrl=get_film_url(Object)

23

24 film=【】

25 for i in range(len(filmName)):

26 indiv={

27 'fileName':filmName【i】,

28 'filmCast':filmCast【i】,

29 'filmIntro':filmIntro【i】,

30 'filmurl':''+filmUrl【i】

31 }

32 film.append(indiv)

3//代码效果参考:https://v.youku.com/v_show/id_XNjQwNjg1MjEyNA==.html

3 return film

34

35

36 def get_film_name(Soup):

37 Name=Soup.select("".play_info"")

38 name_list=【】

39 for i in range(len(Name)):

40 parsedName=Name【i】.a.string

41 name_list.append(parsedName)

42 return name_list

43

44 def get_film_cast(Soup):

45 Cast=Soup.find_all('p',attrs={'class':'space'})

46 film_Cast = 【】

47 for i in range(len(Cast)):

48 parsedCast=Cast【i】.text

49 film_Cast.append(parsedCast)

50 return film_Cast

51

52 def get_film_introduction(Soup):

53 Introduction=Soup.find_all('p',attrs={'class':'content'})

54 intro_list=【】

55 for i in range(len(Introduction)):

56 parsedIntro=Introduction【i】.text

57 intro_list.append(parsedIntro)

58 return intro_list

59

60 def get_film_url(Soup):

61

62 filmUrl=Soup.select("".play_info"")

63 Url_list=【】

64 for i in range(len(filmUrl)):

65 href=filmUrl【i】.a【'href'】

66 Url_list.append(href)

67 return Url_list

68

69 def writeTofile(parsedWebcontent):

70 with open('film.txt','a',encoding='utf-8') as f:

71 for i in range(len(parsedWebcontent)):

72 f.write(parsedWebcontent【i】【'fileName'】+'\t')

73 f.write(parsedWebcontent【i】【'filmCast'】 + '\t')

74 f.write(parsedWebcontent【i】【'filmIntro'】 + '\t')

75 f.write(parsedWebcontent【i】【'filmurl'】 + '\t')

76 f.write('\n')

77 f.close()

78

79

80 link=""""

81 for i in range(1,4):

82 url=link + str(i) + "".html""

83 webContent=get_url_content(url)

84

85 if webContent!=False:

86 Content=parse_Web_Content(webContent)

87 writeTofile(Content)


"
image.png
相关文章
|
14天前
|
数据采集 数据可视化 关系型数据库
基于python大数据的电影数据可视化分析系统
电影分析与可视化平台顺应电影产业数字化趋势,整合大数据处理、人工智能与Web技术,实现电影数据的采集、分析与可视化展示。平台支持票房、评分、观众行为等多维度分析,助力行业洞察与决策,同时提供互动界面,增强观众对电影文化的理解。技术上依托Python、MySQL、Flask、HTML等构建,融合数据采集与AI分析,提升电影行业的数据应用能力。
|
2月前
|
数据采集 存储 JSON
地区电影市场分析:用Python爬虫抓取猫眼/灯塔专业版各地区票房
地区电影市场分析:用Python爬虫抓取猫眼/灯塔专业版各地区票房
|
8月前
|
JavaScript 前端开发 Android开发
【03】仿站技术之python技术,看完学会再也不用去购买收费工具了-修改整体页面做好安卓下载发给客户-并且开始提交网站公安备案-作为APP下载落地页文娱产品一定要备案-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
【03】仿站技术之python技术,看完学会再也不用去购买收费工具了-修改整体页面做好安卓下载发给客户-并且开始提交网站公安备案-作为APP下载落地页文娱产品一定要备案-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
221 13
【03】仿站技术之python技术,看完学会再也不用去购买收费工具了-修改整体页面做好安卓下载发给客户-并且开始提交网站公安备案-作为APP下载落地页文娱产品一定要备案-包括安卓android下载(简单)-ios苹果plist下载(稍微麻烦一丢丢)-优雅草卓伊凡
|
3月前
|
前端开发 数据安全/隐私保护 Python
虚拟物流单号生成器, 虚拟快递单号假物流信息, 虚拟快递单号在线生成【python框架】
这个虚拟物流单号生成系统包含以下功能:支持多种主流快递公司的单号生成
|
3月前
|
数据安全/隐私保护 数据格式 Python
快递单号模拟生成器, 虚拟物流信息在线生成,虚假快递单号生成器【python】
支持多种主流快递公司生成符合各快递公司规则的快递单号自动生成收发件人信息
|
3月前
|
JSON 前端开发 API
快递单号生成器在线, 快递单号模拟生成器, 虚拟物流信息在线生成【python】
项目包含三个主要模块:快递单号生成器核心逻辑、Flask Web应用程序和前端HTML页面
|
3月前
|
JSON API 数据安全/隐私保护
车辆五项信息查询 API 的实践指南:通过Python调用赋能车辆信息标准化
本API通过车牌号快速获取车辆五项核心信息,包括品牌、登记日期、车架号等,助力二手车评估、维修、保险等场景实现数字化转型。数据源自权威公安交管库,日更同步,毫秒级响应,满足高并发需求,符合隐私保护规范,是推动汽车后市场智能化的重要工具。
159 0
|
4月前
|
API Python
VIN码查询API的实战指南:获取二手车信息以Python为例
随着机动车保有量上升,中国二手车市场迎来发展机遇。本文介绍如何通过VIN码查询API获取车辆详细信息,提升交易透明度与安全性。
79 1
|
4月前
|
数据采集 存储 数据可视化
Python爬取招标信息并生成可视化分析报告
Python爬取招标信息并生成可视化分析报告
|
5月前
|
数据采集 前端开发 JavaScript
Python爬虫如何应对网站的反爬加密策略?
Python爬虫如何应对网站的反爬加密策略?
283 11

推荐镜像

更多