简单爬取——爬取电影详情页

2023-02-18 273

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 简单使用

紧接上回我们爬取了电影的列表页，我们也获得了所有详情页的URL，下一步就是解析详情页并提取到我们想要的信息，观察详情页的网页结构，我们想要的内容和对应的结点信息如下。
封面：是一个img结点。其class属性为over
名称：是一个h2结点，其内容是电影名称
类别：是span结点，其内容是电影类别。span结点的外侧是button结点，再外侧的class为categories的div结点。
上映时间：是span结点，其内容包含上映时间，外侧是class为info的div结点。
评分：是一个p结点，其内容便是电影评分。p结点的class属性为score。
剧情简介：是一个p结点，其内容便是剧情简介，其外侧是class为drama的div结点。

详情页的爬取

def scape_detail(url):

return scrape_page(url)

很简单

详情页的解析

def parse_detail(html):

cover_pattern=re.compile('class="item.*?<img.*?src="(.*?)".*?class="cover">',re.S)
cover=re.search(cover_pattern,html).group(1).strip() if re.search(cover_pattern,html) else None
name_pattern=re.compile('<h2.*?>(.*?)</h2>')
name=re.search(name_pattern,html).group(1).strip() if re.search(name_pattern,html) else None
published_at_pattern=re.compile('(\d{4}-\d{2}-\d{2}).*?上映')
published=re.search(published_at_pattern,html).group(1).strip() if re.search(published_at_pattern,html) else None
return {
    "cover":cover,
    "name":name,
    "published":published

}

我们根据字典和正则表达式来完成对详情页的提取与分析。

main方法

def main():

for page in range(1,TOTAL_PAGE+1):
    index_html=scrape_index(page)
    detail_urls=parse_index(index_html)
    # logging.info("detail urls %s",list(detail_urls))
    for detail_url in detail_urls:
        detail_html=scape_detail(detail_url)
        data=parse_detail(detail_html)
        logging.info("get detail data %s",data)
        save(data)

保存文件并对爬虫代码进行改良

保存数据方法的定义

import json
from os import makedirs
from os.path import exists
RESULTS_DIR='results'
exists(RESULTS_DIR) or makedirs(RESULTS_DIR)
def save(data):

name=data.get("name")
data_path=f'{RESULTS_DIR}/{name}.json'
json.dump(data,open(data_path,'w',encoding='utf-8'),ensure_ascii=False,indent=2)

多进程的改良

if __name__=="__main__":

pool=multiprocessing.Pool()
pages=range(1,TOTAL_PAGE+1)
pool.map(main,pages)
pool.close()
pool.join()

每次的的调用分别变成一个进程，加入进程池当中，进城池根据运行环境来决定多少个进程

简单爬取——爬取电影详情页

详情页的爬取

详情页的解析

main方法

保存文件并对爬虫代码进行改良

保存数据方法的定义

多进程的改良

每次的的调用分别变成一个进程，加入进程池当中，进城池根据运行环境来决定多少个进程

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

简单爬取——爬取电影详情页

详情页的爬取

详情页的解析

main方法

保存文件并对爬虫代码进行改良

保存数据方法的定义

多进程的改良

每次的的调用分别变成一个进程，加入进程池当中，进城池根据运行环境来决定多少个进程

热门文章

最新文章

相关电子书