Crawler:基于BeautifulSoup库+requests库实现爬取2018最新电影《后来的我们》热门短评

简介: Crawler:基于BeautifulSoup库+requests库实现爬取2018最新电影《后来的我们》热门短评

输出结果


image.png





实现代码


# -*- coding: utf-8 -*-

#Py之Crawler:利用BeautifulSoup库实现爬取2018最新电影《后来的我们》热门短评

import time

import requests

import csv

from bs4 import BeautifulSoup

head = 'https://movie.douban.com/subject/'

middle = '/comments?start='

zr_tail = '&limit=20&sort=new_score&status=P&percent_type='

names = []

header = {

  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'

}

zr_urls = ['最热']

def createUrls():

  for j in range(1, 34, 2):

      name = names[j]

      #print(name)

      for i in range(0, 100, 20):

          zr_urls.append(head + str(name) + middle + str(i) + zr_tail)

          #print(zr_urls)得到某个电影短评地址(默认最热排序),如https://movie.douban.com/subject/27063335/comments?start=0&limit=20&sort=new_score&status=P&percent_type=

def readName():

  with open('爬取电影名称.txt', mode='r', encoding='utf-8') as f:

      for i in f.readlines():

          i = i.strip('\n')

          names.append(i)

          #print(names)  

readName()

createUrls()

get_comments(zr_urls)  #传入zr_urls


相关文章
|
弹性计算 数据安全/隐私保护
【雾锁王国10秒开服教程】 2024年雾锁王国/Enshrouded全自动部署流程步骤
【雾锁王国10秒开服教程】 2024年雾锁王国/Enshrouded全自动部署流程步骤。本文将为您提供极简部署雾锁王国服务器的指引,「仅需轻点三次鼠标,即可完成开服」,和自己的朋友一起畅玩雾锁王国。雾锁王国(Enshrouded)作为一款热门多人在线游戏,为了给玩家提供稳定、流畅的联机体验,阿里云提供了高效便捷的快速部署解决方案,本文将为大家分享阿里云一键部署雾锁王国联机服务器详细教程。
289 1
【雾锁王国10秒开服教程】 2024年雾锁王国/Enshrouded全自动部署流程步骤
|
小程序
|
JSON 安全 JavaScript
SpringBoot时间格式化
SpringBoot时间格式化
181 0
|
自然语言处理 数据可视化 Java
Spring Data Elasticsearch 聚合查询
如需要统计某件商品的数量,最高价格,最低价格等就用到了聚合查询,就像数据库中的group by
436 0
|
10月前
|
人工智能 运维 监控
|
存储 分布式数据库 数据库
Hbase学习二:Hbase数据特点和架构特点
Hbase学习二:Hbase数据特点和架构特点
330 0
|
12月前
|
消息中间件 缓存 监控
在PHP中,实现多线程
在PHP中,实现多线程
350 6
|
人工智能 前端开发 JavaScript
前端大模型入门(二):掌握langchain的核心Runnable接口
Langchain.js 是 Langchain 框架的 JavaScript 版本,专为前端和后端 JavaScript 环境设计。最新 v0.3 版本引入了强大的 Runnable 接口,支持灵活的执行方式和异步操作,方便与不同模型和逻辑集成。本文将详细介绍 Runnable 接口,并通过实现自定义 Runnable 来帮助前端人员快速上手。
482 1
|
数据采集 安全 数据处理
制造业、工程设计行业、创投行业的数据治理痛点与解决方案
关注监管政策动态:密切关注数据治理相关法律法规的发布和更新,及时调整企业数据治理策略,确保合规经营。
制造业、工程设计行业、创投行业的数据治理痛点与解决方案
|
SQL Go 数据库
Django入门到放弃之ORM多表操作
Django入门到放弃之ORM多表操作
下一篇
开通oss服务