Crawler:基于BeautifulSoup库+requests库实现爬取2018最新电影《后来的我们》热门短评

简介: Crawler:基于BeautifulSoup库+requests库实现爬取2018最新电影《后来的我们》热门短评

输出结果


image.png





实现代码


# -*- coding: utf-8 -*-

#Py之Crawler:利用BeautifulSoup库实现爬取2018最新电影《后来的我们》热门短评

import time

import requests

import csv

from bs4 import BeautifulSoup

head = 'https://movie.douban.com/subject/'

middle = '/comments?start='

zr_tail = '&limit=20&sort=new_score&status=P&percent_type='

names = []

header = {

  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'

}

zr_urls = ['最热']

def createUrls():

  for j in range(1, 34, 2):

      name = names[j]

      #print(name)

      for i in range(0, 100, 20):

          zr_urls.append(head + str(name) + middle + str(i) + zr_tail)

          #print(zr_urls)得到某个电影短评地址(默认最热排序),如https://movie.douban.com/subject/27063335/comments?start=0&limit=20&sort=new_score&status=P&percent_type=

def readName():

  with open('爬取电影名称.txt', mode='r', encoding='utf-8') as f:

      for i in f.readlines():

          i = i.strip('\n')

          names.append(i)

          #print(names)  

readName()

createUrls()

get_comments(zr_urls)  #传入zr_urls


相关文章
|
3月前
|
弹性计算 数据安全/隐私保护 iOS开发
阿里云无影云电脑全攻略:官网链接 + 收费价格 + 配置使用 + FAQ 一站式解答
阿里云无影云电脑全攻略:含官网入口、企业版/个人版价格(2026最新)、核时计费详解、免费试用申请及配置指南;支持Windows/macOS/iOS/Android,适用于远程办公、设计、云游戏、编程等场景,数据安全可靠。
1883 1
|
3月前
|
存储 缓存 安全
synchronized 底层全解:从对象头、锁升级到内核实现,击穿并发编程的核心基石
本文深度剖析Java中synchronized的底层原理:从三种使用范式、字节码实现,到对象内存布局、Mark Word状态切换,详解锁升级(偏向→轻量→重量)全流程及JVM优化(锁消除/粗化),并结合JOL实战验证,兼顾理论深度与生产实用性。
504 2
|
3月前
|
人工智能 自然语言处理 文字识别
医院随访系统如何实现数据整合?
医院随访系统数据整合旨在打破院内多系统壁垒,构建标准化、智能化数据流通体系。通过FHIR/HL7接口对接、EMPI主索引治理、AI清洗(NLP/OCR)及数据中台架构,融合HIS、EMR、可穿戴设备等院内外数据,实现患者360°视图与“一人一档”,赋能临床决策、科研分析与智慧随访。
275 1
|
5月前
|
人工智能 API
你的智能体,现在是工具 / 助手 / 协作者,还是领航员?
本文提出智能体角色分化的认知升级:超越“多强”,聚焦“扮演谁”。从工具、助手、协作者到领航员,四类角色对应不同责任边界与能力前提。多数失效源于角色错配——误将工具当领航员。关键不在模型多聪明,而在明确:目标谁定?路径谁选?失败谁兜底?
248 0
|
3月前
|
存储 缓存 算法
中间件:高可用、高性能、可扩展三大核心设计原则
本文深入解析中间件三大核心设计原则:高可用(故障隔离、冗余备份、限流降级、数据一致性)、高性能(IO模型优化、内存管理、无锁并发、序列化与算法优化)及可扩展(SPI插件化、微内核、协议标准化、水平扩展),并剖析其协同平衡之道。
215 4
|
3月前
|
安全 JavaScript API
OpenClaw 技术落地实战——如何打破 Agent 的“技能荒”与环境依赖壁垒
OpenClaw是基于LLM的浏览器自动化运行时,核心价值在于Skill生态。本文解析其Runtime与Skill边界混淆问题,揭示阻碍复用的三大障碍:依赖不规范、安全黑箱、网络可达性差,并介绍国内托管式聚合平台如何通过安全审计、性能选型与环境封装破局。
|
3月前
|
人工智能 算法 前端开发
3月春招大爆发:近30企业新开岗位,互联网游戏制造都在抢人
3月春招爆发!2026届新增近30家名企岗位,覆盖互联网(蚂蚁、滴滴)、游戏(米哈游、网易互娱)、智造(蔚来、TCL华星)、金融(招行)等多行业,北上广深杭成热门城市。技术岗为主力,测试/产品/运营/硬件岗同步扩容,应届生投递黄金期正当时!
|
4月前
|
存储 人工智能 缓存
一种基于分层记忆与注意力约束的对话AI架构
本文提出一种新型对话AI记忆架构:从空白记忆库起步,分三层(核心/中层/临时)动态存储信息;通过两层过滤(模型识别+用户反馈)精准入库;采用注意力降压、高频抑制等机制杜绝复读;核心记忆上锁保护,满库自动清理。让AI真正“记得住、不啰嗦、不乱记、越聊越懂你”。(239字)
|
5月前
|
人工智能 自然语言处理 运维
阿里云万小智AI建站产品介绍:使用场景、产品优势、收费价格参考
万小智AI建站是阿里云近期推出的热门建站产品,它是一个零代码自助建站平台,可以帮助您轻松、高效地创建和发布响应式网站。本文为大家介绍万小智AI建站的使用场景、产品优势、收费价格情况,以供参考。
|
程序员 API 数据安全/隐私保护
Flink--8、时间语义、水位线(事件和窗口、水位线和窗口的工作原理、生产水位线、水位线的传递、迟到数据的处理)
Flink--8、时间语义、水位线(事件和窗口、水位线和窗口的工作原理、生产水位线、水位线的传递、迟到数据的处理)