备案控制台

开发者社区开发与运维文章正文

Crawler：基于BeautifulSoup库+requests库实现爬取2018最新电影《后来的我们》热门短评

2021-10-27 213

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Crawler：基于BeautifulSoup库+requests库实现爬取2018最新电影《后来的我们》热门短评

输出结果

实现代码

# -*- coding: utf-8 -*-

#Py之Crawler：利用BeautifulSoup库实现爬取2018最新电影《后来的我们》热门短评

import time

import requests

import csv

from bs4 import BeautifulSoup

head = 'https://movie.douban.com/subject/'

middle = '/comments?start='

zr_tail = '&limit=20&sort=new_score&status=P&percent_type='

names = []

header = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'

}

zr_urls = ['最热']

def createUrls():

for j in range(1, 34, 2):

name = names[j]

#print(name)

for i in range(0, 100, 20):

zr_urls.append(head + str(name) + middle + str(i) + zr_tail)

#print(zr_urls)得到某个电影短评地址(默认最热排序)，如https://movie.douban.com/subject/27063335/comments?start=0&limit=20&sort=new_score&status=P&percent_type=

def readName():

with open('爬取电影名称.txt', mode='r', encoding='utf-8') as f:

for i in f.readlines():

i = i.strip('\n')

names.append(i)

#print(names)

readName()

createUrls()

get_comments(zr_urls) #传入zr_urls

文章标签：

Python

iOS开发

Windows

Web App开发

一个处女座的程序猿

目录

相关文章

游客677xsv64z

|

弹性计算数据安全/隐私保护

【雾锁王国10秒开服教程】 2024年雾锁王国/Enshrouded全自动部署流程步骤

【雾锁王国10秒开服教程】 2024年雾锁王国/Enshrouded全自动部署流程步骤。本文将为您提供极简部署雾锁王国服务器的指引，「仅需轻点三次鼠标，即可完成开服」，和自己的朋友一起畅玩雾锁王国。雾锁王国(Enshrouded)作为一款热门多人在线游戏，为了给玩家提供稳定、流畅的联机体验，阿里云提供了高效便捷的快速部署解决方案，本文将为大家分享阿里云一键部署雾锁王国联机服务器详细教程。

游客677xsv64z

289 1 1

【雾锁王国10秒开服教程】 2024年雾锁王国/Enshrouded全自动部署流程步骤

yunqingjishu

|

小程序

APP/小程序备案以及备案加急服务

APP备案/小程序备案

yunqingjishu

788 5 5

讓丄帝愛伱

|

JSON 安全 JavaScript

SpringBoot时间格式化

SpringBoot时间格式化

讓丄帝愛伱

181 0 0

刘牌

|

自然语言处理数据可视化 Java

Spring Data Elasticsearch 聚合查询

如需要统计某件商品的数量，最高价格，最低价格等就用到了聚合查询，就像数据库中的group by

刘牌

436 0 0

bug菌

|

10月前

|

人工智能运维监控

全面拥抱AI大模型时代！一次操作系统服务的深度体验之旅

欢迎大家前去体验Alibaba Cloud Linux。

bug菌

280 28 28

全面拥抱AI大模型时代！一次操作系统服务的深度体验之旅

香吧香

|

存储分布式数据库数据库

Hbase学习二：Hbase数据特点和架构特点

Hbase学习二：Hbase数据特点和架构特点

香吧香

330 0 0

vohelon

|

12月前

|

消息中间件缓存监控

在PHP中，实现多线程

在PHP中，实现多线程

vohelon

350 6 6

想飞的雪糕

|

人工智能前端开发 JavaScript

前端大模型入门（二）：掌握langchain的核心Runnable接口

Langchain.js 是 Langchain 框架的 JavaScript 版本，专为前端和后端 JavaScript 环境设计。最新 v0.3 版本引入了强大的 Runnable 接口，支持灵活的执行方式和异步操作，方便与不同模型和逻辑集成。本文将详细介绍 Runnable 接口，并通过实现自定义 Runnable 来帮助前端人员快速上手。

想飞的雪糕

482 1 1

1442573646622176

|

数据采集安全数据处理

制造业、工程设计行业、创投行业的数据治理痛点与解决方案

关注监管政策动态：密切关注数据治理相关法律法规的发布和更新，及时调整企业数据治理策略，确保合规经营。

1442573646622176

445 0 0

制造业、工程设计行业、创投行业的数据治理痛点与解决方案

1288912195458132

|

SQL Go 数据库

Django入门到放弃之ORM多表操作

Django入门到放弃之ORM多表操作

1288912195458132

200 0 0

热门文章

最新文章

初识LVM及ECS上LVM分区扩容

【X-Pack解读】阿里云Elasticsearch X-Pack 监控组件功能详解

spanner 的前世今生

什么是CDN服务

Canal是怎么伪装成 MySQL slave？

还记得“童年回忆”小霸王吗？现在它要打造市值500亿的VR产业

管道符和作业控制、shell变量、环境变量配置文件

url请求中去掉根目录

【OJ】贪心——区间问题 hzu.acmclub.com 1126看电视

SubSonic框架使用图解

Java零基础学习笔记（一）

使用容器部署python flask ubuntu 环境的时候，网页跳转路由无法保持端口号的问题

智能体来了：AI教育与创业的新引擎｜黎跃春谈智能体教育与产业融合

智能体来了：AI教育与产业融合的新时代 ——从大学生智能体开发实训到智能体创业新风口的系统变革

RAG不是“外挂提示词”，而是让大模型真正懂你业务的大脑外

别再用“人肉运维”了！深度学习正在让企业系统自己“懂事”

别把无人驾驶想太玄，大数据才是背后真正的老司机

基于MATLAB的自然图像梯度分布重尾特性验证方案

Mac版Color Folder v3.8安装教程（附dmg文件安装步骤和搜索关键词）

UUID 与 MD5 重复概率深度分析

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

开通oss服务