让ChatGPT充当程序员，帮你无代码实现网络爬虫

2023-07-13 372

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 让ChatGPT充当程序员，帮你无代码实现网络爬虫

💡大家好，我是可夫小子，关注AIGC、读书和自媒体。解锁更多ChatGPT、AI绘画玩法。

提示：本案例虽然不需要写代码，但需要有一定的软件开发基础，能够搭建环境，调整代码。我使用的是Pycharm IDE，Python版本为v3.8

获得代码

你现在是一名资深的软件工程师，请用Python写一个爬虫程序，要求爬取豆瓣电影Top250每一页的电影名和评分，保存到excel表格中。

加上角色定位的话，它就会考虑浏览器的请求头，否则就没办法正常运行。
复制出来，粘贴到Pycharm IDE，或者其他文本文件，重命名为douban_top250.py即可。
完整代码：
```text
import requests
import openpyxl
from bs4 import BeautifulSoup

设置请求头

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36'
}

创建 Excel 表格

workbook = openpyxl.Workbook()
worksheet = workbook.active
worksheet.title = 'Top250'

爬取每一页的电影名和评分

for i in range(10):
url = f'https://movie.douban.com/top250?start={i * 25}&filter='
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
items = soup.findall('div', class='hd')

for item in items:
    title = item.a.span.text
    rating = item.parent.find('span', class_='rating_num').text
    worksheet.append([title, rating])

保存表格

workbook.save('douban_top250.xlsx')

# 安装依赖包
```text
pip3 install openpyxl
pip3 install beautifulsoup4

运行

在IDE中，右键执行RUN

检查结果

运行完之后，就在douban_250.py文件的同级目录下，生成一个名为douban_top250.xlsx文件，打开就能看到爬取结果了。

总结

在整个过程，我没有写一行代码，我真心感叹：太强了。另外，还可以给出其他要求，增加类似导演、年代这样的字段。只要跑通了这个Demo，ChatGPT在软件开发上的想象空间巨大。

让ChatGPT充当程序员，帮你无代码实现网络爬虫

获得代码

设置请求头

创建 Excel 表格

爬取每一页的电影名和评分

保存表格

运行

检查结果

总结

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

让ChatGPT充当程序员，帮你无代码实现网络爬虫

获得代码

设置请求头

创建 Excel 表格

爬取每一页的电影名和评分

保存表格

运行

检查结果

总结

热门文章

最新文章

相关课程

相关电子书