Kimi仅用5秒钟就帮我抓取了5页文章素材

简介: Kimi仅用5秒钟就帮我抓取了5页文章素材

熟悉我的宝子,都知道我现在开发各类RPA机器人,目前已经投入使用的机器有15款,有需要的小伙伴可以私聊我。

周末在家唱着歌儿,搬着砖的时候,突然一个弹框提醒提示我要进行生财打卡了。原来是我报名了生财有术的AI编程大航海了呀。

其中一个很重要的任务就是通过大模型,让大模型编写代码爬取公众号的文章。

1. 编写提示词

你是一个资深爬虫开发工程师,擅长使用Python语言编写爬虫程序,现在有如下任务:
写一个爬虫程序,按下面的要求在我的 windows 电脑上帮我抓取微信公众号文章。
使用 python3 和最新版的 selenium
目标网站:https://weixin.sogou.com/
输入关键字[ RPA ],点击[ 搜文章 ]按钮
爬取内容: 爬取标题、摘要、链接、来源
爬取后的内容保存到Excel文件中,Excel文件命名为AI_微信_时间
爬取前5页,每爬完1页休眠5s
请首先解析目标网站,然后给我完整可运行的程序,让我看到浏览器中操作的过程,并指导我安装程序依赖的所有库。
你可以先执行步骤 2 和步骤 3 了解网页的结构,然后再生成代码。

2. Kimi快速生成代码中

3.生成代码

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from openpyxl import Workbook
# 配置WebDriver
chrome_drive_path = r'E:\develop\chromedriver-win64\chromedriver.exe'
# 设置ChromeDrive服务
service = Service(chrome_drive_path)
# 初始化WebDriver
options = webdriver.ChromeOptions()
driver = webdriver.Chrome(service=service, options=options)
# 目标网站
url = "https://weixin.sogou.com/"
# 爬取前5页
pages_to_scrape = 5
# 打开目标网站
driver.get(url)
# 等待页面加载
time.sleep(2)
# 找到搜索框并输入关键字
search_box = driver.find_element(By.CSS_SELECTOR, "input.sec-input")
search_box.send_keys("RPA")
# 找到搜索按钮并点击
search_button = driver.find_element(By.XPATH, "//input[@uigs=\"search_article\"]")
search_button.click()
# 创建Excel工作簿
wb = Workbook()
ws = wb.active
ws.append(["标题", "摘要", "链接", "来源"])
# 开始爬取
for page in range(pages_to_scrape):
    # 等待页面加载
    time.sleep(5)
    # 找到所有文章的容器
    articles = driver.find_elements(By.XPATH, "//ul[@class=\"news-list\"]/li")
    for article in articles:
        # 爬取标题
        title = article.find_element(By.XPATH, ".//div/h3").text
        # 爬取摘要
        summary = article.find_element(By.XPATH, ".//div/p").text
        # 爬取链接
        link = article.find_element(By.XPATH, ".//div/h3/a").get_attribute("href")
        # 爬取来源
        source = article.find_element(By.XPATH, ".//div/div").text
        # 将爬取的数据写入Excel
        ws.append([title, summary, link, source])
    # 如果不是最后一页,点击下一页
    if page < pages_to_scrape - 1:
        next_page_button = driver.find_element(By.XPATH, ".//a[@id=\"sogou_next\"]")
        next_page_button.click()
        time.sleep(5)  # 休眠5秒
# 保存Excel文件
current_time = time.strftime("%Y%m%d_%H%M%S")
file_name = f"RPA_微信_{current_time}.xlsx"
wb.save(file_name)
# 关闭浏览器
driver.quit()
print(f"爬取完成,数据已保存至 {file_name}")

4. 代码运行效果



相关实践学习
基于阿里云短信服务的防机器人验证
基于阿里云相关产品和服务实现一个手机验证码登录的功能,防止机器人批量注册,服务端采用阿里云ECS服务器,程序语言选用JAVA,服务器软件选用Tomcat,应用服务采用阿里云短信服务,
相关文章
|
8月前
|
机器学习/深度学习 人工智能 算法
AI音乐生成创企发新模型 几秒生成两分钟歌曲
Suno公司推出AI音乐生成模型,基于深度学习和大数据,快速创作符合用户喜好的歌曲,简化音乐创作流程,让业余爱好者也能参与。该模型高度可定制,支持二次创作,引发行业关注。创始人强调,目标是辅助而非取代人类音乐家,旨在促进音乐产业创新与发展。
180 1
AI音乐生成创企发新模型 几秒生成两分钟歌曲
|
3月前
Midjourney-04 收集Prompt 百变小樱魔法卡 ClearCard 透明牌 提示词实践 Niji 5 Niji6 V6 详细记录 多种风格 附带文本关键词
Midjourney-04 收集Prompt 百变小樱魔法卡 ClearCard 透明牌 提示词实践 Niji 5 Niji6 V6 详细记录 多种风格 附带文本关键词
27 0
|
7月前
|
人工智能 自然语言处理 开发者
LLM最全怪癖首曝光!马里兰OpenAI等30+学者祭出75页提示报告
【6月更文挑战第28天】《The Prompt Report》——马里兰大学等机构的学者发布了一份75页的系统综述,详尽探讨了GenAI的提示技术。报告建立了33个术语的词汇表,分类了58种文本和40种其他模态的提示技术,为AI交互提供了清晰框架。尽管受到赞誉,但也面临技术性及关键问题解决不足的批评。报告提醒,需关注提示可能带来的不准确性和偏见问题。[[1](https://arxiv.org/abs/2406.06608)]**
88 5
|
7月前
|
小程序 API
技术心得记录:微信小程序之图片频繁变化,几秒之后输出结果(适用于抽奖)
技术心得记录:微信小程序之图片频繁变化,几秒之后输出结果(适用于抽奖)
37 0
|
8月前
|
自然语言处理 搜索推荐 数据挖掘
自制字节上万条招聘信息搜索网站,好玩!
自制字节上万条招聘信息搜索网站,好玩!
|
JSON 数据格式 Python
桌面壁纸实时展示粉丝数
桌面壁纸实时展示粉丝数
|
搜索推荐 Windows
做视频没素材?这个取材入口就不要错过啦
作为一名优秀的视频剪辑者,我们一定要时刻关注时下流行的内容形式和用户喜好,而如今短视频已成为了一种非常流行的表达形式。在我们日常的创作中,如何寻找到有趣、新颖的短视频素材,将成为我们成功的关键。
做视频没素材?这个取材入口就不要错过啦
|
数据采集 Python
Python爬虫系列17-批量抓取某短视频平台某用户的全部作品
不那么好走的路,才是上坡路. 所有往上的路,都与我们本能的懒惰、懈怠和拖延不相容。 当你觉得很苦很累时,不要泄气,因为你可能走在上坡的路上。
Python爬虫系列17-批量抓取某短视频平台某用户的全部作品