Kimi仅用5秒钟就帮我抓取了5页文章素材

简介: Kimi仅用5秒钟就帮我抓取了5页文章素材

熟悉我的宝子,都知道我现在开发各类RPA机器人,目前已经投入使用的机器有15款,有需要的小伙伴可以私聊我。

周末在家唱着歌儿,搬着砖的时候,突然一个弹框提醒提示我要进行生财打卡了。原来是我报名了生财有术的AI编程大航海了呀。

其中一个很重要的任务就是通过大模型,让大模型编写代码爬取公众号的文章。

1. 编写提示词

你是一个资深爬虫开发工程师,擅长使用Python语言编写爬虫程序,现在有如下任务:
写一个爬虫程序,按下面的要求在我的 windows 电脑上帮我抓取微信公众号文章。
使用 python3 和最新版的 selenium
目标网站:https://weixin.sogou.com/
输入关键字[ RPA ],点击[ 搜文章 ]按钮
爬取内容: 爬取标题、摘要、链接、来源
爬取后的内容保存到Excel文件中,Excel文件命名为AI_微信_时间
爬取前5页,每爬完1页休眠5s
请首先解析目标网站,然后给我完整可运行的程序,让我看到浏览器中操作的过程,并指导我安装程序依赖的所有库。
你可以先执行步骤 2 和步骤 3 了解网页的结构,然后再生成代码。

2. Kimi快速生成代码中

3.生成代码

import time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from openpyxl import Workbook
# 配置WebDriver
chrome_drive_path = r'E:\develop\chromedriver-win64\chromedriver.exe'
# 设置ChromeDrive服务
service = Service(chrome_drive_path)
# 初始化WebDriver
options = webdriver.ChromeOptions()
driver = webdriver.Chrome(service=service, options=options)
# 目标网站
url = "https://weixin.sogou.com/"
# 爬取前5页
pages_to_scrape = 5
# 打开目标网站
driver.get(url)
# 等待页面加载
time.sleep(2)
# 找到搜索框并输入关键字
search_box = driver.find_element(By.CSS_SELECTOR, "input.sec-input")
search_box.send_keys("RPA")
# 找到搜索按钮并点击
search_button = driver.find_element(By.XPATH, "//input[@uigs=\"search_article\"]")
search_button.click()
# 创建Excel工作簿
wb = Workbook()
ws = wb.active
ws.append(["标题", "摘要", "链接", "来源"])
# 开始爬取
for page in range(pages_to_scrape):
    # 等待页面加载
    time.sleep(5)
    # 找到所有文章的容器
    articles = driver.find_elements(By.XPATH, "//ul[@class=\"news-list\"]/li")
    for article in articles:
        # 爬取标题
        title = article.find_element(By.XPATH, ".//div/h3").text
        # 爬取摘要
        summary = article.find_element(By.XPATH, ".//div/p").text
        # 爬取链接
        link = article.find_element(By.XPATH, ".//div/h3/a").get_attribute("href")
        # 爬取来源
        source = article.find_element(By.XPATH, ".//div/div").text
        # 将爬取的数据写入Excel
        ws.append([title, summary, link, source])
    # 如果不是最后一页,点击下一页
    if page < pages_to_scrape - 1:
        next_page_button = driver.find_element(By.XPATH, ".//a[@id=\"sogou_next\"]")
        next_page_button.click()
        time.sleep(5)  # 休眠5秒
# 保存Excel文件
current_time = time.strftime("%Y%m%d_%H%M%S")
file_name = f"RPA_微信_{current_time}.xlsx"
wb.save(file_name)
# 关闭浏览器
driver.quit()
print(f"爬取完成,数据已保存至 {file_name}")

4. 代码运行效果



相关文章
|
机器学习/深度学习 存储 并行计算
一篇就够:高性能推理引擎理论与实践 (TensorRT)
本文分享了关于 NVIDIA 推出的高性能的深度学习推理引擎 TensorRT 的背后理论知识和实践操作指南。
14972 9
一篇就够:高性能推理引擎理论与实践 (TensorRT)
|
6月前
|
机器学习/深度学习 前端开发 数据可视化
Kimi K2 开源发布:擅长代码与 Agentic 任务!
今天,月之暗面正式发布 Kimi K2 模型,并同步开源。Kimi K2 是一款具备更强代码能力、更擅长通用 Agent 任务的 MoE 架构基础模型,总参数 1T,激活参数 32B。
1334 0
|
人工智能 文字识别 数据挖掘
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
MarkItDown 是微软开源的多功能文档转换工具,支持将 PDF、PPT、Word、Excel、图像、音频等多种格式的文件转换为 Markdown 格式,具备 OCR 文字识别、语音转文字和元数据提取等功能。
3013 9
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
|
8月前
|
弹性计算 负载均衡 网络协议
阿里云共享流量包是什么?共享流量包如何使用?
阿里云共享流量包是一种通用流量套餐,可自动抵扣ECS、EIP、CLB、共享带宽及IPv6网关等产品产生的公网流量费用。购买后无需额外设置,立即生效并自动抵扣对应地域的流量费用。适用于多地域流量管理,支持IPv4与IPv6流量,但需注意区域匹配,如亚太、欧美等不同区域的流量包仅能抵扣对应地域的流量。用户可通过阿里云【费用与成本】页面查询流量包使用情况。更多详情见官方说明。
|
8月前
|
NoSQL 算法 安全
分布式锁—1.原理算法和使用建议
本文主要探讨了Redis分布式锁的八大问题,包括非原子操作、忘记释放锁、释放其他线程的锁、加锁失败处理、锁重入问题、锁竞争问题、锁超时失效及主从复制问题,并提供了相应的优化措施。接着分析了Redis的RedLock算法,讨论其优缺点以及分布式专家Martin对其的质疑。此外,文章对比了基于Redis和Zookeeper(zk)的分布式锁实现原理,包括获取与释放锁的具体流程。最后总结了两种分布式锁的适用场景及使用建议,指出Redis分布式锁虽有性能优势但模型不够健壮,而zk分布式锁更稳定但部署成本较高。实际应用中需根据业务需求权衡选择。
|
Kubernetes 架构师 Java
史上最全对照表:大厂P6/P7/P8 职业技能 薪资水平 成长路线
40岁老架构师尼恩,专注于帮助读者提升技术能力和职业发展。其读者群中,多位成员成功获得知名互联网企业的面试机会。尼恩不仅提供系统化的面试准备指导,还特别针对谈薪酬环节给予专业建议,助力求职者在与HR谈判时更加自信。此外,尼恩还分享了阿里巴巴的职级体系,作为行业内广泛认可的标准,帮助读者更好地理解各职级的要求和发展路径。通过尼恩的技术圣经系列PDF,如《尼恩Java面试宝典》等,读者可以进一步提升自身技术实力,应对职场挑战。关注“技术自由圈”公众号,获取更多资源。
|
Cloud Native Java Nacos
Spring Cloud Config、Apollo、Nacos和Archaius对比
这篇文章对比了Spring Cloud Config、Apollo、Nacos和Archaius这四种配置中心的适应场景、优缺点。文中讨论了它们的功能特点,例如Spring Cloud Config的集中化配置管理和动态刷新能力,Apollo的实时配置推送和权限治理,Nacos的服务发现和管理功能,以及Archaius的动态配置更新能力。文章指出选择配置中心应根据项目需求和架构来决定,并提供了一个对比图来帮助读者更直观地理解这些工具的差异。
652 1
Spring Cloud Config、Apollo、Nacos和Archaius对比
|
消息中间件 Java Linux
RocketMQ-编译安装教程
RocketMQ-编译安装教程
RocketMQ-编译安装教程
|
Web App开发 Ubuntu Linux
手把手教你Windows+Linux双系统的安装与卸载(一)
后台突然有很多小伙伴留言想看 Linux+Windows 双系统的安装,本想自己写一个,但看了一眼自己那台服役快6年的老古董,想想还是不折腾它了。 于是上网搜索找到了这篇教程,已经征得原作者同意转载至本公众号,并且征得他的同意标注为原创。如果觉得本文对你有帮助,欢迎赞赏,所得款项全部归还原作者。
1506 0
手把手教你Windows+Linux双系统的安装与卸载(一)
|
小程序 API
6. 小程序端的 Pinia 持久化
6. 小程序端的 Pinia 持久化
275 0