Python+webdriver爬取博客园“我的闪存”并保存到本地

简介: [本文出自天外归云的博客园] 前篇 用webdriver+phantomjs实现无浏览器的自动化过程 本篇 想法与实现 我想要将博客园“我的闪存”部分内容爬取备份到本地文件,用到了WebDriver和Phantomjs的无界面浏览器。

[本文出自天外归云的博客园]

前篇

用webdriver+phantomjs实现无浏览器的自动化过程

本篇

想法与实现

我想要将博客园“我的闪存”部分内容爬取备份到本地文件,用到了WebDriver和Phantomjs的无界面浏览器。对于xpath的获取与校验需要用到firefox浏览器,安装firebug和firepath插件。代码如下:

# -*- coding: utf-8 -*-
import os,time
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
import selenium.webdriver.support.ui as ui

def crawl_memeory(username,pwd):
    #Start login cnblogs.
    driver = webdriver.PhantomJS()
    driver.get("http://passport.cnblogs.com/user/signin?ReturnUrl=http%3A%2F%2Fwww.cnblogs.com%2F")
    wait = ui.WebDriverWait(driver, 10)
    wait.until(lambda dr: dr.find_element_by_id('signin').is_displayed())
    driver.find_element_by_id("input1").send_keys(username)
    driver.find_element_by_id("input2").send_keys(pwd)
    driver.find_element_by_id("signin").click()
    time.sleep(3)
    #Navigate to my memory.
    memory_url = "https://ing.cnblogs.com#my"
    driver.get(memory_url)
    wait.until(lambda dr: dr.find_element_by_id('feed_list').is_displayed())
    element = driver.find_element_by_xpath(".//*[@id='pager_bottom']/a[last()-1]")
    page_num = int(element.text)
    #For each page, crawl the memory.
    store_dir_path = os.path.join(os.path.abspath(os.path.dirname(__file__)),"cnblogs_memory")
    if os.path.exists(store_dir_path):
        pass
    else:
        os.mkdir(store_dir_path)
    #Set the html's local storage path.
    store_html_path = os.path.join(store_dir_path,"cnblogs_memory.txt")
    f = open(store_html_path,"w")
    f.close()
    memory_url = "https://ing.cnblogs.com#my/p"
    with open(store_html_path,"a") as file:
        file.write("<!DOCTYPE html><html><head><meta charset=\"utf-8\"><title>博客园我的闪存</title></head><body>")
    for i in range(page_num):
        wait.until(lambda dr: dr.find_element_by_id('feed_list').is_displayed())
        memory_contents = driver.find_elements_by_xpath(".//*[@id='feed_list']/ul/li")
        for memory_content in memory_contents:
            inner_content = memory_content.get_attribute("innerHTML")
            with open(store_html_path,"a+") as file:
                file.write(inner_content.encode("utf-8"))
        pic_name = "cnblogs_memory_"+str(i+1)+".jpg"
        store_pic_path = os.path.join(store_dir_path,pic_name)
        driver.save_screenshot(store_pic_path)
        last_page_button = driver.find_element_by_xpath(".//*[@id='pager_bottom']/a[last()]")
        if(last_page_button.text.startswith("Next")):
            last_page_button.click()
    driver.quit()
    with open(store_html_path,"a") as file:
        file.write("</body></html>")

if __name__ == '__main__':
    pwd = "密码"
    username = "用户名"
    crawl_memeory(username,pwd)

使用方法

保存以上代码到本地“cnblogs_memory_crawl.py”文件,替换用户名与密码。在命令行中用python运行。

运行效果

本地会在当前运行脚本路径下生成cnblogs_memory文件夹并在其下生成txt文件以及截图文件,截图文件保存了博客园中所有我的闪存页:

手动将txt文件后缀改为html打开,效果如下:

进一步优化

可以编写脚本对保存到本地的文件内容进行进一步删取,保留你想要的部分。

 
 
 
 
 
相关文章
|
4月前
|
数据采集 Python
爬虫实战-Python爬取百度当天热搜内容
爬虫实战-Python爬取百度当天热搜内容
154 0
|
4月前
|
数据采集 JSON 数据格式
python爬虫之app爬取-charles的使用
charles 基本原理,charles抓包,分析,重发。
161 0
|
28天前
|
数据采集 Python
如何用Python Selenium和WebDriver抓取LinkedIn数据并保存登录状态
本文介绍了使用Python Selenium和WebDriver库抓取LinkedIn数据的方法。首先,安装Selenium库和对应的WebDriver,然后配置爬虫代理IP以避免频繁请求被检测。接下来,设置user-agent和cookies以模拟真实用户行为,实现登录并保持状态。登录后,使用WebDriver抓取目标页面数据,如用户名、年龄、性别和简历信息。最后,强调了优化代码、处理异常和遵守使用条款的重要性,以提高效率并避免账号被封禁。
如何用Python Selenium和WebDriver抓取LinkedIn数据并保存登录状态
|
2月前
|
数据采集 Web App开发 存储
Python-数据爬取(爬虫)
【7月更文挑战第24天】
62 7
|
2月前
|
数据采集 机器学习/深度学习 算法
Python-数据爬取(爬虫)
【7月更文挑战第23天】
47 5
|
2月前
|
数据采集 存储 Web App开发
Python-数据爬取(爬虫)
【7月更文挑战第15天】
109 3
|
4月前
|
数据采集 测试技术 API
python爬虫之app爬取-微信朋友圈
搭建appium环境,appium基本使用,API操作等等
219 0
|
3月前
|
Web App开发 Python Windows
经验大分享:PYTHON爬取66影视的电影下载链接,有搜索功能
经验大分享:PYTHON爬取66影视的电影下载链接,有搜索功能
35 2
|
3月前
|
存储 XML 数据处理
Python网络实践:去哪儿旅游数据爬取指南
Python网络实践:去哪儿旅游数据爬取指南
|
3月前
|
数据采集 JSON 算法
使用Python爬取华为市场APP应用进行分析
这个网站也是作者最近接触到的一个APP应用市场类网站。讲实话,还是蛮适合新手朋友去动手学习的。毕竟爬虫领域要想进步,还是需要多实战、多分析!该网站中的一些小细节也是能够锻炼分析能力的,也有反爬虫处理。甚至是下载APP的话在Web端是无法拿到APK下载的直链,需要去APP端接口数据获取
下一篇
DDNS