Python爬取廖雪峰教程存为PDF

本文涉及的产品
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
简介:

首先感谢廖老师给我们大家提供的那么好的教程,相信大部分童鞋都看过廖老师的python教程,我也是从这个教程入了门。后来又开始接着学JavaScript,不过每次都要用浏览器上网浏览太麻烦,所以就用爬虫爬下来保存为PDF格式。不过缺点就是没有目录废话不多说上代码。


# coding=utf-8
import os
import time
import re
import requests
import pdfkit
from bs4 import BeautifulSoup
from PyPDF2 import PdfFileMerger,PdfFileReader, PdfFileWriter
import sys #test12 html_template = """ <!DOCTYPE html>
<body>
<html lang="en"> <head> <meta charset="UTF-8"> </head> {content}
path_wk = r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe' #安装位置
</body> </html> """ config = pdfkit.configuration(wkhtmltopdf = path_wk)
def parse_url_to_html(url, name):
#---------------------------------------------------------------------- """ 解析URL,返回HTML内容 :param url:解析的url :param name: 保存的html文件名
body = soup.find_all(class_="x-wiki-content")[0]
:return: html """ try: response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') # 正文 # 标题
center_tag.insert(1, title_tag)
title = soup.find('h4').get_text() # 标题加入到正文的最前面,居中显示 center_tag = soup.new_tag("center") title_tag = soup.new_tag('h1') title_tag.string = title
if not m.group(3).startswith("http"):
body.insert(1, center_tag) html = str(body) # body中的img标签的src相对路径的改成绝对路径 pattern = "(<img .*?src=\")(.*?)(\")" def func(m):
html = html_template.format(content=html)
rtn = m.group(1) + "http://www.liaoxuefeng.com" + m.group(2) + m.group(3) return rtn else: return m.group(1)+m.group(2)+m.group(3) html = re.compile(pattern).sub(func, html)
def get_url_list():
html = html.encode("utf-8") with open(name, 'wb') as f: f.write(html) return name except Exception as e: print ("解析错误!") #---------------------------------------------------------------------- """
menu_tag = soup.find_all(class_="uk-nav uk-nav-side")[1]
获取所有URL目录列表 :return: """ response = requests.get("http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000") soup = BeautifulSoup(response.content, "html.parser") urls = []
def save_pdf(htmls, file_name):
for li in menu_tag.find_all("div"): url = "http://www.liaoxuefeng.com" + li.a.get('href') urls.append(url) return urls #---------------------------------------------------------------------- """ 把所有html文件保存到pdf文件
'custom-header': [
:param htmls: html文件列表 :param file_name: pdf文件名 :return: """ options = { 'page-size': 'Letter', 'margin-top': '0.75in', 'margin-right': '0.75in', 'margin-bottom': '0.75in', 'margin-left': '0.75in', 'encoding': "UTF-8",
#----------------------------------------------------------------------
('Accept-Encoding', 'gzip') ], 'cookie': [ ('cookie-name1', 'cookie-value1'), ('cookie-name2', 'cookie-value2'), ], 'outline-depth': 10, } pdfkit.from_file(htmls, file_name, options=options,configuration=config) def main(): start = time.time()
pdfs.append(file_name+str(i)+'.pdf')
file_name = u"liaoxuefeng_Python3_tutorial" urls = get_url_list() for index, url in enumerate(urls): parse_url_to_html(url, str(index) + ".html") htmls =[] pdfs =[] print(len(urls)) for i in range(len(urls)): htmls.append(str(i)+'.html') save_pdf(str(i)+'.html', file_name+str(i)+'.pdf')
output = open(u"廖雪峰Python_all.pdf", "wb")
print (u"转换完成第"+str(i)+'个html') print(pdfs) pdf_output = PdfFileWriter() for pdf in pdfs: pdf_input = PdfFileReader(open(pdf,'rb')) page_count = pdf_input.getNumPages() print(page_count) for i in range(page_count): pdf_output.addPage(pdf_input.getPage(i)) pdf_output.write(output) print (u"输出PDF成功!")
if not os.path.exists(dir_name):
for html in htmls: os.remove(html) print (u"删除临时文件"+html) for pdf in pdfs: os.remove(pdf) print (u"删除临时文件"+pdf) total_time = time.time() - start print(u"总共耗时:%f 秒" % total_time) #---------------------------------------------------------------------- def changeDir(dir_name): """ 目录切换 """ os.mkdir(dir_name)
main()
os.chdir(dir_name) #---------------------------------------------------------------------- if __name__ == '__main__': #存放文件的路径 dir_name = 'c:\\12'
changeDir(dir_name)

代码很简单,就是获取所有博客左侧导航栏对应的所有URL,然后将每个url解析出来保存成html,再将每个html保存成单个pdf文件,最后合并pdf文件。需要注意的是windwos 下需要安装wkhtmltopdf.exe 这个软件,并在python代码里指明这个程序的路径。不然合并时会报错。

下载html保存成pdf

de3dc9e87d60e4694b1a3fbfb12e85bd30e5e2a1

将单个html解析成单个pdf文件

合并成pdf

7df74128abd393796ba9f53f2bd322fa34ae1d9f

最后合并的文件

内容:

e202e2e588eeef7a36bc02ef11f03beff9fd1f70

最后的pdf文件

最新更新:按照这个代码目前无法抓取,因为廖老师把网站改成https了。对应代码要做修改。

而且Requests 请求里需要加入User-agent模拟浏览器请求,就可以了。


原文发布时间为:2018-11-25

本文作者:欧巴

本文来自云栖社区合作伙伴“Python爱好者社区”,了解相关信息可以关注“Python爱好者社区”。

相关文章
|
20天前
|
数据采集 存储 搜索推荐
打造个性化网页爬虫:从零开始的Python教程
【8月更文挑战第31天】在数字信息的海洋中,网页爬虫是一艘能够自动搜集网络数据的神奇船只。本文将引导你启航,用Python语言建造属于你自己的网页爬虫。我们将一起探索如何从无到有,一步步构建一个能够抓取、解析并存储网页数据的基础爬虫。文章不仅分享代码,更带你理解背后的逻辑,让你能在遇到问题时自行找到解决方案。无论你是编程新手还是有一定基础的开发者,这篇文章都会为你打开一扇通往数据世界的新窗。
|
3天前
|
Python
全网最适合入门的面向对象编程教程:Python函数方法与接口-函数与方法的区别和lamda匿名函数
【9月更文挑战第15天】在 Python 中,函数与方法有所区别:函数是独立的代码块,可通过函数名直接调用,不依赖特定类或对象;方法则是与类或对象关联的函数,通常在类内部定义并通过对象调用。Lambda 函数是一种简洁的匿名函数定义方式,常用于简单的操作或作为其他函数的参数。根据需求,可选择使用函数、方法或 lambda 函数来实现代码逻辑。
|
15天前
|
缓存 测试技术 Apache
告别卡顿!Python性能测试实战教程,JMeter&Locust带你秒懂性能优化💡
【9月更文挑战第5天】性能测试是确保应用在高负载下稳定运行的关键。本文介绍Apache JMeter和Locust两款常用性能测试工具,帮助识别并解决性能瓶颈。JMeter适用于测试静态和动态资源,而Locust则通过Python脚本模拟HTTP请求。文章详细讲解了安装、配置及使用方法,并提供了实战案例,帮助你掌握性能测试技巧,提升应用性能。通过分析测试结果、模拟并发、检查资源使用情况及代码优化,确保应用在高并发环境下表现优异。
42 5
|
22天前
|
XML JSON 数据安全/隐私保护
PyMuPDF,Python处理PDF的宝藏库
PyMuPDF,Python处理PDF的宝藏库
|
23天前
|
数据安全/隐私保护 Python Windows
三种方法,Python轻松提取PDF中全部图片
三种方法,Python轻松提取PDF中全部图片
|
22天前
|
Python
Python也可以合并和拆分PDF,批量高效!
Python也可以合并和拆分PDF,批量高效!
|
22天前
|
Unix Python
python 的标准库模块glob使用教程,主要为glob.glob()使用与glob.iglob()使用
python 的标准库模块glob使用教程,主要为glob.glob()使用与glob.iglob()使用
11 0
|
23天前
|
SQL Shell API
python Django教程 之 模型(数据库)、自定义Field、数据表更改、QuerySet API
python Django教程 之 模型(数据库)、自定义Field、数据表更改、QuerySet API
|
1月前
|
XML 缓存 JSON
为什么浏览器中有些图片、PDF等文件点击后有些是预览,有些是下载
为什么浏览器中有些图片、PDF等文件点击后有些是预览,有些是下载
120 0
|
1月前
|
Linux Python Windows
Python PDF文件转Word格式,只需要3秒(附打包)
Python PDF文件转Word格式,只需要3秒(附打包)
54 3
Python PDF文件转Word格式,只需要3秒(附打包)