Python爬取廖雪峰教程存为PDF

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
云解析 DNS,旗舰版 1个月
简介:

首先感谢廖老师给我们大家提供的那么好的教程,相信大部分童鞋都看过廖老师的python教程,我也是从这个教程入了门。后来又开始接着学JavaScript,不过每次都要用浏览器上网浏览太麻烦,所以就用爬虫爬下来保存为PDF格式。不过缺点就是没有目录废话不多说上代码。


# coding=utf-8
import os
import time
import re
import requests
import pdfkit
from bs4 import BeautifulSoup
from PyPDF2 import PdfFileMerger,PdfFileReader, PdfFileWriter
import sys #test12 html_template = """ <!DOCTYPE html>
<body>
<html lang="en"> <head> <meta charset="UTF-8"> </head> {content}
path_wk = r'C:\Program Files\wkhtmltopdf\bin\wkhtmltopdf.exe' #安装位置
</body> </html> """ config = pdfkit.configuration(wkhtmltopdf = path_wk)
def parse_url_to_html(url, name):
#---------------------------------------------------------------------- """ 解析URL,返回HTML内容 :param url:解析的url :param name: 保存的html文件名
body = soup.find_all(class_="x-wiki-content")[0]
:return: html """ try: response = requests.get(url) soup = BeautifulSoup(response.content, 'html.parser') # 正文 # 标题
center_tag.insert(1, title_tag)
title = soup.find('h4').get_text() # 标题加入到正文的最前面,居中显示 center_tag = soup.new_tag("center") title_tag = soup.new_tag('h1') title_tag.string = title
if not m.group(3).startswith("http"):
body.insert(1, center_tag) html = str(body) # body中的img标签的src相对路径的改成绝对路径 pattern = "(<img .*?src=\")(.*?)(\")" def func(m):
html = html_template.format(content=html)
rtn = m.group(1) + "http://www.liaoxuefeng.com" + m.group(2) + m.group(3) return rtn else: return m.group(1)+m.group(2)+m.group(3) html = re.compile(pattern).sub(func, html)
def get_url_list():
html = html.encode("utf-8") with open(name, 'wb') as f: f.write(html) return name except Exception as e: print ("解析错误!") #---------------------------------------------------------------------- """
menu_tag = soup.find_all(class_="uk-nav uk-nav-side")[1]
获取所有URL目录列表 :return: """ response = requests.get("http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000") soup = BeautifulSoup(response.content, "html.parser") urls = []
def save_pdf(htmls, file_name):
for li in menu_tag.find_all("div"): url = "http://www.liaoxuefeng.com" + li.a.get('href') urls.append(url) return urls #---------------------------------------------------------------------- """ 把所有html文件保存到pdf文件
'custom-header': [
:param htmls: html文件列表 :param file_name: pdf文件名 :return: """ options = { 'page-size': 'Letter', 'margin-top': '0.75in', 'margin-right': '0.75in', 'margin-bottom': '0.75in', 'margin-left': '0.75in', 'encoding': "UTF-8",
#----------------------------------------------------------------------
('Accept-Encoding', 'gzip') ], 'cookie': [ ('cookie-name1', 'cookie-value1'), ('cookie-name2', 'cookie-value2'), ], 'outline-depth': 10, } pdfkit.from_file(htmls, file_name, options=options,configuration=config) def main(): start = time.time()
pdfs.append(file_name+str(i)+'.pdf')
file_name = u"liaoxuefeng_Python3_tutorial" urls = get_url_list() for index, url in enumerate(urls): parse_url_to_html(url, str(index) + ".html") htmls =[] pdfs =[] print(len(urls)) for i in range(len(urls)): htmls.append(str(i)+'.html') save_pdf(str(i)+'.html', file_name+str(i)+'.pdf')
output = open(u"廖雪峰Python_all.pdf", "wb")
print (u"转换完成第"+str(i)+'个html') print(pdfs) pdf_output = PdfFileWriter() for pdf in pdfs: pdf_input = PdfFileReader(open(pdf,'rb')) page_count = pdf_input.getNumPages() print(page_count) for i in range(page_count): pdf_output.addPage(pdf_input.getPage(i)) pdf_output.write(output) print (u"输出PDF成功!")
if not os.path.exists(dir_name):
for html in htmls: os.remove(html) print (u"删除临时文件"+html) for pdf in pdfs: os.remove(pdf) print (u"删除临时文件"+pdf) total_time = time.time() - start print(u"总共耗时:%f 秒" % total_time) #---------------------------------------------------------------------- def changeDir(dir_name): """ 目录切换 """ os.mkdir(dir_name)
main()
os.chdir(dir_name) #---------------------------------------------------------------------- if __name__ == '__main__': #存放文件的路径 dir_name = 'c:\\12'
changeDir(dir_name)

代码很简单,就是获取所有博客左侧导航栏对应的所有URL,然后将每个url解析出来保存成html,再将每个html保存成单个pdf文件,最后合并pdf文件。需要注意的是windwos 下需要安装wkhtmltopdf.exe 这个软件,并在python代码里指明这个程序的路径。不然合并时会报错。

下载html保存成pdf

de3dc9e87d60e4694b1a3fbfb12e85bd30e5e2a1

将单个html解析成单个pdf文件

合并成pdf

7df74128abd393796ba9f53f2bd322fa34ae1d9f

最后合并的文件

内容:

e202e2e588eeef7a36bc02ef11f03beff9fd1f70

最后的pdf文件

最新更新:按照这个代码目前无法抓取,因为廖老师把网站改成https了。对应代码要做修改。

而且Requests 请求里需要加入User-agent模拟浏览器请求,就可以了。


原文发布时间为:2018-11-25

本文作者:欧巴

本文来自云栖社区合作伙伴“Python爱好者社区”,了解相关信息可以关注“Python爱好者社区”。

相关文章
|
19天前
|
数据可视化 DataX Python
Seaborn 教程-绘图函数
Seaborn 教程-绘图函数
46 8
|
19天前
Seaborn 教程-主题(Theme)
Seaborn 教程-主题(Theme)
57 7
|
19天前
|
Python
Seaborn 教程-模板(Context)
Seaborn 教程-模板(Context)
47 4
|
19天前
|
数据可视化 Python
Seaborn 教程
Seaborn 教程
41 5
|
2月前
|
Python
SciPy 教程 之 Scipy 显著性检验 9
SciPy 教程之 Scipy 显著性检验第9部分,介绍了显著性检验的基本概念、作用及原理,通过样本信息判断假设是否成立。着重讲解了使用scipy.stats模块进行显著性检验的方法,包括正态性检验中的偏度和峰度计算,以及如何利用normaltest()函数评估数据是否符合正态分布。示例代码展示了如何计算一组随机数的偏度和峰度。
31 1
|
2月前
|
BI Python
SciPy 教程 之 Scipy 显著性检验 8
本教程介绍SciPy中显著性检验的应用,包括如何利用scipy.stats模块进行显著性检验,以判断样本与总体假设间的差异是否显著。通过示例代码展示了如何使用describe()函数获取数组的统计描述信息,如观测次数、最小最大值、均值、方差等。
30 1
|
2月前
|
Python
SciPy 教程 之 Scipy 显著性检验 6
显著性检验是统计学中用于判断样本与总体假设间是否存在显著差异的方法。SciPy的scipy.stats模块提供了执行显著性检验的工具,如T检验,用于比较两组数据的均值是否来自同一分布。通过ttest_ind()函数,可以获取两样本的t统计量和p值,进而判断差异是否显著。示例代码展示了如何使用该函数进行T检验并输出结果。
31 1
|
28天前
|
人工智能 数据可视化 数据挖掘
探索Python编程:从基础到高级
在这篇文章中,我们将一起深入探索Python编程的世界。无论你是初学者还是有经验的程序员,都可以从中获得新的知识和技能。我们将从Python的基础语法开始,然后逐步过渡到更复杂的主题,如面向对象编程、异常处理和模块使用。最后,我们将通过一些实际的代码示例,来展示如何应用这些知识解决实际问题。让我们一起开启Python编程的旅程吧!
|
27天前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。
|
16天前
|
Unix Linux 程序员
[oeasy]python053_学编程为什么从hello_world_开始
视频介绍了“Hello World”程序的由来及其在编程中的重要性。从贝尔实验室诞生的Unix系统和C语言说起,讲述了“Hello World”作为经典示例的起源和流传过程。文章还探讨了C语言对其他编程语言的影响,以及它在系统编程中的地位。最后总结了“Hello World”、print、小括号和双引号等编程概念的来源。
102 80