用 Python 抓取公号文章保存成 HTML

简介: 用 Python 抓取公号文章保存成 HTML

上次为大家介绍了如果用 Python 抓取公号文章并保存成 PDF 文件存储到本地。但用这种方式下载的 PDF 只有文字没有图片,所以只适用于没有图片或图片不重要的公众号,那如果我想要图片和文字下载下来怎么办?今天就给大家介绍另一种方案——HTML。


需解决的问题



其实我们要解决的有两个问题:


  1. 公众号里的图片没有保存到 PDF 文件里。
  2. 公众号里的一些代码片段,尤其那些单行代码比较长的,保存成 PDF 会出现代码不全的问题。
  3. PDF 会自动分页,如果是代码或图片就会出现一些问题。


image.png


综上问题,我觉得还是把公众号下载成网页 HTML 格式最好看,下面就介绍下如何实现。


功能实现


获取文章链接的方式,和上一篇下载成 PDF 的文章一样,依然是通过公众号平台的图文素材里超链接查询实现,在这里我们直接拿来上一期的代码,进行修改即可。首先将原来文件 gzh_download.py 复制成 gzh_download_html.py,然后在此基础进行代码改造:


# gzh_download_html.py# 引入模块import requestsimport jsonimport reimport timefrom bs4 import BeautifulSoupimport os
# 打开 cookie.txtwith open("cookie.txt", "r") as file:    cookie = file.read()cookies = json.loads(cookie)url = "https://mp.weixin.qq.com"#请求公号平台response = requests.get(url, cookies=cookies)# 从url中获取tokentoken = re.findall(r'token=(\d+)', str(response.url))[0]# 设置请求访问头信息headers = {    "Referer": "https://mp.weixin.qq.com/cgi-bin/appmsg?t=media/appmsg_edit_v2&action=edit&isNew=1&type=10&token=" + token + "&lang=zh_CN",    "Host": "mp.weixin.qq.com",    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36",}
# 循环遍历前10页的文章for j in range(1, 10, 1):    begin = (j-1)*5    # 请求当前页获取文章列表    requestUrl = "https://mp.weixin.qq.com/cgi-bin/appmsg?action=list_ex&begin="+str(begin)+"&count=5&fakeid=MzU1NDk2MzQyNg==&type=9&query=&token=" + token + "&lang=zh_CN&f=json&ajax=1"    search_response = requests.get(requestUrl, cookies=cookies, headers=headers)    # 获取到返回列表 Json 信息    re_text = search_response.json()    list = re_text.get("app_msg_list")    # 遍历当前页的文章列表    for i in list:        # 目录名为标题名,目录下存放 html 和图片        dir_name = i["title"].replace(' ','')        print("正在下载文章:" + dir_name)        # 请求文章的 url ,获取文章内容        response = requests.get(i["link"], cookies=cookies, headers=headers)        # 保存文章到本地        save(response, dir_name, i["aid"])        print(dir_name + "下载完成!")    # 过快请求可能会被微信问候,这里进行10秒等待    time.sleep(10)


好了,从上面代码可以看出,主要就是将原来的方法 pdfkit.from_url(i["link"], i["title"] + ".pdf") 改成了现在的方式,需要用 requests 请求下文章的 URL ,然后再调用保存文章页面和图片到本地的方法,这里的 save() 方法通过以下代码实现。


调用保存方法



#保存下载的 html 页面和图片def save(search_response,html_dir,file_name):    # 保存 html 的位置    htmlDir = os.path.join(os.path.dirname(os.path.abspath(__file__)), html_dir)    # 保存图片的位置    targetDir = os.path.join(os.path.dirname(os.path.abspath(__file__)),html_dir + '/images')    # 不存在创建文件夹    if not os.path.isdir(targetDir):        os.makedirs(targetDir)    domain = 'https://mp.weixin.qq.com/s'    # 调用保存 html 方法    save_html(search_response, htmlDir, file_name)    # 调用保存图片方法    save_file_to_local(htmlDir, targetDir, search_response, domain)
# 保存图片到本地def save_file_to_local(htmlDir,targetDir,search_response,domain):    # 使用lxml解析请求返回的页面    obj = BeautifulSoup(save_html(search_response,htmlDir,file_name).content, 'lxml')      # 找到有 img 标签的内容    imgs = obj.find_all('img')    # 将页面上图片的链接加入list    urls = []    for img in imgs:        if 'data-src' in str(img):            urls.append(img['data-src'])        elif 'src=""' in str(img):            pass        elif "src" not in str(img):            pass        else:            urls.append(img['src'])
    # 遍历所有图片链接,将图片保存到本地指定文件夹,图片名字用0,1,2...    i = 0    for each_url in urls:        # 跟据文章的图片格式进行处理        if each_url.startswith('//'):            new_url = 'https:' + each_url            r_pic = requests.get(new_url)        elif each_url.startswith('/') and each_url.endswith('gif'):            new_url = domain + each_url            r_pic = requests.get(new_url)        elif each_url.endswith('png') or each_url.endswith('jpg') or each_url.endswith('gif') or each_url.endswith('jpeg'):            r_pic = requests.get(each_url)        # 创建指定目录        t = os.path.join(targetDir, str(i) + '.jpeg')        print('该文章共需处理' + str(len(urls)) + '张图片,正在处理第' + str(i + 1) + '张……')        # 指定绝对路径        fw = open(t, 'wb')        # 保存图片到本地指定目录        fw.write(r_pic.content)        i += 1        # 将旧的链接或相对链接修改为直接访问本地图片        update_file(each_url, t, htmlDir)        fw.close()
    # 保存 HTML 到本地    def save_html(url_content,htmlDir,file_name):        f = open(htmlDir+"/"+file_name+'.html', 'wb')        # 写入文件        f.write(url_content.content)        f.close()        return url_content
    # 修改 HTML 文件,将图片的路径改为本地的路径    def update_file(old, new,htmlDir):         # 打开两个文件,原始文件用来读,另一个文件将修改的内容写入        with open(htmlDir+"/"+file_name+'.html', encoding='utf-8') as f, open(htmlDir+"/"+file_name+'_bak.html', 'w', encoding='utf-8') as fw:            # 遍历每行,用replace()方法替换路径            for line in f:                new_line = line.replace(old, new)                new_line = new_line.replace("data-src", "src")                 # 写入新文件                fw.write(new_line)        # 执行完,删除原始文件        os.remove(htmlDir+"/"+file_name+'.html')        time.sleep(5)        # 修改新文件名为 html        os.rename(htmlDir+"/"+file_name+'_bak.html', htmlDir+"/"+file_name+'.html')


好了,上面就是将文章页面和图片下载到本地的代码,接下来我们运行命令 python gzh_download_html.py ,程序开始执行,打印日志如下:


$ python gzh_download_html.py正在下载文章:学习Python看这一篇就够了!该文章共需处理3张图片,正在处理第1张……该文章共需处理3张图片,正在处理第2张……该文章共需处理3张图片,正在处理第3张……学习Python看这一篇就够了!下载完成!正在下载文章:PythonFlask数据可视化该文章共需处理2张图片,正在处理第1张……该文章共需处理2张图片,正在处理第2张……PythonFlask数据可视化下载完成!正在下载文章:教你用Python下载手机小视频该文章共需处理11张图片,正在处理第1张……该文章共需处理11张图片,正在处理第2张……该文章共需处理11张图片,正在处理第3张……该文章共需处理11张图片,正在处理第4张……该文章共需处理11张图片,正在处理第5张……该文章共需处理11张图片,正在处理第6张……该文章共需处理11张图片,正在处理第7张……


现在我们去程序存放的目录,就能看到以下都是以文章名称命名的文件夹:


image.png


总结


本文为大家介绍了如何通过 Python 将公号文章批量下载到本地,并保存为 HTML 和图片,这样就能实现文章的离线浏览了。当然如果你想将 HTML 转成 PDF 也很简单,直接用 pdfkit.from_file(xx.html,target.pdf) 方法直接将网页转成 PDF,而且这样转成的 PDF 也是带图片的。

目录
相关文章
|
1月前
|
JSON Linux 数据格式
Python模块:从入门到精通,只需一篇文章!
Python中的模块是将相关代码组织在一起的单元,便于重用和维护。模块可以是Python文件或C/C++扩展,Python标准库中包含大量模块,如os、sys、time等,用于执行各种任务。定义模块只需创建.py文件并编写代码,导入模块使用import语句。此外,Python还支持自定义模块和包,以及虚拟环境来管理项目依赖。
Python模块:从入门到精通,只需一篇文章!
|
20天前
|
XML 数据采集 数据格式
Python 爬虫必备杀器,xpath 解析 HTML
【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言,通过路径表达式选取节点或节点集。它不仅适用于 XML,也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择,如 `//p` 选择所有段落标签,`//a[@href='example.com']` 选择特定链接。在 Python 中,常用 lxml 库结合 XPath 进行网页数据抓取,支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用,如 `contains()` 用于模糊匹配。
|
1月前
|
测试技术 开发者 Python
对于Python中的异常要如何处理,raise关键字你真的了解吗?一篇文章带你从头了解
`raise`关键字在Python中用于显式引发异常,允许开发者在检测到错误条件时中断程序流程,并通过异常处理机制(如try-except块)接管控制。`raise`后可跟异常类型、异常对象及错误信息,适用于验证输入、处理错误、自定义异常、重新引发异常及测试等场景。例如,`raise ValueError("Invalid input")`用于验证输入数据,若不符合预期则引发异常,确保数据准确并提供清晰错误信息。此外,通过自定义异常类,可以针对特定错误情况提供更具体的信息,增强代码的健壮性和可维护性。
|
2月前
|
数据采集 JSON 数据处理
抓取和分析JSON数据:使用Python构建数据处理管道
在大数据时代,电商网站如亚马逊、京东等成为数据采集的重要来源。本文介绍如何使用Python结合代理IP、多线程等技术,高效、隐秘地抓取并处理电商网站的JSON数据。通过爬虫代理服务,模拟真实用户行为,提升抓取效率和稳定性。示例代码展示了如何抓取亚马逊商品信息并进行解析。
抓取和分析JSON数据:使用Python构建数据处理管道
|
15天前
|
机器学习/深度学习 前端开发 数据处理
利用Python将Excel快速转换成HTML
本文介绍如何使用Python将Excel文件快速转换成HTML格式,以便在网页上展示或进行进一步的数据处理。通过pandas库,你可以轻松读取Excel文件并将其转换为HTML表格,最后保存为HTML文件。文中提供了详细的代码示例和注意事项,帮助你顺利完成这一任务。
27 0
|
2月前
|
数据采集 Python
python爬虫抓取91处理网
本人是个爬虫小萌新,看了网上教程学着做爬虫爬取91处理网www.91chuli.com,如果有什么问题请大佬们反馈,谢谢。
32 4
|
2月前
|
数据采集 Java Python
如何用Python同时抓取多个网页:深入ThreadPoolExecutor
在信息化时代,实时数据的获取对体育赛事爱好者、数据分析师和投注行业至关重要。本文介绍了如何使用Python的`ThreadPoolExecutor`结合代理IP和请求头设置,高效稳定地抓取五大足球联赛的实时比赛信息。通过多线程并发处理,解决了抓取效率低、请求限制等问题,提供了详细的代码示例和解析方法。
如何用Python同时抓取多个网页:深入ThreadPoolExecutor
|
2月前
|
XML 前端开发 数据格式
Beautiful Soup 解析html | python小知识
在数据驱动的时代,网页数据是非常宝贵的资源。很多时候我们需要从网页上提取数据,进行分析和处理。Beautiful Soup 是一个非常流行的 Python 库,可以帮助我们轻松地解析和提取网页中的数据。本文将详细介绍 Beautiful Soup 的基础知识和常用操作,帮助初学者快速入门和精通这一强大的工具。【10月更文挑战第11天】
68 2
|
2月前
|
编解码 UED Python
Python批量修改指定目录下图片的大小名文章
Python批量修改指定目录下图片的大小名文章
20 1
|
3月前
|
存储 Go C语言
Python 的整数是怎么实现的?这篇文章告诉你答案
Python 的整数是怎么实现的?这篇文章告诉你答案
66 7
下一篇
DataWorks