《Python Cookbook(第2版)中文版》——1.25 将HTML文档转化为文本显示到UNIX终端上

简介:

本节书摘来自异步社区《Python Cookbook(第2版)中文版》一书中的第1章,第1.25节,作者[美]Alex Martelli , Anna Martelli Ravenscrof , David Ascher ,高铁军 译,更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.25 将HTML文档转化为文本显示到UNIX终端上

任务

需要将HTML文档中的文本展示在UNIX终端上,同时还要支持粗体和下划线的显示。

解决方案

最简单的方法是写一个过滤的脚本,从标准输入接收HTML,将输出文本和终端控制序列打印到标准的输出上。由于本节的问题只针对UNIX,我们可以借助Python标准库的os模块提供的popen函数,通过UNIX的命令tput获取所需的终端控制序列:

#!/usr/bin/env python
import sys, os, htmllib, formatter
# 使用UNIX的tput来获得粗体、下划线和重设的转义序列
set_bold = os.popen('tput bold').read( )
set_underline = os.popen('tput smul').read( )
perform_reset = os.popen('tput sgr0').read( )
class TtyFormatter(formatter.AbstractFormatter):
     ''' 一个保留粗体和斜体状态的格式化对象,并输出
           相应的终端控制序列
     '''
     def _ _init_ _(self, writer):
           # 首先,像往常一样,初始化超类
           formatter.AbstractFormatter._ _init_ _(self, writer)
           # 一开始既没有粗体也没有斜体状态,未保存任何信息
           self.fontState = False, False
           self.fontStack = [  ]
     def push_font(self, font):
           # font元组有4项,我们只看与粗体和斜体的状态
           # 有关的两个标志
           size, is_italic, is_bold, is_tt = font
           self.fontStack.append((is_italic, is_bold))
           self._updateFontState( )
     def pop_font(self, *args):
           # 回到前一个font状态
           try:
                self.fontStack.pop( )
           except IndexError:
                pass
           self._updateFontState( )
     def updateFontState(self):
           # 输出正确的终端控制序列,如果粗体和/或斜体(==underline)
           # 的状态被刚刚改变的话
           try:
                newState = self.fontStack[-1]
           except IndexError:
                newState = False, False
           if self.fontState != newState:
                # 相关的状态改变:重置终端
                print perform_reset,
                # 如果需要的话,设置下划线与/或粗体状态
                if newState[0]:
                      print set_underline,
                if newState[1]:
                      print set_bold,
                # 记住当前的两个状态
                self.fontState = newState
# 生成写入、格式化、解析对象,根据需要将它们连接起来
myWriter = formatter.DumbWriter( )
if sys.stdout.isatty( ):
       myFormatter = TtyFormatter(myWriter)
else:
       myFormatter = formatter.AbstractFormatter(myWriter)
myParser = htmllib.HTMLParser(myFormatter)
# 将标准输入和终端操作提供给解析器
myParser.feed(sys.stdin.read( ))
myParser.close( )

讨论

Python标准库提供的formatter.AbstractFormatter类,可以在任何场合工作。另一方面,它的子类TtyFormatter提供的一些改良,则主要是为了操纵和使用类UNIX(UNIX-like)终端,具体地说,也就是通过UNIX命令tput获取控制粗体和下划线的转义序列,并将终端重置为基本状态。

很多系统并没有通过UNIX认证,比如Linux和Mac OS X,但它们也提供了一个可用的tput命令,因此本节的TtyFormatter子类在这样的系统中仍然可以正常工作。或者这么说,可以用更宽泛的眼光来看待本节提及的“UNIX”,就好像我们在一些其他讨论中所用的“UNIX”概念:如果你愿意,可以认为它指的是“*ix”。

如果你的“终端”模拟器支持其他的一些控制输出表现的转义序列,也可以根据情况修改TtyFormatter类。比如,据说在Windows中,cmd.exe命令能够支持所有标准的ANSI转义序列,所以如果你只想在Windows上运行你的脚本,可以用硬编码的方式在类中写入那些序列。

很多时候,你可能会更喜欢用UNIX已经提供的命令,比如lynx -dump -,相比于本节方案中提供的方法,这些命令能够提供更丰富更具表现力的输出。但有时你会发现Python安装在一个不提供这种有用的命令(如lynx)的系统上,那么本节给出的方法就显得很方便和简洁了。

相关文章
|
6月前
|
XML 前端开发 C#
C#编程实践:解析HTML文档并执行元素匹配
通过上述步骤,可以在C#中有效地解析HTML文档并执行元素匹配。HtmlAgilityPack提供了一个强大而灵活的工具集,可以处理各种HTML解析任务。
323 19
|
10月前
|
存储 机器学习/深度学习 人工智能
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
本文探讨了多模态RAG系统的最优实现方案,通过模态特定处理与后期融合技术,在性能、准确性和复杂度间达成平衡。系统包含文档分割、内容提取、HTML转换、语义分块及向量化存储五大模块,有效保留结构和关系信息。相比传统方法,该方案显著提升了复杂查询的检索精度(+23%),并支持灵活升级。文章还介绍了查询处理机制与优势对比,为构建高效多模态RAG系统提供了实践指导。
2508 0
多模态RAG实战指南:完整Python代码实现AI同时理解图片、表格和文本
|
11月前
|
前端开发 JavaScript API
Webview+Python:用HTML打造跨平台桌面应用的创新方案
本文系统介绍了使用PyWebView库结合HTML/CSS/JavaScript开发跨平台桌面应用的方法。相比传统方案(如PyQt、Tkinter),PyWebView具备开发效率高、界面美观、资源占用低等优势。文章从技术原理、环境搭建、核心功能实现到性能优化与实战案例全面展开,涵盖窗口管理、双向通信、系统集成等功能,并通过“智能文件管理器”案例展示实际应用。适合希望快速构建跨平台桌面应用的Python开发者参考学习。
1417 1
|
11月前
|
API
Postman 可以将文档导出为 HTML/Markdown 吗?
Postman 没有提供直接将你的文档导出为 HTML 或 Markdown 的途径。太糟糕了
|
移动开发 前端开发 JavaScript
HTML(HyperText Markup Language,超文本标记语言)
HTML(HyperText Markup Language,超文本标记语言)
515 11
|
XML 数据采集 数据格式
Python 爬虫必备杀器,xpath 解析 HTML
【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言,通过路径表达式选取节点或节点集。它不仅适用于 XML,也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择,如 `//p` 选择所有段落标签,`//a[@href='example.com']` 选择特定链接。在 Python 中,常用 lxml 库结合 XPath 进行网页数据抓取,支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用,如 `contains()` 用于模糊匹配。
410 7
|
Java BI API
spring boot 整合 itextpdf 导出 PDF,写入大文本,写入HTML代码,分析当下导出PDF的几个工具
这篇文章介绍了如何在Spring Boot项目中整合iTextPDF库来导出PDF文件,包括写入大文本和HTML代码,并分析了几种常用的Java PDF导出工具。
4077 0
spring boot 整合 itextpdf 导出 PDF,写入大文本,写入HTML代码,分析当下导出PDF的几个工具
|
存储 移动开发 前端开发
高效的 HTML 与 CSS 编写技巧,涵盖语义化标签、文档结构优化、CSS 预处理、模块化设计、选择器优化、CSS 变量、媒体查询等内容
本文深入探讨了高效的 HTML 与 CSS 编写技巧,涵盖语义化标签、文档结构优化、CSS 预处理、模块化设计、选择器优化、CSS 变量、媒体查询等内容,旨在提升开发效率、网站性能和用户体验。
405 5
|
机器学习/深度学习 自然语言处理 API
如何使用阿里云的语音合成服务(TTS)将文本转换为语音?本文详细介绍了从注册账号、获取密钥到编写Python代码调用TTS服务的全过程
如何使用阿里云的语音合成服务(TTS)将文本转换为语音?本文详细介绍了从注册账号、获取密钥到编写Python代码调用TTS服务的全过程。通过简单的代码示例,展示如何将文本转换为自然流畅的语音,适用于有声阅读、智能客服等场景。
4839 3

推荐镜像

更多