文件格式转换工具-Pandoc

简介: Pandoc是由John MacFarlane开发的标记语言转换工具,可实现不同标记语言间的格式转换,堪称该领域中的“瑞士军刀”。Pandoc使用Haskell语言编写,以命令行形式实现与用户的交互,可支持多种操作系统。

Pandoc是由John MacFarlane开发的标记语言转换工具,可实现不同标记语言间的格式转换,堪称该领域中的“瑞士军刀”。
Pandoc使用Haskell语言编写,以命令行形式实现与用户的交互,可支持多种操作系统。

通俗来说,pandoc是一个实现文件格式转换的工具,比如可以把html文件转换为txt文件,markdown文件,或各种pandoc支持的文件类型。pandoc支持的文件类型非常的多,常见的类型肯定是包含进去的,可以看下图。

img_3aaf57e53f64bda545c24b592aaf6bf9.png
pandoc格式转换映射图

安装

brew install pandoc
  • Linux上在主流的发行版本上,可以直接使用包管理器安装。也可以下载二进制版本。下载地址,在Centos上可直接安装。
yum install pandoc

案例

  1. 查看pandoc支持的格式
pandoc -h  #help的开头部分, linux
# mac版本
pandoc  --list-input-formats
pandoc  --list-output-formats
  1. 转换为html片段
pandoc demo.txt -o demo.html
img_f8f9614194e110dc759994703239172c.png
pandoc demo
  1. 转换为完整的html文件,同时追加头部与样式
pandoc -s --toc -c demo.css -A footer.html demo.txt -o demo.html
img_e61b465a46ae8c68b8e61e63442cf600.png
image.png
  1. 使用pandoc创建电子书
    链接
pandoc -o progit.epub title.txt \
  01-introduction/01-chapter1.markdown \
  02-git-basics/01-chapter2.markdown \
  03-git-branching/01-chapter3.markdown \
  04-git-server/01-chapter4.markdown \
  05-distributed-git/01-chapter5.markdown \
  06-git-tools/01-chapter6.markdown \
  07-customizing-git/01-chapter7.markdown \
  08-git-and-other-scms/01-chapter8.markdown \
  09-git-internals/01-chapter9.markdown

  1. html文件转换为markdown文件
pandoc -s  demo.html -t markdown
img_402e15f64d1cd274e04c31b5020bc873.png
image.png

额外

pandoc还提供了一些常用的轻量级编辑器的扩展,sublime-pandoc,atom-pandoc等等。

最后

pandoc可以解决平时我们在文件格式上处理的问题,它还提供了一个在线的转换demo。

尝试在线pandoc转换

参考

相关文章
|
8月前
|
数据挖掘 数据安全/隐私保护 开发者
使用Spire.PDF for Python插件从PDF文件提取文字和图片信息
使用Spire.PDF for Python插件从PDF文件提取文字和图片信息
853 0
|
1月前
|
人工智能 文字识别 数据挖掘
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
MarkItDown 是微软开源的多功能文档转换工具,支持将 PDF、PPT、Word、Excel、图像、音频等多种格式的文件转换为 Markdown 格式,具备 OCR 文字识别、语音转文字和元数据提取等功能。
218 9
MarkItDown:微软开源的多格式转Markdown工具,支持将PDF、Word、图像和音频等文件转换为Markdown格式
|
3月前
|
存储 安全 网络安全
Python编程--使用PyPDF解析PDF文件中的元数据
Python编程--使用PyPDF解析PDF文件中的元数据
83 1
|
8月前
|
存储 数据处理 数据格式
Python提取文本文件(.txt)数据的方法
该文介绍了如何使用Python遍历含有多個`.txt`文本文件的文件夹,找出文件名包含`Point`的文件,并从中提取特定波长数据。目标是收集所有相关文件中指定波长对应的后5列数据,同时保留文件名。代码示例展示了如何使用`os`和`pandas`库实现这一功能,最终将所有数据整合到一个DataFrame对象中。
|
5月前
|
Linux Python Windows
Python PDF文件转Word格式,只需要3秒(附打包)
Python PDF文件转Word格式,只需要3秒(附打包)
117 3
Python PDF文件转Word格式,只需要3秒(附打包)
|
5月前
Pandoc——使用ZIP方式安装
Pandoc——使用ZIP方式安装
90 0
|
编解码 Linux vr&ar
如何使用ffmpeg将.m4a 格式转换为 pcma格式
ffmpeg是一款开源的万能媒体格式转换工具。它包含了非常先进的音频/视频编解码库libavcodec,为了保证高可移植性和编解码质量,libavcodec里很多code都是从头开发的
|
Linux iOS开发 MacOS
一步搞定enex格式文件转换成markdown格式文件(印象笔记)
一步搞定enex格式文件转换成markdown格式文件(印象笔记)
232 0
|
Python
python文件过滤,pdf转swf
python文件过滤,pdf转swf
120 0
小工具随手记:使用Python的docx库将.docx文件中的图片提取并保存为.jpeg
小工具随手记:使用Python的docx库将.docx文件中的图片提取并保存为.jpeg