本文主要介绍将word文档转换为纯文本,适用于AIGC文本识别功能的整合。
一、设计思路
- 使用
mammoth
实现Word文档转HTML内容 - 使用
html-to-text
实现HTML内容转换为纯文本 - 文本按需格式化处理,文本输出
二、核心代码
const mammoth = require("mammoth");
const fs = require("fs");
const path = require("path");
const { convert } = require("html-to-text");
// 替换为你的Word文档的路径
const docxPath = path.join(__dirname, "example.docx");
mammoth
.convertToHtml({
path: docxPath,
})
.then(function (result) {
// result.value 是转换后的HTML内容
// result.messages 是转换过程中的警告和错误信息
// 使用html-to-text将HTML内容转换为纯文本
const options = {
wordwrap: 130,
hideLinkHrefIfSameAsText: true,
// ...
};
const html = result.value;
let plaintext = convert(html, options);
plaintext = plaintext.replace(/\n\n/g,'\n'); // 省流
// 输出纯文本内容
console.log(JSON.stringify(plaintext));
console.log('---------------------'+plaintext.length+'------------------------')
})
.catch(function (error) {
// 处理可能发生的错误
console.error("转换过程中发生错误:", error);
});