通过nodejs来读取pptx内的图片

简介: 为什么要读取图片呢?需求来源于这里。我有一大堆的ppt文件,里面全是图片,想将这些图片全部拿到,然后存储在数据库中,在线上预览,一张张的保存我自然是不乐意的。

为什么要读取图片呢?需求来源于这里。我有一大堆的ppt文件,里面全是图片,想将这些图片全部拿到,然后存储在数据库中,在线上预览,一张张的保存我自然是不乐意的。

找了一大堆文档都是读取pptx,没有读取ppt的怎么办,先转为pptx 吧,于是有了批量将ppt格式转为pptx格式的文章...

相关模块或文档

大体思路

其实高版本的pptx 也好,docx也好,本质上是一个压缩文件,我们完全可以将他的后缀改为rarzip 然后解压,就可以拿到里面的xml 或 资源文件,所以,思路就是将文档通过jszip 解压获取内部的文件,然后读取xml 找到对应的关系,然后将image读取出来进行保存。

实现代码

/**
 * 读取目录下的pptx 文件,并得到ppt的各个页面的截图数据,然后进行处理成为结构化数据。
 * @author chrunlee
 */
const JSZIP = require('jszip');
const fs = require('fs');
const path = require('path');
const xml2js = require('xml2js');
/**
 * 获取ppt内各个slide对应的图片路径,含多张图片
 * @param {Strin}} filePath pptx filepath
 */
function getSliders (filePath/**pptx filePath */,targetFolder) { 
  let data = fs.readFileSync(filePath)
  const zip = new JSZIP();
  return new Promise((r, j) => {
    //加载pptx数据
    zip.loadAsync(data).then(async zip => {
      let files = Object.keys(zip.files).filter(t => {
        return t.startsWith('ppt/slides') && path.extname(t) == '.rels';
      })
      //做文件名排序
      files.sort((a, b) => {
        let asq = path.basename(a).substr(0, path.basename(a).indexOf('.')).replace('slide', '');
        let bsq = path.basename(b).substr(0, path.basename(b).indexOf('.')).replace('slide', '');
        return asq - bsq;
      })

      let sliders = [];
      for (let file of files) { 
        //读取xml内容
        let content = await zip.file(file).async('string');
        let obj = await xml2js.parseStringPromise(content);
        //获取关联关系
        let relationship = obj.Relationships.Relationship;//[[]]
        let arr = relationship.filter(ship => {
          return path.extname(ship.$.Target) == '.jpeg' || path.extname(ship.$.Target) == '.png'
        }).map(ship => {
          return {
            id: ship.$.Id.replace('rId',''),
            filePath: 'ppt/'+ship.$.Target.substr(3)
          }
        }).sort((a, b) => {
          return a.id - b.id;
        })
        sliders.push(arr);
      }
      //将图片进行存储,并返回真实路径
      let fileArr = [];
      fs.mkdirSync(targetFolder, { recursive: true });
      for (let arr of sliders) { 
        let objarr = [];
        if (arr && arr.length > 0) { 
          for (let obj of arr) { 
            let stream = await zip.file(obj.filePath).async('nodebuffer');
            let realFilePath = path.join(targetFolder, path.basename(obj.filePath));
            fs.writeFileSync(realFilePath,stream);
            objarr.push({
              id : obj.id,filePath : realFilePath
            })
          }
        }
        fileArr.push(objarr);
      }
      r(fileArr);
    })
  })
  
}
(async function () { 
  let sliders = await getSliders('./蓝天空.pptx', 'd:/nodejs/toy/ppt转pptx读取/image/蓝天空/');
})();

通过读取ppt/slides/_rels/***.rels文件,来获得该slide中对应的图片,找到对应的关系,然后通过jszip来获得该图片数据流进行保存,思路很简单,主要还是对使用的模块的api不熟悉,找了不少资料。


仔细看ppt还会发现,有大部分ppt中一页有多张图片是拼接起来的...其实我是想讲多张图片合并为一张图片进行保存的。

当然,合并图片的就不在这里面写了,是另外一篇文章了,等我后续更新吧。
实现方式还是通过gm来进行合并,命令超级简单..就是安装费劲。

相关文章
|
3月前
|
JavaScript 前端开发 安全
使用 Node.js 插件给指定目录下的所有图片添加上文字水印
使用 Node.js 插件给指定目录下的所有图片添加上文字水印
65 0
|
前端开发
node express 给前端返回图片流
node express 给前端返回图片流
node express 给前端返回图片流
|
前端开发 JavaScript 数据格式
图片URL转file文件(前端+后端node.js)
图片URL转file文件(前端+后端node.js)
|
14天前
|
编解码 前端开发 JavaScript
node实战——koa实现文件下载和图片/pdf/视频预览(node后端储备知识)
node实战——koa实现文件下载和图片/pdf/视频预览(node后端储备知识)
25 1
|
3月前
|
前端开发
【Node】一键生成博客标题图片
还在为写文章时找不到标题图片而困扰吗?举个例子,CSDN的博客文章如果你不给他图片的话,那么它会按照一些默认的标签图片作为你的文章封面,例如下面这样。
30 7
|
6月前
|
编解码
node封装一个图片拼接插件
node封装一个图片拼接插件
74 0
|
8月前
|
JavaScript 前端开发
[Node] Node.js Webpack打包图片-Js-Vue
[Node] Node.js Webpack打包图片-Js-Vue
|
JavaScript
怎么用node批量下载图片
怎么用node批量下载图片
380 1
|
JavaScript 前端开发 中间件
vue3 + node 实战(实现图片操作功能)总结
作用是:这样 vite 在执行 runOptimize 的时候中会使用 rollup 对 包含的 包重新编译,将编译成符合 esm 模块规范的新的包放入 node_modules 下的.vite_opt_cache中,然后配合 resolver 对 包含的包 的导入进行处理:使用编译后的包内容代替原来 qrcanvas 的包的内容,这样就解决了 vite 中不能使用 其他js包 的问题,这部分代码在 depOptimizer.ts 里。
vue3 + node 实战(实现图片操作功能)总结
|
前端开发 中间件
node express前端 canvas操作图片 报跨域
我后台使用的是 node + express ,所以首先定位问题所在,图片是属于静态资源的,然后我们后台解析静态资源使用 express 里面的 static 中间件。所以打开对应的文档,查看对应的配置。
node express前端 canvas操作图片 报跨域