POI框架EXCEL解析性能优化

简介: POI EXCEL SAX 解析内存优化

背景

在做商品EXCEL的时候,线上发现了Full GC,排查得知是商家搞了一个巨大的excel,单商品发布接口平均耗时400ms(调用sell耗时200ms左右,系统自身处理商品同步耗时150ms左右),对于3000个商品的发布,耗时在20min左右,这20min内该excel的内存一直未能释放。

excel full gc.png

第一时间想到的是POI真坑,真吃内存。 事情发生了就想着怎么处理,

  1. 止血 线上机器分批重启,
  2. 马上加一个excel行数的限制然后发布 线上半个小时左右就没有任何问题了。

思考

为什么poi这么吃内存,poi这么老了,肯定有人踩过这个坑,撸起袖子,搜poi full gc. 很多文档将的都太粗糙了,本质没有说透

原因

  1. excel本质上是xml文件的集合体。从office 2007起开始使用xml来存档和数据交换:https://zh.wikipedia.org/wiki/Office_Open_XML
  2. poi默认是使用dom方式解析excel,因此文件中String的数量越多,其dom树越大。

解法

由于excel商品发布不需要动态的更改excel中的数据,所以并不强依赖dom解析,直接换成sax来解析excel就行

Action

poi中sax用法


/**
 * @author zhengqiang.zq
 * @date 2018/05/04 ,参考链接:https://poi.apache.org/spreadsheet/how-to.html#sxssf
 */
public class MyEventUserModel {
    public static ThreadLocal<List<ParsedRow>> local = new ThreadLocal<>();

    public void processOneSheet(String filename) throws Exception {
        OPCPackage pkg = OPCPackage.open(filename);
        XSSFReader r = new XSSFReader(pkg);
        SharedStringsTable sst = r.getSharedStringsTable();

        XMLReader parser = fetchSheetParser(sst);
        //从workbook.xml.res 中获取所有需要解析的xml文件,rid1 就是第一个sheet,其target就是该sheet所在的相对路径
        //<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
        //<Relationships xmlns="http://schemas.openxmlformats.org/package/2006/relationships">
        // <Relationship Id="rId3" Type="http://schemas.openxmlformats.org/officeDocument/2006/relationships/theme" Target="theme/theme1.xml"/>
        // <Relationship Id="rId4" Type="http://schemas.openxmlformats.org/officeDocument/2006/relationships/styles" Target="styles.xml"/>
        // <Relationship Id="rId5" Type="http://schemas.openxmlformats.org/officeDocument/2006/relationships/sharedStrings" Target="sharedStrings.xml"/>
        // <Relationship Id="rId1" Type="http://schemas.openxmlformats.org/officeDocument/2006/relationships/worksheet" Target="worksheets/sheet1.xml"/>
        // <Relationship Id="rId2" Type="http://schemas.openxmlformats.org/officeDocument/2006/relationships/worksheet" Target="worksheets/sheet2.xml"/>
        //</Relationships>
        //
        InputStream sheet2 = r.getSheet("rId1");
        InputSource sheetSource = new InputSource(sheet2);
        parser.parse(sheetSource);
        sheet2.close();
    }

    public XMLReader fetchSheetParser(SharedStringsTable sst) throws SAXException {
        XMLReader parser =
            XMLReaderFactory.createXMLReader(
                "org.apache.xerces.parsers.SAXParser"
            );
        ContentHandler handler = new SheetHandler(sst);
        parser.setContentHandler(handler);
        return parser;
    }

    /**
     * See org.xml.sax.helpers.DefaultHandler javadocs
     */
    private class SheetHandler extends DefaultHandler {

        /**
         * excel 常量数据对象,对应的就是sharedStrings.xml文件中的内容,类似excel中的常量池
         */
        private SharedStringsTable sst;
        /**
         * 当前处理的文本值
         */

        private String lastContents;
        /**
         * 下一个文本是不是String类型
         */
        private boolean nextIsString;
        /**
         * 当前单元格的索引值,从0开始,0:第一列
         */
        private Short index;
        /**
         * 自定义数据类型,存储被解析的每一行原始数据
         */
        List<ParsedRow> sheetData = Lists.newArrayList();
        ParsedRow currentRow = new ParsedRow();

        private SheetHandler(SharedStringsTable sst) {
            this.sst = sst;
        }

        @Override
        public void startElement(String uri, String localName, String name, Attributes attributes) throws SAXException {
            //第一行
            if (name.equals("row")) {
                currentRow.setRowNum(new Long(attributes.getValue("r")));
                sheetData.add(currentRow);
            }
            //c => cell 一个单元格,
            if (name.equals("c")) {
                //r属性表示单元格位置,例如A2,C3
                String coordinate = attributes.getValue("r");
                CellReference cellReference = new CellReference(coordinate);
                //根据r属性获取其列下标,从0开始
                index = cellReference.getCol();

                //t:属性代表单元格类型
                String cellType = attributes.getValue("t");
                if (cellType != null && cellType.equals("s")) {
                    //t="s"表示是改单元格是字符串,那么该单元格的实际值值需要去SharedStringsTable中取
                    nextIsString = true;
                } else {
                    nextIsString = false;
                }
            }
            // Clear contents cache
            lastContents = "";
        }

        @Override
        public void endElement(String uri, String localName, String name) throws SAXException {
            if (nextIsString) {
                int idx = Integer.parseInt(lastContents);
                //从SharedStringsTable中取当前单元格的实际值
                lastContents = new XSSFRichTextString(sst.getEntryAt(idx)).toString();
                nextIsString = false;
            }

            // v => contents of a cell
            // Output after we've seen the string contents
            if (name.equals("v")) {
                //不管是不是数字还是文本值
                currentRow.getData().put(index, lastContents);
            }
            if (name.equals("row")) {
                currentRow = new ParsedRow();
            }
        }

        @Override
        public void endDocument() throws SAXException {
            local.set(sheetData);
        }

        /**
         * 通知一个元素中的字符,是否处理由自己决定,比如  <v>1</v>,
         *
         * @param ch     The characters. 整个sheet.xml的char[]数组表示
         * @param start  The start position in the character array. 本次处理的元素值的的开始位置
         * @param length The number of characters to use from the ,元素长度
         *               character array.
         * @throws SAXException Any SAX exception, possibly
         * wrapping another exception.
         * @see ContentHandler#characters
         */
        @Override
        public void characters(char[] ch, int start, int length) throws SAXException {
            //对于lastContents是String类型来说,lastContent存放的是其在SharedStringsTable中的索引,
            // 对于是数字类型来说,lastContents存放就是该数字的字符串表示
            lastContents += new String(ch, start, length);
        }
    }

    public static void main(String[] args) throws Exception {
        String fileName = "/Users/thinerzq/alltest/excel/test_big_3300_diffrent_row.xlsx";
        MyEventUserModel example = new MyEventUserModel();
        Stopwatch stopwatch = new Stopwatch();

        stopwatch.start();
        example.processOneSheet(fileName);
        System.out.println("-----------------finish, " + stopwatch.toString());

        System.out.println(local.get());
        Thread.sleep(100000 * 1000);
    }
}

性能对比

dom 3455行

解析时间

-----------------finish, 6.987 s

内存消耗

jmap -histo:live 2646

thinerzq@thinerzq-2:~$ jmap -histo:live 2646

 num     #instances         #bytes  class name
----------------------------------------------
   1:       2574454      247147584  org.apache.xmlbeans.impl.store.Xobj$AttrXobj
   2:       1332126      127884096  org.apache.xmlbeans.impl.store.Xobj$ElementXobj
   3:       1265264       50610560  java.util.TreeMap$Entry
   4:        778421       48667664  [C
   5:           636       37006672  [B
   6:        611910       29371680  java.util.TreeMap
   7:        611886       24475440  org.apache.xmlbeans.impl.values.XmlUnsignedIntImpl
   8:        653334       20906688  org.apache.poi.xssf.usermodel.XSSFCell
   9:        653334       20906688  org.openxmlformats.schemas.spreadsheetml.x2006.main.impl.STCellRefImpl
  10:        775269       18606456  java.lang.String
  11:        653334       15680016  org.openxmlformats.schemas.spreadsheetml.x2006.main.impl.CTCellImpl
  12:        611866       14684784  org.apache.poi.xssf.usermodel.XSSFRow
  13:        611866       14684784  org.openxmlformats.schemas.spreadsheetml.x2006.main.impl.CTRowImpl
  14:        622210        9955360  java.lang.Integer
  15:         55239        1767648  org.openxmlformats.schemas.spreadsheetml.x2006.main.impl.STXstringImpl
  16:         34552        1105664  org.openxmlformats.schemas.spreadsheetml.x2006.main.impl.STCellTypeImpl
  17:         18776         600832  java.util.HashMap$Node
  18:         10328         247872  org.openxmlformats.schemas.spreadsheetml.x2006.main.impl.CTRstImpl
….
 726:             1             16  sun.util.resources.LocaleData$LocaleDataResourceBundleControl
Total      11909576      686173768=81.8MB

sax 3455行

解析时间

-----------------finish, 2.427 s

内存消耗

jmap -histo:live 2646


thinerzq@thinerzq-2:~$ jmap -histo:live 2711

 num     #instances         #bytes  class name
----------------------------------------------
   1:        612060       29378880  java.util.HashMap
   2:        611866       14684784  com.zq.poi.ParsedRow
   3:        611866       14684784  java.lang.Long
   4:          1298        3342120  [Ljava.lang.Object;
   5:         60140        3149488  [C
   6:         51946        1662272  java.util.HashMap$Node
   7:         60096        1442304  java.lang.String
   8:          3610         578024  [Ljava.util.HashMap$Node;
   9:           617         288960  [B
  10:          1626         186544  java.lang.Class
  11:           975         173176  [I
  12:          2911         116440  java.util.LinkedHashMap$Entry
  13:          2648          63552  javax.xml.namespace.QName
  14:          1811          57952  java.util.concurrent.ConcurrentHashMap$Node
  15:          2242          53808  org.apache.xmlbeans.SchemaType$Ref
  16:           423          27072  java.net.URL
  17:          1619          25904  java.lang.Object
  18:           290          20496  [Ljava.lang.String;
 531:             1             16  sun.util.resources.LocaleData$LocaleDataResourceBundleControl
Total       2036715       70309432 =8.4MB

总览

解析类型 数据量 解析时间 内存占用
dom 3455行不同数据 6.587 s 81.8MB
sax 3455行不同数据 2.427 s 8.4MB
dom 10000行数据,2/3重复 6.748s 100.4M
sax 10000行数据,2/3重复 2.827s 9.4MB

可以看到使用sax解析之后内存下降了近10倍之多,再也不用担心full gc了。由于其常量池的缘故,excel文件大小和行数是否有重复的单元格有关系。

其他

参考链接

  1. poi文档

查看excel的xml文件

将excel文件的后缀名改为.zip 然后解压缩里面就全部都是xml文件了。

xml文件快速一览

excel_constants.png
excel_sceen1.png

目录
相关文章
|
存储 Java
深入探讨了Java集合框架中的HashSet和TreeSet,解析了两者在元素存储上的无序与有序特性。
【10月更文挑战第16天】本文深入探讨了Java集合框架中的HashSet和TreeSet,解析了两者在元素存储上的无序与有序特性。HashSet基于哈希表实现,添加元素时根据哈希值分布,遍历时顺序不可预测;而TreeSet利用红黑树结构,按自然顺序或自定义顺序存储元素,确保遍历时有序输出。文章还提供了示例代码,帮助读者更好地理解这两种集合类型的使用场景和内部机制。
193 3
|
XML JSON API
ServiceStack:不仅仅是一个高性能Web API和微服务框架,更是一站式解决方案——深入解析其多协议支持及简便开发流程,带您体验前所未有的.NET开发效率革命
【10月更文挑战第9天】ServiceStack 是一个高性能的 Web API 和微服务框架,支持 JSON、XML、CSV 等多种数据格式。它简化了 .NET 应用的开发流程,提供了直观的 RESTful 服务构建方式。ServiceStack 支持高并发请求和复杂业务逻辑,安装简单,通过 NuGet 包管理器即可快速集成。示例代码展示了如何创建一个返回当前日期的简单服务,包括定义请求和响应 DTO、实现服务逻辑、配置路由和宿主。ServiceStack 还支持 WebSocket、SignalR 等实时通信协议,具备自动验证、自动过滤器等丰富功能,适合快速搭建高性能、可扩展的服务端应用。
848 3
|
人工智能 自然语言处理 Java
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
FastExcel 是一款基于 Java 的高性能 Excel 处理工具,专注于优化大规模数据处理,提供简洁易用的 API 和流式操作能力,支持从 EasyExcel 无缝迁移。
3259 65
FastExcel:开源的 JAVA 解析 Excel 工具,集成 AI 通过自然语言处理 Excel 文件,完全兼容 EasyExcel
|
11月前
|
人工智能 API 开发者
HarmonyOS Next~鸿蒙应用框架开发实战:Ability Kit与Accessibility Kit深度解析
本书深入解析HarmonyOS应用框架开发,聚焦Ability Kit与Accessibility Kit两大核心组件。Ability Kit通过FA/PA双引擎架构实现跨设备协同,支持分布式能力开发;Accessibility Kit提供无障碍服务构建方案,优化用户体验。内容涵盖设计理念、实践案例、调试优化及未来演进方向,助力开发者打造高效、包容的分布式应用,体现HarmonyOS生态价值。
678 27
|
11月前
|
人工智能 自然语言处理 搜索推荐
ViDoRAG:开源多模态文档检索框架,多智能体推理+图文理解精准解析文档
ViDoRAG 是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架,基于多智能体协作和动态迭代推理,显著提升复杂视觉文档的检索和生成效率。
760 8
ViDoRAG:开源多模态文档检索框架,多智能体推理+图文理解精准解析文档
|
11月前
|
机器学习/深度学习 人工智能 Java
Java机器学习实战:基于DJL框架的手写数字识别全解析
在人工智能蓬勃发展的今天,Python凭借丰富的生态库(如TensorFlow、PyTorch)成为AI开发的首选语言。但Java作为企业级应用的基石,其在生产环境部署、性能优化和工程化方面的优势不容忽视。DJL(Deep Java Library)的出现完美填补了Java在深度学习领域的空白,它提供了一套统一的API,允许开发者无缝对接主流深度学习框架,将AI模型高效部署到Java生态中。本文将通过手写数字识别的完整流程,深入解析DJL框架的核心机制与应用实践。
685 3
|
设计模式 XML Java
【23种设计模式·全精解析 | 自定义Spring框架篇】Spring核心源码分析+自定义Spring的IOC功能,依赖注入功能
本文详细介绍了Spring框架的核心功能,并通过手写自定义Spring框架的方式,深入理解了Spring的IOC(控制反转)和DI(依赖注入)功能,并且学会实际运用设计模式到真实开发中。
【23种设计模式·全精解析 | 自定义Spring框架篇】Spring核心源码分析+自定义Spring的IOC功能,依赖注入功能
|
Java 测试技术 持续交付
【入门思路】基于Python+Unittest+Appium+Excel+BeautifulReport的App/移动端UI自动化测试框架搭建思路
本文重点讲解如何搭建App自动化测试框架的思路,而非完整源码。主要内容包括实现目的、框架设计、环境依赖和框架的主要组成部分。适用于初学者,旨在帮助其快速掌握App自动化测试的基本技能。文中详细介绍了从需求分析到技术栈选择,再到具体模块的封装与实现,包括登录、截图、日志、测试报告和邮件服务等。同时提供了运行效果的展示,便于理解和实践。
1012 4
【入门思路】基于Python+Unittest+Appium+Excel+BeautifulReport的App/移动端UI自动化测试框架搭建思路
|
Web App开发 IDE 测试技术
自动化测试的利器:Selenium 框架深度解析
【10月更文挑战第2天】在软件开发的海洋中,自动化测试犹如一艘救生艇,让质量保证的过程更加高效与精准。本文将深入探索Selenium这一强大的自动化测试框架,从其架构到实际应用,带领读者领略自动化测试的魅力和力量。通过直观的示例和清晰的步骤,我们将一起学习如何利用Selenium来提升软件测试的效率和覆盖率。

热门文章

最新文章

推荐镜像

更多
  • DNS