【AI落地应用实战】大模型加速器2.0：基于 ChatDoc + TextIn ParseX+ACGE的RAG知识库问答系统

2025-03-27 78 发布于福建

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

实时数仓Hologres，5000CU*H 100GB 3个月

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

简介： 本文探讨了私有知识库问答系统的难点及解决方案，重点分析了企业知识管理中的痛点，如信息孤岛、知识传承依赖个人经验等问题。同时，介绍了IntFinQ这款知识管理工具的核心特点和实践体验，包括智能问答、深度概括与多维数据分析等功能。文章还详细描述了IntFinQ的本地化部署过程，展示了其从文档解析到知识应用的完整技术闭环，特别是自研TextIn ParseX引擎和ACGE模型的优势。最后总结了该工具对企业和开发者的价值，强调其在提升知识管理效率方面的潜力。

一、私有知识库问答系统难点分析

1.1、企业知识管理痛点分析

在当今数字化浪潮席卷各行业的时代，企业内部信息管理的难题愈发凸显，构建高效的知识库已成为企业发展的必然选择。

然而，企业知识管理中普遍存在着知识散落各处难以集中管理、信息孤岛现象严重部门间沟通不畅、知识传承依赖于个人经验难以形成系统性积累等痛点。

从企业层面来看，内部文档分散问题严重制约着信息流通与协作效率。各部门各自为政，拥有不同文件管理流程，文档散落在各个角落，从市场部的调研报告、产品研发的详细文档、部门例会的会议记录，到财务部的预算报表等，都犹如一座座信息孤岛，缺乏有效的整合与共享渠道。

从个人层面而言，企业知识库的缺失同样带来诸多困扰。在日常工作中，为查找一份关键资料，常需在多个系统、文件夹间来回切换，耗费大量时间与精力，降低了工作效率。而因文档格式不一、内容繁杂，即使找到信息，也需花费额外时间梳理、理解，难以直接应用到实际任务中。在处理复杂项目时，因无法及时获取全面准确的知识支持，员工易出现决策失误或工作重复，影响项目成果与个人效率。

1.2、企业文档处理的挑战分析

在企业内部，文档类型呈现显著的多样性特征，主要可分为有标记格式和无标记格式两大类。

有标记格式文档（如Word、Markdown、网页等）由于自带结构化标签，计算机可直接进行解析处理，易于被大语言模型理解和分析。
无标记格式文档（如PDF、扫描图像等）则缺乏结构化标签，不具备可编辑性，难以被模型直接处理。值得注意的是，无标记文档在企业文档体系中往往占据较大比重，且蕴含着丰富的关键信息。以产品研发部门为例，产品设计图纸、工程图纸等技术文档通常包含产品的技术参数、结构细节、工艺流程等核心知识，这些信息对产品的迭代升级、生产制造及售后服务具有重要的战略价值。

其次，文档布局的多样性也是企业知识库构建面临的主要技术挑战之一。不同文档的布局特征差异显著，这对知识库系统的解析与信息提取能力提出了更高要求。

对于水印文档，系统需在消除水印干扰的同时确保正文内容的准确提取；
对于双线表格，要求精确解析文档中复杂的行列关系；
对于行内公式，系统需具备区分文本与数学表达式的能力；
对于混合表格，其融合了文本、数字、公式等多种元素，进一步增加了解析难度。

这种布局多样性要求知识库系统在信息提取过程中，不仅要准确获取内容，还需完整保留原文档的逻辑结构与关键信息关联，以确保在后续的问答交互与知识检索中能够呈现完整、连贯的知识体系，避免因布局信息丢失导致的理解偏差或信息不完整问题。

此外，企业内部的文档资料往往包含大量涉及商业机密、客户隐私等敏感信息，若采用云端存储方案，将面临较大的数据泄露风险。因此，企业需要构建具备强大本地化部署能力的知识库系统，有效防范数据泄露事件的发生，确保企业核心知识资产的安全性和可控性。

二、实践体验IntFinQ知识管理及写作助手

2.1、系统核心特点

最近我也是在广泛调研测试各家的知识库产品，刚好发现了合合信息推出的一款知识库问答产品IntFinQ，其能够支持解析多种文件格式，为企业和个人轻松打造知识库。其主要功能包括：

智能问答与对话式交互：支持单份或多份文档的实时问答，用户可通过自然语言获取精准信息，实现 “所问即所得”；
深度概括与定位：自动提炼文档核心内容，生成简明摘要，并在检索结果中标注原文段落，答案可溯源；
多维数据分析与对比：支持同行业多公司横向对比、多文档纵向时序分析，将海量数据转化为商业洞察。

2.2、实践体验

话不多说，这里我们展开试用，首先进入TextIn IntFinQ官网，点击开始在线试用，进入IntFinQ控制台。

IntFinQ控制台包括知识检索、公共知识库、个人知识库管理和一个内置了AI的创作中心。

知识检索可以直接输入业务关键词进行全平台知识检索，输入“宁德时代2024年上半年经营情况”，它会快速呈现与之相关的各类信息，包括财务数据、市场份额变化、新产品发布情况等。这种高效检索能力，不仅能满足用户对特定信息的获取需求，还能帮助用户在海量数据中挖掘出有价值的洞察。

个人知识库管理则允许用户上传自己的文档，建立专属的个人知识库，可以将工作中的重要文件、学习笔记、技术文档、研究报告等上传到这里，方便随时查阅和管理，比如这里我上传几份RAG与大模型的相关知识库：

然后勾选个人知识库，并进行提问：

IntFinQ能够准确读取扫描文档中的图像图表，并进行总结回复，这得益于其自研的TextIn ParseX引擎，不仅能识别图表中的数据点，还能理解这些图像报表的结构与数据间的关系，从而为用户提供深入的分析和见解。

内置的创作中心也比较有意思，这里由于篇幅原因不再详细展开叙述。

2.3、IntFinQ本地化部署

本来体验到这里也快要结束了，但是我惊喜的发现，合合信息技术团队开源了IntFinQ的社区版chatdoc_stack代码，并且还在不断地维护中，仓库地址在这里：https://github.com/intsig-textin/chatdoc_stack

那么秉承动手实践的原则，我把仓库克隆了下来并进行了本地化部署。首先使用git clone https://github.com/intsig-textin/chatdoc_stack.git克隆仓库或者下载压缩包到本地：

由于我使用的是windows系统，所以不能直接运行initialize.sh的自动部署脚本，我这里使用手动部署，首先登录TextIn工作台，获取API Key和Secret Key，

然后进入compose目录，并打开docker-compose.yml，将API ID和Secret Key填入到compose/docker-compose.yml文件中相应位置（有chatdoc-proxy、chatdoc、backend三处），另外还要将大模型的api key填入到compose/docker-compose.yml文件中相应位置（有chatdoc-proxy、chatdoc两处）：

然后打开控制台，输入docker-compose up拉取docker镜像：

启动镜像完成后，一共是有十个containers，如下图所示，其中backend是后端，占用48092端口，mysql是数据，占用3307端口，frontend是前端，占用48091端口：

除了启动镜像外，还需要配置数据库，这里可以在initialize\mysql中找到数据库脚本：

打开Navicat，新建一个端口号为3307的本地连接，用户名和密码在docker-compose.yml文件中也给了，默认分别是root和Pwd_250309：

新建连接后，将刚刚的两段数据库脚本导入进去，就能得到名为gpt_qa的数据库，这样就完成了所有的初始化工作。最后我们在本地浏览器输入http://localhost:48091/就能进入本地部署好的IntFinQ。

如果选择前端用源代码启动的话，需要配置对应的前端proxy代理，可以找到\code\frontend，将nuxt.config.ts中的server改为：

server: {
      proxy: {
        // 代理所有以 /api 开头的请求
        '/api': {
          target: 'http://127.0.0.1:48092', // 目标服务器地址
          changeOrigin: true, // 修改请求头中的 Origin
        },
        
      }
    }

然后使用yarn install和yarn dev启动前端，输入http://localhost:3001/就可以进入了。

这里随便上传一个文件，可以看到能够正常调用到TextIn ParseX接口进行解析，大功告成，后面就可以和在线版一样进行知识检索了！

三、体验总结

体验完IntFinQ，说一点心里话，他最吸引我的，是它构建了一条完整的自研技术闭环：从自研文档解析的TextIn ParseX引擎，到国产文本向量化模型ACGE完成领域知识的深度沉淀，最终通过ChatDoc架构实现智能化的知识应用。

其中，TextIn ParseX引擎展现出卓越的多格式文档解析能力，支持PDF、Word等主流文档格式及图片文件的高效解析，能够对图表的关键数据点、布局、线条、颜色、标记等多维度特征进行深度建模；而ACGE模型作为国产文本向量化模型，能够实现领域知识的精准嵌入，提升知识检索的准确率；ChatDoc架构将这些技术优势转化为实际应用价值。

对于个人开发者，可将已开源的知识库组件接入自身应用，实现产品文档解析、智能问答等功能。此前，合合信息已开源智能文档处理“百宝箱”系列产品，解决文档解析精度低、解析效果评估难和大模型幻觉等问题，开发者可根据研发需求灵活搭配使用，进一步提升文档解析效率。

【AI落地应用实战】大模型加速器2.0：基于 ChatDoc + TextIn ParseX+ACGE的RAG知识库问答系统

一、私有知识库问答系统难点分析

1.1、企业知识管理痛点分析

1.2、企业文档处理的挑战分析

二、实践体验IntFinQ知识管理及写作助手

2.1、系统核心特点

2.2、实践体验

2.3、IntFinQ本地化部署

三、体验总结

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

【AI落地应用实战】大模型加速器2.0：基于 ChatDoc + TextIn ParseX+ACGE的RAG知识库问答系统

一、私有知识库问答系统难点分析

1.1、企业知识管理痛点分析

1.2、企业文档处理的挑战分析

二、实践体验IntFinQ知识管理及写作助手

2.1、系统核心特点

2.2、实践体验

2.3、IntFinQ本地化部署

三、体验总结

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书

相关实验场景