【AI落地应用实战】大模型加速器2.0:基于 ChatDoc + TextIn ParseX+ACGE的RAG知识库问答系统

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
简介: 本文探讨了私有知识库问答系统的难点及解决方案,重点分析了企业知识管理中的痛点,如信息孤岛、知识传承依赖个人经验等问题。同时,介绍了IntFinQ这款知识管理工具的核心特点和实践体验,包括智能问答、深度概括与多维数据分析等功能。文章还详细描述了IntFinQ的本地化部署过程,展示了其从文档解析到知识应用的完整技术闭环,特别是自研TextIn ParseX引擎和ACGE模型的优势。最后总结了该工具对企业和开发者的价值,强调其在提升知识管理效率方面的潜力。

一、私有知识库问答系统难点分析

1.1、企业知识管理痛点分析

在当今数字化浪潮席卷各行业的时代,企业内部信息管理的难题愈发凸显,构建高效的知识库已成为企业发展的必然选择。


然而,企业知识管理中普遍存在着知识散落各处难以集中管理、信息孤岛现象严重部门间沟通不畅、知识传承依赖于个人经验难以形成系统性积累等痛点。

从企业层面来看,内部文档分散问题严重制约着信息流通与协作效率。各部门各自为政,拥有不同文件管理流程,文档散落在各个角落,从市场部的调研报告、产品研发的详细文档、部门例会的会议记录,到财务部的预算报表等,都犹如一座座信息孤岛,缺乏有效的整合与共享渠道。

从个人层面而言,企业知识库的缺失同样带来诸多困扰。在日常工作中,为查找一份关键资料,常需在多个系统、文件夹间来回切换,耗费大量时间与精力,降低了工作效率。而因文档格式不一、内容繁杂,即使找到信息,也需花费额外时间梳理、理解,难以直接应用到实际任务中。在处理复杂项目时,因无法及时获取全面准确的知识支持,员工易出现决策失误或工作重复,影响项目成果与个人效率。

1.2、企业文档处理的挑战分析

在企业内部,文档类型呈现显著的多样性特征,主要可分为有标记格式无标记格式两大类。

  • 有标记格式文档(如Word、Markdown、网页等)由于自带结构化标签,计算机可直接进行解析处理,易于被大语言模型理解和分析。
  • 无标记格式文档(如PDF、扫描图像等)则缺乏结构化标签,不具备可编辑性,难以被模型直接处理。值得注意的是,无标记文档在企业文档体系中往往占据较大比重,且蕴含着丰富的关键信息。以产品研发部门为例,产品设计图纸、工程图纸等技术文档通常包含产品的技术参数、结构细节、工艺流程等核心知识,这些信息对产品的迭代升级、生产制造及售后服务具有重要的战略价值。

其次,文档布局的多样性也是企业知识库构建面临的主要技术挑战之一。不同文档的布局特征差异显著,这对知识库系统的解析与信息提取能力提出了更高要求。

  • 对于水印文档,系统需在消除水印干扰的同时确保正文内容的准确提取;
  • 对于双线表格,要求精确解析文档中复杂的行列关系;
  • 对于行内公式,系统需具备区分文本与数学表达式的能力;
  • 对于混合表格,其融合了文本、数字、公式等多种元素,进一步增加了解析难度。

这种布局多样性要求知识库系统在信息提取过程中,不仅要准确获取内容,还需完整保留原文档的逻辑结构与关键信息关联,以确保在后续的问答交互与知识检索中能够呈现完整、连贯的知识体系,避免因布局信息丢失导致的理解偏差或信息不完整问题。

此外,企业内部的文档资料往往包含大量涉及商业机密、客户隐私等敏感信息,若采用云端存储方案,将面临较大的数据泄露风险。因此,企业需要构建具备强大本地化部署能力的知识库系统,有效防范数据泄露事件的发生,确保企业核心知识资产的安全性和可控性。

二、实践体验IntFinQ知识管理及写作助手

2.1、系统核心特点

最近我也是在广泛调研测试各家的知识库产品,刚好发现了合合信息推出的一款知识库问答产品IntFinQ,其能够支持解析多种文件格式,为企业和个人轻松打造知识库。其主要功能包括:

  • 智能问答与对话式交互:支持单份或多份文档的实时问答,用户可通过自然语言获取精准信息,实现 “所问即所得”;
  • 深度概括与定位:自动提炼文档核心内容,生成简明摘要,并在检索结果中标注原文段落,答案可溯源;
  • 多维数据分析与对比:支持同行业多公司横向对比、多文档纵向时序分析,将海量数据转化为商业洞察。

2.2、实践体验

话不多说,这里我们展开试用,首先进入TextIn IntFinQ官网,点击开始在线试用,进入IntFinQ控制台。

IntFinQ控制台包括知识检索、公共知识库、个人知识库管理和一个内置了AI的创作中心。

知识检索可以直接输入业务关键词进行全平台知识检索,输入“宁德时代2024年上半年经营情况”,它会快速呈现与之相关的各类信息,包括财务数据、市场份额变化、新产品发布情况等。这种高效检索能力,不仅能满足用户对特定信息的获取需求,还能帮助用户在海量数据中挖掘出有价值的洞察。


个人知识库管理则允许用户上传自己的文档,建立专属的个人知识库,可以将工作中的重要文件、学习笔记、技术文档、研究报告等上传到这里,方便随时查阅和管理,比如这里我上传几份RAG与大模型的相关知识库:

然后勾选个人知识库,并进行提问:

IntFinQ能够准确读取扫描文档中的图像图表,并进行总结回复,这得益于其自研的TextIn ParseX引擎,不仅能识别图表中的数据点,还能理解这些图像报表的结构与数据间的关系,从而为用户提供深入的分析和见解。

内置的创作中心也比较有意思,这里由于篇幅原因不再详细展开叙述。

2.3、IntFinQ本地化部署

本来体验到这里也快要结束了,但是我惊喜的发现,合合信息技术团队开源了IntFinQ的社区版chatdoc_stack代码,并且还在不断地维护中,仓库地址在这里:https://github.com/intsig-textin/chatdoc_stack

那么秉承动手实践的原则,我把仓库克隆了下来并进行了本地化部署。首先使用git clone https://github.com/intsig-textin/chatdoc_stack.git克隆仓库或者下载压缩包到本地:

由于我使用的是windows系统,所以不能直接运行initialize.sh的自动部署脚本,我这里使用手动部署,首先登录TextIn工作台,获取API Key和Secret Key,

然后进入compose目录,并打开docker-compose.yml,将API ID和Secret Key填入到compose/docker-compose.yml文件中相应位置(有chatdoc-proxychatdocbackend三处),另外还要将大模型的api key填入到compose/docker-compose.yml文件中相应位置(有chatdoc-proxychatdoc两处):

然后打开控制台,输入docker-compose up拉取docker镜像:

启动镜像完成后,一共是有十个containers,如下图所示,其中backend是后端,占用48092端口,mysql是数据,占用3307端口,frontend是前端,占用48091端口:

除了启动镜像外,还需要配置数据库,这里可以在initialize\mysql中找到数据库脚本:

打开Navicat,新建一个端口号为3307的本地连接,用户名和密码在docker-compose.yml文件中也给了,默认分别是root和Pwd_250309:

新建连接后,将刚刚的两段数据库脚本导入进去,就能得到名为gpt_qa的数据库,这样就完成了所有的初始化工作。最后我们在本地浏览器输入http://localhost:48091/就能进入本地部署好的IntFinQ。

如果选择前端用源代码启动的话,需要配置对应的前端proxy代理,可以找到\code\frontend,将nuxt.config.ts中的server改为:

server: {
      proxy: {
        // 代理所有以 /api 开头的请求
        '/api': {
          target: 'http://127.0.0.1:48092', // 目标服务器地址
          changeOrigin: true, // 修改请求头中的 Origin
        },
        
      }
    }

然后使用yarn install和yarn dev启动前端,输入http://localhost:3001/就可以进入了。

这里随便上传一个文件,可以看到能够正常调用到TextIn ParseX接口进行解析,大功告成,后面就可以和在线版一样进行知识检索了!

三、体验总结

体验完IntFinQ,说一点心里话,他最吸引我的,是它构建了一条完整的自研技术闭环:从自研文档解析的TextIn ParseX引擎,到国产文本向量化模型ACGE完成领域知识的深度沉淀,最终通过ChatDoc架构实现智能化的知识应用。

其中,TextIn ParseX引擎展现出卓越的多格式文档解析能力,支持PDF、Word等主流文档格式及图片文件的高效解析,能够对图表的关键数据点、布局、线条、颜色、标记等多维度特征进行深度建模;而ACGE模型作为国产文本向量化模型,能够实现领域知识的精准嵌入,提升知识检索的准确率;ChatDoc架构将这些技术优势转化为实际应用价值。

对于个人开发者,可将已开源的知识库组件接入自身应用,实现产品文档解析、智能问答等功能。此前,合合信息已开源智能文档处理“百宝箱”系列产品,解决文档解析精度低、解析效果评估难和大模型幻觉等问题,开发者可根据研发需求灵活搭配使用,进一步提升文档解析效率。



相关文章
|
10天前
|
人工智能 搜索推荐 自然语言处理
大模型落地的关键:如何用 RAG 打造更智能的 AI 搜索——阿里云 AI 搜索开放平台
本文分享了大模型落地的关键:如何用阿里云 AI 搜索开放平台 打造更智能的 AI 搜索。
103 8
大模型落地的关键:如何用 RAG 打造更智能的 AI 搜索——阿里云 AI 搜索开放平台
|
3天前
|
人工智能 搜索推荐 Java
【重磅】JeecgBoot 里程碑 v3.8.0 发布,支持 AI 大模型、应用、AI 流程编排和知识库
JeecgBoot 最新推出了一整套 AI 大模型功能,包括 AI 模型管理、AI 应用、知识库、AI 流程编排和 AI 对话助手。这标志着其转型为 “AI 低代码平台”,旨在帮助开发者快速构建和部署个性化 AI 应用,降低开发门槛,提升效率。
38 12
|
1天前
|
存储 人工智能 自然语言处理
RAG 实战|用 StarRocks + DeepSeek 构建智能问答与企业知识库
本文由镜舟科技解决方案架构师石强与StarRocks TSC Member赵恒联合撰写,围绕RAG(检索增强生成)技术展开,结合DeepSeek和StarRocks构建智能问答系统。RAG通过外部知识检索与AI生成相结合,解决大模型知识静态、易编造信息的问题。文章详细介绍了系统组成、操作流程及优化方法,包括DeepSeek部署、StarRocks向量索引配置、知识存储与提取等环节,并通过代码示例演示了从文本向量化到生成回答的完整过程。最后,加入RAG机制后,系统性能显著提升,支持企业级知识库与智能客服场景。文中还提供了Web可视化界面实现方案,助力开发者快速上手。
|
4天前
|
人工智能 Cloud Native Serverless
从理论到落地:MCP 实战解锁 AI 应用架构新范式 | 免费领取 78 页完整 PPT
本文旨在从 MCP 的技术原理、降低 MCP Server 构建复杂度、提升 Server 运行稳定性等方面出发,分享我们的一些实践心得。
|
7天前
|
存储 人工智能 Java
Spring AI与DeepSeek实战四:系统API调用
在AI应用开发中,工具调用是增强大模型能力的核心技术,通过让模型与外部API或工具交互,可实现实时信息检索(如天气查询、新闻获取)、系统操作(如创建任务、发送邮件)等功能;本文结合Spring AI与大模型,演示如何通过Tool Calling实现系统API调用,同时处理多轮对话中的会话记忆。
111 1
|
12天前
|
数据采集 SQL 人工智能
长文详解|DataWorks Data+AI一体化开发实战图谱
DataWorks是一站式智能大数据开发治理平台,内置阿里巴巴15年大数据建设方法论,深度适配阿里云MaxCompute、EMR、Hologres、Flink、PAI 等数十种大数据和AI计算服务,为数仓、数据湖、OpenLake湖仓一体数据架构提供智能化ETL开发、数据分析与主动式数据资产治理服务,助力“Data+AI”全生命周期的数据管理。
|
9天前
|
人工智能 数据可视化 关系型数据库
23.5K star!零代码构建AI知识库,这个开源神器让问答系统开发像搭积木一样简单!
FastGPT 是一个基于大语言模型的智能知识库平台,提供开箱即用的数据处理、RAG检索和可视化AI工作流编排能力,让你无需编写代码就能轻松构建复杂的问答系统!
|
9天前
|
人工智能 自然语言处理 运维
让搜索引擎“更懂你”:AI × Elasticsearch MCP Server 开源实战
本文介绍基于Model Context Protocol (MCP)标准的Elasticsearch MCP Server,它为AI助手(如Claude、Cursor等)提供与Elasticsearch数据源交互的能力。文章涵盖MCP概念、Elasticsearch MCP Server的功能特性及实际应用场景,例如数据探索、开发辅助。通过自然语言处理,用户无需掌握复杂查询语法即可操作Elasticsearch,显著降低使用门槛并提升效率。项目开源地址:<https://github.com/awesimon/elasticsearch-mcp>,欢迎体验与反馈。
202 1
|
11天前
|
人工智能 前端开发 Java
AI大模型进阶系列(03) prompt 工程指南 | 实战核心技术有哪些?
本文深入讲解了AI大模型中的prompt工程。文章分析了role角色(system、user、assistant)的意义,message多轮会话记忆机制,以及prompt的核心三要素(上下文背景、输入内容、输出指示)。同时介绍了多种提示优化技术,如少样本提示、CoT链式思考、prompt chaining链式提示、思维树ToT提示等,还展示了让AI生成提示词的方法,为实际应用提供了全面指导。
|
12天前
|
人工智能 开发框架 搜索推荐
27.4K Star!这个LLM应用宝库让你秒变AI全栈高手,RAG和AI Agent一网打尽!
想要快速入门LLM应用开发?想要了解最新的RAG和AI Agent技术?这个收获27.4K Star的开源项目集合了当下最热门的LLM应用案例,从简单的PDF对话到复杂的多智能体系统应该有尽有。无论你是AI开发新手还是经验丰富的工程师,这里都能找到适合你的项目!