Qwen-coder实现本地 RAG 框架能力Bootstrap

本文涉及的产品
NLP 自学习平台,3个模型定制额度 1个月
NLP自然语言处理_高级版,每接口累计50万次
视觉智能开放平台,视频资源包5000点
简介: 本文介绍了如何利用Qwen-coder在本地实现RAG框架能力提升,解决了企业知识库管理中的数据安全和半结构化文档处理问题。通过Qwen2.5-72b模型和多轮对话推理,成功实现了对包含图表内容的文档的高效预处理,提升了知识库检索的准确性和安全性。

引言
我是一名大型企业的IT技术采购负责人,从一年前开始关注基于LLM的企业知识库部署可行方案;我从各种开源框架和LLM模型的组合开始测试,伴随着框架功能的完善,模型能力的提升,切实感受到企业RAG知识库的可用性显著提高,落地时机正逐步成熟,然而将 RAG 框架应用于企业内部的知识库管理时,面临着数据安全、半结构化文档处理等挑战。本文将探讨如何使用Qwen-coder在本地实现RAG框架能力Bootstrap,解决上述问题,并提供详细的技术实现和案例分析。
发现问题
在企业内部,知识库通常包含大量的半结构化文档,如 PDF、Word 文档等,这些文档中往往含有丰富的图表信息。传统的 RAG 框架在处理这类文档时,难以有效完整提取图表中的信息,导致知识库检索的准确性降低。此外,企业在使用外部 API 服务时,还存在数据安全这条红线,这里需要提供足够技术手段使数据泄露安全风险可控,保证原始数据在企业本地存储,提交给API服务接口的输入数据无法恢复出原始数据。如何在保证数据安全的前提下,实现高效的知识库管理和信息检索,成为了一个亟待解决的问题。
定义问题
两个月前,我偶然搜到一篇大模型服务平台百炼实践教程 基于本地知识库构建RAG应用link,如获至宝立刻进行了本地搭建的尝试,测试后发现该方案无法对半结构化文档中的图表信息内容进行提取,这确实对RAG企业知识库实现打了不小折扣;我继续在阿里云的文档与社区中尝试搜索“文档RAG”,发现了文档理解这个产品主题,于是我在阿里云的文档与社区中尝试搜索“文档RAG”,发现了文档理解这个主题,点入后体验了文档智能解析的轻应用之后,一切豁然开朗:只要本地调用文档理解API,就可以实现文档页面中包含图表内容的全量分析提取,从而可以解决上述问题,而且在API调用过程中,原始数据被同步为生命周期为12小时的页面快照,该快照为受限访问,上述措施保证了企业数据的安全可控。到这里,我忽然萌生了一个想法,尝试通过RAG知识库的工作范式,来实现文档理解个预处理过程的闭环Bootstrap。
解决问题
之前在开源框架和LLM模型测试中,受限于本地显卡资源,只尝试过Qwen2.5-14b版本,这次断然要领教一下Qwen2.5-72b的魄力。按link链接的实践教程创建并启动本地RAG应用,如图chat.png
首先制作上传文档解析的API文档,选定模型Qwen2.5-72b,参数配置中,“最大回复长度”表示生成代码及其说明的总token量,为了得到完整的生成结果,这个值尽可能选最大值;"携带上下文轮数"表示之前n轮次的对话内容可保留进行再推理的,我对这个代码生成范式很有信心,认为9轮内肯定能生成符合期望的代码,召回片断数量我选了“5”,因为API文档很确定给出了代码实现的顺序步骤与结果响应的规范,且各步骤及其响应消息间不存在混叠;用户提示词:作为一位python编程专家,你的任务是使用专业的python编程语言来实现用户的具体需求。该需求:通过图形化界面选择本地文档(文件类型可为pdf、doc、docx、xlsx、xls、txt、md),通过文档解析(大模型版)接口调用,按步骤顺序处理,在每个步骤打印接口调用的消息,最后获取该本地文档的全部解析结果,并把该结果写入一个本地文本文件,新文本文件命名规则:原本地文档的文件名加上"预处理”。请针对该需求编写高效且规范的python代码。在编写过程中,请考虑代码的可读性、运行效率及异常处理,并假设你有完整的类库和框架支持。为确保解决方案的适用性,请提供相应注释说明关键逻辑部分,以及在必要时如何配置和调用该代码片段。接下来开始确认生成,果然不出所料生成代码存在瑕疵,接连出现了如图所示的报错,Error1.pngbug.png
原因是输入形参数量不匹配,响应消息的状态常量不正确,遇到这些问题只需要在下一轮提示词中,复制命令行的报错内容,并附加上“运行代码出现上述报错,修改与该报错有关的代码”,并执行继续代码生成,多半可以解决当前代码中的bug。但接下来图中的问题有点儿棘手,error2.png
除了需要修正响应数据的类型定义还要在生成输出文本时再进行数据类型转换,最终代码生成没有让我失望,巧妙解了决这个问题,对包含图表内容的半结构文档成功实现了预处理。为了验证上述解决方案的有效性,我选取了包含图中所示图表内容的半结构文档,图表.png
之前未经过预处理的文档,进行Rag知识库检索时无法定位到图表中的大量信息rag0.png
经过预处理的文档,可以正确提取到图表中的信息并实现有效的对话问答。rag1.png
总结
这种基于Rag知识库的工作范式,在参考API文档知识库的基础上,通过有效的提示词和强大的Qwen2.5-72b,在多轮对话推理中实现了文件解析的目标代码;该解决方案在满足企业数据安全合规的同时,增强了原有本地Rag框架对知识库信息获取的完整性,0代码开发实现了框架的闭环Bootstrap

相关文章
|
3天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
4天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
5701 18
|
16天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
8天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
4天前
|
人工智能 容器
三句话开发一个刮刮乐小游戏!暖ta一整个冬天!
本文介绍了如何利用千问开发一款情侣刮刮乐小游戏,通过三步简单指令实现从单个功能到整体框架,再到多端优化的过程,旨在为生活增添乐趣,促进情感交流。在线体验地址已提供,鼓励读者动手尝试,探索编程与AI结合的无限可能。
|
1月前
|
存储 人工智能 弹性计算
阿里云弹性计算_加速计算专场精华概览 | 2024云栖大会回顾
2024年9月19-21日,2024云栖大会在杭州云栖小镇举行,阿里云智能集团资深技术专家、异构计算产品技术负责人王超等多位产品、技术专家,共同带来了题为《AI Infra的前沿技术与应用实践》的专场session。本次专场重点介绍了阿里云AI Infra 产品架构与技术能力,及用户如何使用阿里云灵骏产品进行AI大模型开发、训练和应用。围绕当下大模型训练和推理的技术难点,专家们分享了如何在阿里云上实现稳定、高效、经济的大模型训练,并通过多个客户案例展示了云上大模型训练的显著优势。
|
8天前
|
Cloud Native Apache 流计算
PPT合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
3487 10
PPT合集|Flink Forward Asia 2024 上海站
|
2天前
|
弹性计算 运维 监控
阿里云云服务诊断工具:合作伙伴架构师的深度洞察与优化建议
作为阿里云的合作伙伴架构师,我深入体验了其云服务诊断工具,该工具通过实时监控与历史趋势分析,自动化检查并提供详细的诊断报告,极大提升了运维效率和系统稳定性,特别在处理ECS实例资源不可用等问题时表现突出。此外,它支持预防性维护,帮助识别潜在问题,减少业务中断。尽管如此,仍建议增强诊断效能、扩大云产品覆盖范围、提供自定义诊断选项、加强教育与培训资源、集成第三方工具,以进一步提升用户体验。
605 242
|
22天前
|
人工智能 自然语言处理 前端开发
100个降噪蓝牙耳机免费领,用通义灵码从 0 开始打造一个完整APP
打开手机,录制下你完成的代码效果,发布到你的社交媒体,前 100 个@玺哥超Carry、@通义灵码的粉丝,可以免费获得一个降噪蓝牙耳机。
5932 16
|
4天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
478 37