基于RAG和LLM的水利知识问答系统研究

本文涉及的产品
视觉智能开放平台,视频资源包5000点
NLP自然语言处理_高级版,每接口累计50万次
视觉智能开放平台,图像资源包5000点
简介: 随着全球水资源紧张加剧,我国面临严峻的水资源管理挑战。《十四五规划》提出构建智慧水利体系,通过科技手段提升水情测报和智能调度能力。基于大语言模型(LLM)的水利智能问答系统,利用自然语言处理技术,提供高效、准确的水利信息查询和决策支持,助力水资源管理智能化。该系统通过RAG技术和Agent功能,实现了对水利知识的深度理解和精准回答,适用于水利知识科普、水务治理建议及灾害应急决策等多个场景,推动了水利行业的信息化和智能化发展。

随着全球水资源的日益紧张,我国人均水资源量偏低,约三分之二的城市面临缺水问题,水资源的精细化管理显得尤为重要。为了应对这一挑战,提升水利工程的效率和智能化水平成为关键。《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》中明确提出了构建智慧水利体系的目标,旨在通过科技手段提升水情测报和智能调度能力。
在这一背景下,基于大语言模型(LLM)的水利智能问答系统因其在提升水资源管理水平方面的潜力而受到关注[1]。这类系统能够通过自然语言处理技术,提供高效、准确的水利信息查询和决策支持,从而帮助管理者更好地应对水资源挑战。LLM的发展为垂直领域知识抽取和知识图谱构建提供了新的解决方案,为水利领域的智能化管理带来了新机遇。
然而现有的水利知识问答系统受限于固定模板,但LLM的发展为垂直领域知识抽取提供了新的解决方案,为知识图谱构建带来新机遇[2]。LLM在对话系统、情感分析、机器翻译和文本摘要等自然语言处理任务中展现出卓越的语言处理能力[3][4],提高了语言表达的准确性和自然性。基于LLM的推荐方法也提高了推荐系统的准确性和个性化程度,拓展了应用场景,引起了研究者的关注[5][6]。
综上所述,基于LLM的水利智能问答系统不仅能够提供更自然、灵活的对话交互,还能根据用户输入生成多样化回答,从而推动水利行业的智能化发展。
2 当前大语言模型和水利知识问答系统的现状
自ChatGPT等大语言模型问世以来,智能对话领域迎来了全新的变革。这些大语言模型通过深度学习技术,能够更深入地理解用户的意图和需求,实现更加自然和灵活的对话交互。其复杂推理能力,显著提高复杂问题的回答质量。与传统的水利知识问答系统相比,大语言模型不再受限于固定的语言模板,而是能够根据用户的输入和上下文信息,生成丰富多样的回答。
该项目的实施将推动水利科技创新发展。在研究过程中,需要探索大语言模型在水利领域的应用方法和技术,不断优化模型的性能和准确性。大语言模型适合处理各种类型和领域的文本数据,与提示学习的结合能最大限度的利用大语言模型的泛化能力[7]。这将为水利行业引入新的技术手段和方法,推动水利科技创新的不断进步。
3 水利知识问答系统的研究步骤
本系统的研究步骤分为四步,具体如下:
3.1 数据收集和处理
在研究初期,搜集水利类知识相关书籍、期刊、规范、设计手册等权威资料,同时从政府网站、行业协会等渠道获取最新政策、法规和标准,建立一个全面的水利综合知识库。该知识库将涵盖水利科普常识、水旱灾害防御、防汛历史案例、水利史、水利风景、河湖数据以及相关法律法规等知识。
3.2 调用大语言模型
为了实现对输入信息的提取和解析,选择适用于自然语言处理任务的大语言模型。在选择时,我们需要考虑大模型的性能、训练效果、计算资源等要求,同时还需要考虑连接大模型的网络速度。在LLM选择方面,本系统为用户提供了多样化的选择,用户不仅可以选择目前中文处理能力最强DeepseekV2.5:127b的在线大模型,同时本系统也基于NVIDIA V100服务器集群和Ollama运行了的知名的Qwen:7b本地大模型,使大模型运行速度有了显著的提升。用户可以根据自己对回答效果和运行速度的需求自由选择本系统的LLM,定制化程度更高。
3.3 大语言模型解析
利用我们选择的大语言模型,基于检索增强生成(RAG)对本地知识库进行解析,同时在系统后台对本系统用户输入的自然语言进行解析,抽取关键词,解析用户的意图。此步骤旨在确保该问答系统能够理解用户提问并准确定位到相关水利知识库做出回答。
3.4 系统设计与架构开发
处理完大模型后,本研究开始着手进行完整系统的开发。前端页面采用React开发,设计出登录界面、问答界面、Agent管理界面、文件管理界面、知识库管理界面以及管理员后台管理界面,后端采用Python的Flask框架,在小而精的同时安全性能够得到保证。数据库采用目前主流的MySQL5。
在系统实际运行中,不但要对水利知识知识库进行简单的查询,而且需要大模型对知识库里的数据进行数据分析并得到关键问题的答案反馈给用户。所以使用RAG + Agent 的模式可以使得水利知识问答的生成的答案更加精确、更加贴合实际。
同时,在管理系统方面,本系统也采用了RBAC权限模型,配置了管理员、经理、普通用户三类权限账户,其中管理员账户有最高管理权限,有全部功能的使用权限;经理用户可以管理系统知识库并与管理员账户共享,但不能配置LLM、Prompt、Agent等技术配置;普通用户只能使用最基本的问答功能。
具体如下:
4.4.1检索增强生成(Retrieval-Augmented Generation,简称RAG):
检索增强生成(RAG)是一种创新的方法结合了信息检索和文本生成的人工智能技术,它通过结合大型语言模型(LLM)的生成能力和实时数据检索,来提升人工智能系统在水利领域的性能。

在系统中,首先通过OCR技术将纸质文档转换为可编辑的文本格式,然后利用文档解析技术提取关键信息。这一步骤包括对文档布局的分析、表格结构的识别等,以确保系统能够全面理解文档内容。

任务分发阶段,系统会识别用户查询的具体需求,并将任务分配给相应的处理模块。这一过程涉及到多路召回机制,所谓的“多路召回”策略,就是指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用。
在分析阶段,系统会接收用户的查询,使用embedding将这些查询转换为向量形式。同时,系统也会对水利知识库中的条目进行embedding,创建一个向量空间。接下来,系统执行重排操作,在考虑单个查询与知识库条目的相似度的同时,还会考虑上下文信息和用户的历史交互数据,并通过计算用户查询向量与知识库中各个条目的向量之间的相似度,考虑用户的个人偏好同时,来确定最相关的信息。
而RAG模块与系统后端架构的结合有如下功能。
索引构建:首先需要将相关知识库(如文档、文章、数据库等)进行索引,这通常涉及到文档的分割、向量化和存储。可以使用诸如Elasticsearch、Weaviate、Pinecone等向量数据库来存储这些索引。
检索接口:在Flask应用中创建API接口,用于接收用户查询,并根据查询内容从索引库中检索相关信息。
生成接口:创建另一个API接口,它将用户的查询以及检索到的信息作为输入,发送给语言模型API,并获取生成的答案。
集成与部署:将检索和生成的流程集成到Flask应用中,并部署到服务器上,以便用户可以通过HTTP请求与之交互。
4.4.2 Agent
Agent在AI领域中通常指代一个软件实体,它能够感知环境并采取行动以实现特定目标。本研究开发了低代码制作Agent的功能,管理员只要拖动可视化的执行“代码”模块,即可轻松配置属于自己的水利知识问答系统。本系统中Agent的强大优势如下:
(1)任务分解:在本系统默认配置的水利知识问答系统中,Agent将整个问答流程分解为了人机交互、提取用户问题关键词、在在线搜索引擎中检索结果等步骤,通过这种方式,Agent可以更有效地分配资源,优化每个步骤的执行策略,并减少错误和遗漏的可能性。
(2)人类规划与定义:使用本系统时,管理员可以通过拖动Agent中的具体功能模块,实现各个功能执行的优先级排序,而不用调试各种代码以及参数来进行LLM调优,相对市面上的同类竞品大大降低了使用者的门槛。
(3)减少对提示和模型推理的依赖:在本系统中,管理员无需提前设置很多提示词,只要拖动可视化的逻辑Agent模块,就可以配置出回答效果不错的对话大模型。这意味着Agent可以更加灵活地适应新的任务和环境,而不是仅仅依赖于预先编程的指令。
(4)集成工具和知识:为了执行任务,Agent需要访问和使用各种工具和知识库。这些工具和知识库可以是内部的,比如Agent自己的数据库,也可以是外部的,比如互联网上的资源。通过集成这些工具和知识,Agent能够扩展其能力,执行更复杂的任务。
Agent在系统中的另一重要贡献是支持多场景的全面覆盖。通过模拟水利环境中的各种场景,Agent能够为使用者提供即时问答服务,同时也能作为水利工程师培训的有力工具。
4.5 测试与部署
开发完完整系统后,进行系统集成测试,确保各个组件(前端、后端、数据库、AI大模型)的协同工作无误,同时进行用户测试以收集反馈并根据用户的实际使用体验进行优化。最终将系统部署到云服务器,确保可以扩展和持续可用,满足可能的高访问需求。
4 实用情景
在当前大模型时代,充分发挥大模型的“涌现”能力,并将其有效适配到具体领域场景,已经成为垂直行业建立竞争力的重要关键。在这一背景下,高质量的领域数据与专业知识的融合成为实现这一目标的不可或缺的要素。本系统实现了对水利知识的深度理解和高效问答,有如下几个场景:
(1)为了学习我们中国水文化,学习水利常识,起到对大众的一个科普的作用。
(2)为了给全国各地水务治理方面工作人员提供有效的建议,更好地了解各地水务情况有什么问题,进一步深入了解基层水务问题,提出问题,让大模型提出更有效的建议。
(3)当某地发生洪水、旱灾等自然灾害时,水利系统的工作人员需要快速做出决策来实施补救措施。本系统则可以辅助水利系统的工作人员,结合气象数据、河流水位监测、历史洪水数据等信息,提供应急决策支持。
通过全方面的系统的测试,该系统能够接受用户关于水利知识方面的输入,通过自然语言处理将具体意义输送给大模型,最终以自然语言的形式返回用户所需要的信息。该系统为水利工程师、水利专业教师、制定水利政策相关决策人员提供了一种有效的工具。
5 结语
本文探讨了基于大语言模型的水利知识问答系统的构建与应用,旨在通过先进的人工智能技术提升水利行业的信息化和智能化管理水平。通过整合丰富的水利行业数据,构建了全面的水利知识库,并利用深度学习技术,提高了系统的自然语言处理能力。系统设计采用LLM + RAG 模式,结合了信息检索和文本生成技术,提高了答案的精确性和实用性。实际测试表明,该系统能有效处理水利知识查询,为水利工程师、教育者和政策制定者提供了有力的工具,推动了水利知识的普及和行业的智能化发展。未来,我们将继续优化系统性能,扩展知识库内容,以适应不断变化的水利行业需求,为实现智慧水利贡献力量。
参考文献:
[1] GOERTZEL B. Artificial general intelligence:concept, state of the art, and future prospectsll. journal of artificial general intelligence, 2014, 5(1):1-48.
[2] 杨燕,叶枫,许栋,等.融合大语言模型和提示学习的数字孪生水利知识图谱构建[J/OL].计算机应用,1-11[2024-10-18].http://kns.cnki.net/kcms/detail/51.1307.TP.20240824.1732.002.html.
[3] 程秀峰,李嘉琦,杨金庆,等.大语言模型对学术论文评价的可利用性 探讨[J].图书情报工作,2024,68(18):41-49.DOI:10.13266/j.issn.0252-3116.2024.18.005.
[4] Touvron H, Lavril T, Izacard G, et al. LLaMA: Open and Efficient Foundation Language Models[J]. arXiv preprint arXiv: 230213971, 2023.
[5] Dai S, Shao N, Zhao H, et al. Uncovering ChatGPT's Capabilities in Recommender Systems[C]. Proceedings of the 17th ACM Conference on Recommender Systems, New York, USA, 2023:1126-1132
[6] Liu J, Liu C, Lv R, et al. Is ChatGPT a Good Recommender? A Preliminary Study[C]. Proceedings of the 32nd ACM International Conference on Information and Knowledge Management 2023, Birmingham, United Kingdom, 2023:1-11.
[7] 温森,钱丽,胡茂迪,eta.基于大型语言模型的问答技术研究进展综述.数据分析与知识发现,2024,8(6): 16.29 https://doi.org/10.11925/infotech.2096-3467.2023.0839

相关文章
|
4天前
|
SQL 人工智能 安全
【灵码助力安全1】——利用通义灵码辅助快速代码审计的最佳实践
本文介绍了作者在数据安全比赛中遇到的一个开源框架的代码审计过程。作者使用了多种工具,特别是“通义灵码”,帮助发现了多个高危漏洞,包括路径遍历、文件上传、目录删除、SQL注入和XSS漏洞。文章详细描述了如何利用这些工具进行漏洞定位和验证,并分享了使用“通义灵码”的心得和体验。最后,作者总结了AI在代码审计中的优势和不足,并展望了未来的发展方向。
|
14天前
|
存储 弹性计算 人工智能
阿里云Alex Chen:普惠计算服务,助力企业创新
本文整理自阿里云弹性计算产品线、存储产品线产品负责人陈起鲲(Alex Chen)在2024云栖大会「弹性计算专场-普惠计算服务,助力企业创新」中的分享。在演讲中,他分享了阿里云弹性计算,如何帮助千行百业的客户在多样化的业务环境和不同的计算能力需求下,实现了成本降低和效率提升的实际案例。同时,基于全面升级的CIPU2.0技术,弹性计算全线产品的性能、稳定性等关键指标得到了全面升级。此外,他还宣布了弹性计算包括:通用计算、加速计算和容器计算的全新产品家族,旨在加速AI与云计算的融合,推动客户的业务创新。
|
11天前
|
编解码 Java 程序员
写代码还有专业的编程显示器?
写代码已经十个年头了, 一直都是习惯直接用一台Mac电脑写代码 偶尔接一个显示器, 但是可能因为公司配的显示器不怎么样, 还要接转接头 搞得桌面杂乱无章,分辨率也低,感觉屏幕还是Mac自带的看着舒服
|
18天前
|
存储 人工智能 缓存
AI助理直击要害,从繁复中提炼精华——使用CDN加速访问OSS存储的图片
本案例介绍如何利用AI助理快速实现OSS存储的图片接入CDN,以加速图片访问。通过AI助理提炼关键操作步骤,避免在复杂文档中寻找解决方案。主要步骤包括开通CDN、添加加速域名、配置CNAME等。实测显示,接入CDN后图片加载时间显著缩短,验证了加速效果。此方法大幅提高了操作效率,降低了学习成本。
3211 11
|
13天前
|
存储 缓存 关系型数据库
MySQL事务日志-Redo Log工作原理分析
事务的隔离性和原子性分别通过锁和事务日志实现,而持久性则依赖于事务日志中的`Redo Log`。在MySQL中,`Redo Log`确保已提交事务的数据能持久保存,即使系统崩溃也能通过重做日志恢复数据。其工作原理是记录数据在内存中的更改,待事务提交时写入磁盘。此外,`Redo Log`采用简单的物理日志格式和高效的顺序IO,确保快速提交。通过不同的落盘策略,可在性能和安全性之间做出权衡。
1578 12
|
6天前
|
人工智能 关系型数据库 Serverless
1024,致开发者们——希望和你一起用技术人独有的方式,庆祝你的主场
阿里云开发者社区推出“1024·云上见”程序员节专题活动,包括云上实操、开发者测评和征文三个分会场,提供14个实操活动、3个解决方案、3 个产品方案的测评及征文比赛,旨在帮助开发者提升技能、分享经验,共筑技术梦想。
796 107
|
1月前
|
弹性计算 人工智能 架构师
阿里云携手Altair共拓云上工业仿真新机遇
2024年9月12日,「2024 Altair 技术大会杭州站」成功召开,阿里云弹性计算产品运营与生态负责人何川,与Altair中国技术总监赵阳在会上联合发布了最新的“云上CAE一体机”。
阿里云携手Altair共拓云上工业仿真新机遇
|
19天前
|
人工智能 Serverless API
AI助理精准匹配,为您推荐方案——如何快速在网站上增加一个AI助手
通过向AI助理提问的方式,生成一个技术方案:在网站上增加一个AI助手,提供7*24的全天候服务,即时回答用户的问题和解决他们可能遇到的问题,无需等待人工客服上班,显著提升用户体验。
1537 9
|
6天前
|
SQL 存储 人工智能
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
DataAgent如何助理业务和研发成为业务参谋?如何快速低成本的创建行业数据分类标准?如何管控数据源表的访问权限?如何满足企业安全审计需求?
390 0
【产品升级】Dataphin V4.3重大升级:AI“弄潮儿”,数据资产智能化
|
3天前
|
人工智能 自然语言处理 程序员
提交通义灵码创新实践文章,重磅好礼只等你来!
通义灵码创新实践征集赛正式开启,发布征文有机会获得重磅好礼+流量福利,快来参加吧!
214 7

热门文章

最新文章