本文来源于阿里云社区电子书《百炼成金-大金融模型新篇章》
《百炼成金-大金融模型新篇章》––10.金融级AI原生的六大要素(2):https://developer.aliyun.com/article/1539485
内容安全:采用知识计算的风险防控模式(采用人机协同的方式定义计算框架),主要涉及到数据层、知识层、算子层三个层面的能力。
● 数据层汇聚了涉及内容风险的原始数据,以及针对不同风险领域精炼加工的结构化数据;
● 知识层包含预训练模型和知识图谱,预训练模型用于实现对通用数据的归纳,知识图谱实现对风控专业知识的组织与沉淀,解决知识碎片化、数据获取难的问题;
● 算子层拆解出目标更明确的简单任务,构建端到端的神经算子,实现风险复杂判定逻辑简化解耦。
大模型的合规性关乎遵守相关法律、法规和内部政策,确保大模型的应用不违反任何法律规定,并保护消费者的利益。
数据隐私与保护,语言大模型的主要功能是模拟人类的思维活动方式生成人类可以理解和使用的内容,模型的训练对语料库这一类知识性内容有强烈的需求,但不依赖和使用用户行为数据。
透明度和可解释性,金融等行业的监管机构要求理解 AI 模型的决策过程,尤其在关系到重大决定如贷款审批或保险索赔时。因此提高模型的透明度和可解释性是一个重要的合规要求。
偏见和公平,消除这些偏见并确保模型对所有人群公平是模型合规性的重要部分。
持续监管和审计,合规性不是一次性的任务,而是需要持续监管和审计。金融机构等需要确保使用的大模型在整个生命周期内都符合监管要求,并能适应法规的变化。
大模型的合规性是一个多层面的、涉及多个利益相关者的挑战,需要综合技术、法律和道德考虑来处理。金融机构在使用大模型时需要密切关注相关法律法规的发展,并且可能需要专门的法律和技术专家团队来确保模型遵循所有适用的合规要求。
要素 5:准确性与严肃性
大模型的“准确性”与“严肃性”是两个评估模型性能和适用性的关键维度,特别是在涉及专业场景和重要决策时尤为重要。
准确性是衡量大模型输出结果与预期目标或实际情况相符的程度。模型在处理给定任务时,例如回答问题、分类文档、翻译文本或者识别图像时,其输出与真实答案或标准标签的匹配程度。严肃性在大模型的语境下,更多指模型生成内容的专业性、可靠性、责任性和道德规范性。在金融这个高度专业化和监管严格的领域,大模型产出的信息必须是经过严格筛选、无误导性且遵循行业规范的。严肃性还包括模型不得滥用或传播不实、不恰当或有害的信息。
为了保证大模型的准确性和严肃性,不仅要在技术层面提升模型的泛化能力和知识完备性,还要在训练数据、模型设计、后处理步骤等方面进行严格控制,并结合领域专家知识、实时监控和用户反馈进行持续优化和修正。同时,对于可能出现的伦理和社会影响问题,也要有相应的政策和机制来预防和应对。
下面是某证券公司的实施案例:
1、构建知识库:基于咨询信息、专业内容、投教百科研报、投研框架、指标信息等,构建基础投研知识库。并将以往历史问答、专家经验以投研框架的方式进行回流,实现持续性的知识生产和知识库运营。
2、知识加工:将各种知识,经过以下的步骤进行处理,文本分段(chunking)、类目标签、实体抽取、质量分、向量表示、item 的时效性等,形成相应的向量。
3、知识检索:用户的 query 进来,经过 Query 改写、向量召回和相关性模型打分等几个步骤,把得分高的知识送到大模型。
4、观点打分:对与大模型生成观点,由专家进行打分。作为 RLHF 的训练样本,从而不断优化模型。
要素 6:开放性与兼容性
金融级 AI 原生开放性的核心,在于确保安全合规的基础之上,借助先进的技术架构与广泛的生态合作力量,驱动金融服务向智能化方向转型升级,加快创新步伐,满足日益增长的市场需求。而大模型的开源实践,则成为了实现这一开放性愿景最为直接且高效的战略路径。开源对于创新活力、产业生态、行业发展、模型优化都具有重大意义。开源模型可以降低技术门槛,使得更多的研究者和开发者能够访问最先进的 AI 工具,受到启发,提升创新活力。
开源大模型通过社区的方式,吸引开发者和研究人员共同改进模型,以及在模型的基础上构建各种工具,推动模型的深度应用,打造产业生态。促进行业发展,一方面,企业间开放共享可以减少重复开发相同功能的模型所浪费的资源,使得企业能够集中精力在差异性的研究上;另一方面,开源允许任何人在代码级别检查模型的行为和性能,增强了大模型的代码透明度。最后,开源社区的使用者往往具有较高的技术水平,开源模型可以让企业获得来自社区的宝贵反馈,有助于改进模型的性能和功能。
通过开源模型 + 商业版模型组合方式的积极实践,得益于开源社区的生态支持和开发者反馈,使得模型可以在性能及能力上不断优化和增强,另外商业版模型提供了持续的技术支持与咨询服务,以及企业级的安全与隐私保护,所以金融企业在商业化大模型应用时,往往采购商业版本的基础模型。
大模型相较于传统深度学习模型,在规模上实现了显著的扩容,随之而来的是对计算资源的大幅增长需求。在各种 GPU 资源出现时,推理平台能兼容各种芯片,成为了亟待解决的基本问题。与此同时,开源领域的创新势头迅猛,不仅涌现出 Llama、Qwen、Mistral/Mixtral、ChatGLM、Falcon 等诸多新型模型,还在模型优化方面不断突破,例如发展出有损与无损的 Attention 算法、多种量化技术革新、投机采样及 LookAhead 等新颖采样策略,要能适应算法的更新发展。推理层面上,主流的推理框架如 vLLM、HuggingFaceTGI(TextGenerationInference)、FasterTransformer 以及 DeepSpeed,引领了推理特性的新变革,对推理提出了新的要求。
针对上述挑战,一个综合模型、系统、集群与应用层面的协同优化、兼容异构 GPU、各种大模型、推理框架的平台显得尤为重要,旨在实现卓越的性能与成本效益比。
模型层面:MQA(MultiQueryAttention)和 GQA(Group-QueryAttention是许多大模型推理优化的核心探索方向,以及模型的 MOE(Mixture-of-Experts)架构。
系统层面:聚焦于高性能计算算子的开发,优化模型并行执行、显存管理与执行框架,同时强化请求调度能力,确保系统运行的高效与流畅。
集群层面:通过智能的请求调度机制,最大化集群处理能力,有效整合异构资源,提升资源利用率至最优状态。
应用层面:深入分析 LLM 的工作负载特性,将 Prompt 缓存等针对性优化措施融入系统设计,进一步增强应用的响应速度与用户体验。