暗藏 “基因缺陷”?阿里云大模型原生安全免疫机制

本文涉及的产品
Web应用防火墙 3.0,每月20元额度 3个月
云安全中心 免费版,不限时长
云安全态势管理CSPM免费试用,1000次1年
简介: 大模型原生安全的发展和治理

Gartner 2024年发布生成式 AI 领域的两大核心风险:

大模型滥用可能生成更具迷惑性的虚假信息;

因事实偏差和推理错误产生的模型幻觉。

被高频提及的幻觉,仿佛是大模型泛化能力的“基因缺陷”级伴生问题。

现实世界中,人的幻觉比大模型严重多了,幻觉是否会成为大模型应用落地的掣肘之一?

本期《安全记》栏目邀请阿里云研究院院长穆飞担任主持人,和阿里云通义大模型安全负责人张荣,聚焦 “大模型原生安全的发展和治理” 主题,深入探讨阿里云在大模型的预训练、后训练以及推理阶段,如何借助技术手段加强安全与合规,减少幻觉和指令攻击等问题,结合通义大模型的一线实践经验,剖析大模型原生安全理念下的技术发展趋势。

本文基于访谈嘉宾观点进行提炼,完整版内容请点击下方视频。

视频详情见阿里云安全微信公众号

大模型泛化能力背后的幻觉与指令攻击

大语言模型的技术原理是基于概率统计的自回归预测。

它通过token(词元)来表达整个世界,不是模拟人类理解语言的方式,而是计算token出现的概率,依赖统计相关性而非事实判断。基于万亿级的token的海量数据训练出来的单一模型可以较好地执行多个任务,这便是模型的泛化能力。

大模型的泛化能力是一把双刃剑,它既能适应多种任务,也可能产生看似有道理实则有问题的输出,即幻觉。

抑制幻觉的三个技术手段:

  • 通过 SFT(有监督微调)和 DPO(直接偏好优化)等方法提升模型对特定问题的准确性。
  • 调整模型参数(如参数Temperature)可平衡输出特性。
  • 引入外部知识库进行检索增强,可进一步优化模型对特定问题的准确性。

然而,张荣指出,幻觉与模型泛化能力一体两面,是可用性与可靠性的博弈,不能简单视幻觉为缺陷,需客观对待,避免过度抑制幻觉而牺牲泛化能力。

同时,即便采取这些手段,仍存在指令攻击问题,即通过精心设计提示词操控模型产生有害输出。指令攻击源于概率生成的开放性缺陷、语义理解的局限性及对齐机制的覆盖盲区。技术原理导致的问题不能完全解决,但可以通过技术措施来加以改善。例如应对指令攻击,可在模型训练完成后构建含诱导等内容的评测集,评测模型生成内容,评估其防御能力并采取相应改善措施。

全流程防护秘籍从训练到推理的大模型原生安全

训练阶段分为预训练和后训练。

  • 预训练阶段
    模型通过学习网页、书籍、论文等多种类型的文本,获取广泛的世界知识,并过滤掉违法不良信息。
  • 后训练阶段
    包括有监督微调(SFT)和直接偏好优化(DPO),在此阶段加入安全语料以增强模型的安全性。

SFT和DPO技术核心都是利用高质量安全语料,在保持多样化和灵活化的前提下,增强模型对正确答案的倾向性,减少低概率长尾错误token的采样。

推理阶段的安全工作,主要是对模型输入做干预。通义大模型在模型推理阶段的安全防护有一些较好的实践,如:

  • 动态System Prompt
    根据用户提问的场景,动态调整System Prompt,修改模型初始隐藏状态,抑制危险token的输出概率分布,引导模型生成安全回答。
  • 安全护栏宪法式防控
    对用户输入进行实时检测,发现恶意提问时,将恶意意图改为善意,替换负向词汇,引导模型输出正向积极内容。
  • 检索增强
    在特定专业领域,通过外部知识库支持,提升模型对特定知识的时效性和准确性,确保模型输出内容的专业性和可靠性。

开源模型的责任与未来

据阿里云研究院调研,较去年12月,仅用开源模型的企业从35%升至47%,还有50%的企业同时使用开源和闭源模型,大家对开源模型的接受度越来越高。

模型开源的核心意义在于普惠性和透明性,同时可以推动技术快速迭代,在国际上构建核心竞争力。以通义大模型为例,其开源过程中采取了多项负责任的措施。

  • 首先,严格遵守合规要求,包括算法备案、大模型备案以及预训练语料的筛选和过滤。
  • 其次,注重安全性,通过安全的 SFT 和 DPO 等措施保障模型后训练阶段的安全性。
  • 同时,开源不仅提供模型参数,还公布了大量推理代码、论文和技术报告,披露安全工作细节。
  • 此外,通义大模型通过持续运营与开发者互动,及时修复问题并迭代更新。通过阿里云运营的模型开源社区——魔搭社区,鼓励开发者贡献数据集和技术工具,推动了大模型安全水平的持续提升。

最后,张荣以原生安全、跨模态、端云协同三个技术关键词描述下一代大模型安全架构,未来需朝着这些方向持续探索,以适应大模型的快速发展,构建更安全、更可靠的大模型应用环境,推动大模型技术在保障安全的前提下实现更大价值,助力各行业的智能化升级与发展。

相关文章
|
8天前
|
程序员 定位技术 开发者
试了试阿里云的通义灵码 2.5 版
通义灵码 2.5 版是个特别实用的工具,无论是个人开发者还是企业团队,都能从中受益。如果你也在找能提升开发效率的工具,通义灵码绝对值得一试!
74 33
试了试阿里云的通义灵码 2.5 版
|
3天前
|
存储 人工智能 运维
MoE大模型迎来“原生战友”:昇腾超节点重构AI基础设施
大模型训练中,MoE架构逐渐成为主流,但也面临资源利用率低、系统稳定性差、通信带宽瓶颈三大挑战。传统AI集群难以满足其需求,而“昇腾超节点”通过自研高速互联协议、软硬件协同调度、全局内存统一编址及系统稳定性提升等创新,实现384张卡协同工作,大幅提升训练效率与推理性能。相比传统方案,昇腾超节点将训练效率提升3倍,推理吞吐提升6倍,助力MoE模型在工业、能源等领域的规模化应用。5月19日的鲲鹏昇腾创享周直播将深度解析相关技术细节。
47 15
|
13天前
|
关系型数据库 OLAP 数据库
拒绝等待!阿里云瑶池数据库 x Qwen3,构建增强式RAG
阿里巴巴发布的通义千问Qwen3在性能上超越多个国际顶尖模型,阿里云瑶池数据库已适配该模型,支持私域部署并与Dify无缝集成。传统RAG方案在处理复杂关系和多跳推理时存在局限,而GraphRAG通过图结构存储知识,结合Qwen3和AnalyticDB PostgreSQL,可有效解决这些问题,提升知识关联检索与分析能力。某新零售客户案例表明,GraphRAG能更好地满足高复杂度业务需求,提供直观的知识图谱可视化服务。阿里云提供Qwen3全系列模型的私域部署解决方案,确保数据安全和服务稳定性。
|
27天前
|
存储 人工智能 监控
通过阿里云Milvus与通义千问VL大模型,快速实现多模态搜索
阿里云向量检索服务Milvus版是一款全托管向量检索引擎,并确保与开源Milvus的完全兼容性,支持无缝迁移。它在开源版本的基础上增强了可扩展性,能提供大规模AI向量数据的相似性检索服务。凭借其开箱即用的特性、灵活的扩展能力和全链路监控告警,Milvus云服务成为多样化AI应用场景的理想选择,包括多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等。您还可以利用开源的Attu工具进行可视化操作,进一步促进应用的快速开发和部署。
|
1月前
|
人工智能 云计算 开发者
南京大学与阿里云联合启动人工智能人才培养合作计划,已将通义灵码引入软件学院课程体系
近日,南京大学与阿里云宣布启动人工智能人才培养合作计划,共同培养适应未来技术变革、具备跨学科思维的AI创新人才。
|
2月前
|
人工智能 自然语言处理 机器人
9.9K star!大模型原生即时通信机器人平台,这个开源项目让AI对话更智能!
"😎高稳定、🧩支持插件、🦄多模态 - 大模型原生即时通信机器人平台"
|
17天前
|
缓存 并行计算 测试技术
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
148 11
|
1月前
|
人工智能 自然语言处理 搜索推荐
阿里云 AI 搜索开放平台新功能发布:大模型联网能力上线
阿里云 AI 搜索开放平台此次新增了大模型联网能力,通过集成大语言模型(LLM)和联网搜索技术,为用户提供更智能、更全面的搜索体验。
401 25
|
20天前
|
人工智能 开发工具
阿里云AI Stack全量适配Qwen3模型,企业级部署效率全面升级
2025年4月29日的凌晨5点,阿里全新一代模型通义千问Qwen3正式发布并全部开源8款「混合推理模型」,包含: 6款Dense模型:0.6B、1.7B、4B、8B、14B、32B。 2款MoE模型:Qwen3-30B-A3B和旗舰版Qwen3-235B-A22B。 阿里云AI Stack已适配全量Qwen3模型,可快速部署实现Qwen3模型的开箱即用!
112 4
|
1月前
|
存储 人工智能 开发者
浙江大学与阿里云宣布合作人工智能通识课,通义灵码系列课程率先落地
浙江大学与阿里云联合宣布共建人工智能通识课,将在“AI+行业”课程方面从产、学、研角度,共同围绕教育、法律、设计、金融、人文和艺术等多个重点学科方向,将真实产业案例深度融入浙江大学人工智能通识课程体系。

热门文章

最新文章