【NeurIPS'24】阿里云 PAI 团队论文被收录为 Spotlight,并完成主题演讲分享

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 12月10日,NeurIPS 2024在温哥华开幕,阿里云PAI团队论文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》入选Spotlight,PAI团队还进行了“可信AI的技术解读与最佳实践”主题演讲,展示AI工程化平台产品能力。

当地时间12月10日,人工智能领域全球顶级学术会议 NeurIPS (Annual Conference on Neural Information Processing Systems) 在加拿大温哥华正式召开。官方数据显示,NeurIPS 2024共收到超一万五千篇有效论文投稿,投稿量创新高,参会人数超万人规模。

阿里云 PAI 团队的论文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》被 NeurIPS D&B Track 2024 收录,并被列为 Spotlight,本年度 NeurIPS 的 Spotlight 论文录取率仅为3%。论文通过对大语言模型真实知识能力的评估,揭示现有静态评测集指标的可信性问题以及大语言模型知识掌握中的各种弱点,并指导改进的发展。

同时,在本次会议中,PAI 团队为参会者带来主题演讲分享、AI 工程化平台产品能力 Demo。演讲分享的议题为“可信 AI 的技术解读与最佳实践”,深入研讨在大语言模型广泛应用的当下,如何保障使用 AI 全流程的安全、可靠和可信。

中选论文

论文《PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations》被 NeurIPS 2024 收录,并入选 Spotlight。PertEval 是一款大型语言模型评估工具包,通过引入“知识不变扰动”的创新概念,对静态基准(static benchmarks)进行改写,从而更准确地揭示大型语言模型(LLMs)的真实知识能力。
image.png
image.png

  • 革新评估方式,提升可信度
    传统上,评估 LLM 性能的方法依赖于静态基准测试,例如 MMLU 和 C-Eval 等,这些方法虽然广泛使用,但存在明显的局限性和数据污染风险,导致对模型真实能力的认知失真。PertEval 通过应用知识不变扰动,确保了在不改变模型所识别和应用的知识前提下,对原始评估问题进行修改。这种方法缓解了由于记忆效应和数据污染造成的评估失真问题,显著提高评估结果可靠性。
  • 揭示现有评估方法的不足
    研究团队利用 PertEval 重新评估了六个代表性的 LLM,包括 GPT-4,并发现这些模型在MMLU 等静态基准上的表现被显著高估,其中 GPT-4 的表现被绝对高估了26%。进一步分析显示,这种虚高的性能主要源自 LLM 面对不确定知识时表现出的犹豫不决,以及对正确答案的死记硬背现象。这表明当前的评估方法可能无法充分反映 LLM 在实际应用中的表现。
  • 推动行业进步,指导未来研究
    这项研究表明,为了更好地理解和改进 LLM 的能力,需要一种能够体现其真实性能的评估方法。PertEval 提供了一种新的视角和工具,以帮助研究人员和开发者更准确地评估和优化 LLM。后续,计划将 PertEval 整合到 PAI 平台中,支持一键式开启任意模型(无论是 API、开源还是微调后的模型)的真实能力评估。此外,还将通过 leadboard 的方式向开发者社区反馈主流 LLM 的“知识能力”度量,促进整个行业的健康发展。

PertEval 的推出标志着在提升 LLM 评估准确性方面迈出的重要一步,为推动 AI 技术的进步提供了有力的支持。随着这一工具的广泛应用,我们期待看到更加可靠和公平的模型评估标准,以及由此带来的技术创新。
论文标题:PertEval: Unveiling Real Knowledge Capacity of LLMs with Knowledge-Invariant Perturbations
论文作者:Jiatong Li, Renjun Hu, Kunzhe Huang, Yan Zhuang, Qi Liu, Mengxiao Zhu, Xing Shi, Wei Lin

论文地址https://arxiv.org/abs/2405.19740

演讲分享

▶ 演讲标题:可信 AI 的技术解读与最佳实践
Core Technical Interpretation and Best Practices of Responsible AI
▶ 演讲人:林伟 | 阿里云智能集团研究员、人工智能平台 PAI 负责人
image.png

演讲为 NeurIPS 参会者带来阿里云人工智能平台 PAI 的企业级可信 AI 解决方案以及技术解析。PAI 平台提供的安全、可靠和可信的 AI 解决方案,通过确保数据合规与安全、算法稳健性与可靠性、模型可信度和基础设施安全与稳定性这四大关键要素得以实现。为实现可信 AI,PAI 团队创新性地提出了 T 型安全架构。从垂直的角度考虑,从下至上保障云计算基础设施、数据和模型、AI 应用的安全;从水平的角度考虑,覆盖数据准备、模型训练和模型部署的 AI 开发全链路。目前,可信 AI-公平性分析、可信 AI-错误分析功能均已上线,欢迎您前往阿里云人工智能平台 PAI 体验。

更多原理介绍和操作步骤,请参考产品文档 「人工智能平台 PAI-Responsible AI」:

产品能力展示

▶ 主题:AI Native 的大模型与 AIGC 工程平台

阿里云人工智能平台 PAI 提供包含数据集管理、算力管理、模型工具链、模型开发、模型训练、模型部署、AI 资产管理在内的功能模块,内置100+种大模型最佳实践,为用户提供高性能、高稳定、企业级的大模型工程化能力。在本次平台产品能力 Demo 环节,人工智能平台 PAI 为大家带来包含以下多个实操展示:

1、以 Qwen2.5-Coder 为例,完成大语言模型微调训练、部署和评测
2、通过 PAI-EAS,搭建企业级大模型 RAG 对话系统
3、通过 PAI-裁判员模型,实现高效易用的智能模型评测
4、通过 PAI-Artlab,体验自动化的一站式 AIGC 设计平台
现场数百位参会者体验 PAI 平台的能力。目前,所有 Demo 均已在线上开放,欢迎您前往阿里云人工智能平台 PAI 体验。
image.png

如您对我们的论文或产品感兴趣,或希望加入我们,欢迎您前往 NeurIPS2024 - Alibaba Cloud 展台深入交流(West Hall A-Sponsor Exhibit Hall booth 143),期待您的到来!

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
8天前
|
人工智能 JSON 算法
魔搭支持在阿里云人工智能平台PAI上进行模型训练、部署了!
现在,魔搭上的众多模型支持在阿里云人工智能平台PAI-Model Gallery上使用阿里云算力资源进行模型训练和部署啦!
|
3天前
|
人工智能 自然语言处理 安全
通过阿里云Milvus与PAI搭建高效的检索增强对话系统
阿里云向量检索Milvus版是一款全托管的云服务,兼容开源Milvus并支持无缝迁移。它提供大规模AI向量数据的相似性检索服务,具备易用性、可用性、安全性和低成本等优势,适用于多模态搜索、检索增强生成(RAG)、搜索推荐、内容风险识别等场景。用户可通过PAI平台部署RAG系统,创建和配置Milvus实例,并利用Attu工具进行可视化操作,快速开发和部署应用。使用前需确保Milvus实例和PAI在相同地域,并完成相关配置与开通服务。
|
21天前
|
开发者 Python
阿里云PAI DSW快速部署服务
在使用阿里云DSW实例进行开发的时候,可能需要快速部署服务测试应用效果。DSW实例目前已经支持通过自定义服务访问配置功能,对外提供服务访问能力,您在应用开发过程中无需分享整个DSW实例,即可将服务分享给协作开发者进行测试和验证。
72 23
|
7天前
|
并行计算 PyTorch 算法框架/工具
阿里云PAI-部署Qwen2-VL-72B
阿里云PAI-部署Qwen2-VL-72B踩坑实录
|
2月前
|
机器学习/深度学习 人工智能 算法
国内首家! 阿里云人工智能平台 PAI 通过 ITU 国际标准测评
阿里云人工智能平台 PAI 顺利通过中国信通院组织的 ITU-T AICP-GA国际标准和《智算工程平台能力要求》国内标准一致性测评,成为国内首家通过该标准的企业。阿里云人工智能平台 PAI 参与完成了智算安全、AI 能力中心、数据工程、模型开发训练、模型推理部署等全部八个能力域,共计220余个用例的测试,并100%通过测试要求,获得了 ITU 国际标准和国内可信云标准评估通过双证书。
国内首家! 阿里云人工智能平台 PAI 通过 ITU 国际标准测评
|
2月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
146 4
|
6天前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
76 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
22天前
|
算法
PAI下面的gbdt、xgboost、ps-smart 算法如何优化?
设置gbdt 、xgboost等算法的样本和特征的采样率
44 2
|
2月前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
54 1
|
2月前
|
机器学习/深度学习 自然语言处理 算法
深入理解机器学习算法:从线性回归到神经网络
深入理解机器学习算法:从线性回归到神经网络

相关产品

  • 人工智能平台 PAI
  • 下一篇
    开通oss服务