【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法能力方面研究获得了学术界认可。

近期,阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法能力方面研究获得了学术界认可。

1. 论文简述

面向长文本的文视频表征学习与检索模型 VideoCLIP-XL

CLIP 模型在视觉-语言预训练领域已经取得了重要进展。然而,原始 CLIP 模型的一个显著局限性是处理长文本描述的能力受限。原始 CLIP 模型的训练过程中对简短的摘要性文本的强调迫使文本/视觉编码器主要关注文本/视觉输入中的主要特征,常常忽视一些较小但潜在关键的细节。为了解决这些限制,该工作提出了一个名为 VideoCLIP-XL 的视频 CLIP 模型,旨在提升对视频的长文本描述的理解能力。其首先构建了一个大规模的视频-长描述配对数据集 VILD,并在预训练阶段提出了一种文本相似度引导的主成分匹配方法(TPCM)来优化高维特征空间的学习。
image.png

此外,该工作提出能够理解长描述的视频 CLIP 模型应当体现两个特征:给定一个视频及其相关描述,CLIP 类模型应该对(1)具有更丰富和更精确细节的描述以及(2)在相同细节水平下更准确即幻觉更少的描述赋予更高的分数。为此,其提出两个新的预训练任务:细节描述排序(DDR)和幻觉描述排序(HDR)。此外,该工作也建立了一个新的视频长描述排序基准测评集(LVDR),来更全面地评估视频 CLIP 模型的性能。
image.png

基于多任务课程规划的大语言模型蒸馏算法

大语言模型在回答开放领域通用任务的指令上取得了很大地进步。指令微调是微调预训练模型,使其从文本补全模型成为强大的对话模型的关键。尽管已有研究探索了使用强大的黑盒教师模型(如GPT-4, Qwen-max)来自动蒸馏和标注指令的方法,但这些研究往往忽视了微调训练集中任务的多样性分布,以及训练集中指令难度的差异,这可能导致学生 LLMs 知识能力的不平衡和解决复杂任务的能力的不足。为了解决这些挑战,这篇文章介绍了一个名为 TAPIR 的知识蒸馏框架,它通过多任务课程规划来蒸馏黑盒大语言模型的指令回答能力,在蒸馏和多轮迭代过程中,使用教师 LLM 做为裁判找出对于学生 LLM 来说难以回答的指令,进行难度重采样。并调整多任务配比进行训练集中的任务多样性分布的重采样,并根据相应多任务特点自动优化教师模型的回答风格。
image.png

该工作创新性地用显式的任务标签配比代替隐式的句向量多样性。在任务重采样的过程中,大大增加数学推理代码类任务的数据比例。首次提出了模型拟合难度 (MFD) 指标,来表示数据难度大小,并在多轮迭代优化的过程中提升困难数据占比。提升模型从弱到强的泛化速度。在 AlpacaEval 排行榜上,我们微调后的 LLaMA2-7B 底座获得了7.8的相对分数,超过了参数量、数据量都远大于我们的知名开源模型模型(LLaMA2-Chat-13B,Vicuna 13B)。我们持续优化了 Qwen 系列模型的指令回答能力,优化 Qwen1.5系列模型在 AlpacaEval 榜单上提升3-8个百分点。
image.png

2. 产品化服务

上述科研成果也在人工智能平台PAI的各个模块进行了深度的集成和整合,持续为PAI客户提供AI模型训练和推理相关服务。其中,VideoCLIP-XL作为文视频质量评估模块,与EasyAnimate视频生成解决方案无缝融合,支持用户轻松实现文视频语义一致性计算和数据过滤,从而训练AIGC视频生成大模型。在智码实验室,我们也上架了“VideoCLIP-XL:面向超长文本的文视频跨模态特征抽取”的notebook。
用于数据增强和改写的蒸馏模型也已经上架PAI平台,为用户提供简单易用的大模型蒸馏解决方案。基于Qwen2的开源模型,PAI也在开源了DistilQwen2蒸馏小模型系列,进一步提升了模型的指令跟随能力,在HuggingFace和ModelScope开源社区开放下载。
此外,PAI-QuickStart集成了超过50个热门大语言模型,及其多种训练和推理方式,使客户更加简单地微调和部署大语言模型。在未来,我们也将在PAI平台上持续提供业界领先的算法和模型能力给广大客户。

资源链接

文-视频多模态

大模型蒸馏

论文汇总

  • 论文名字:VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models
  • 论文作者:汪嘉鹏、汪诚愚、黄坤哲、黄俊、金连文
  • 论文pdf链接:https://arxiv.org/abs/2410.00741
  • 论文名字:Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning
  • 论文作者:岳元浩、汪诚愚、黄俊、王鹏
    论文pdf链接:https://arxiv.org/abs/2405.13448

阿里云人工智能平台 PAI 长期招聘研究实习生。团队专注于深度学习算法研究与应用,重点聚焦大语言模型和多模态 AIGC 大模型的应用算法研究和应用。简历投递和咨询:chengyu.wcy@alibaba-inc.com。

相关实践学习
使用PAI+LLaMA Factory微调Qwen2-VL模型,搭建文旅领域知识问答机器人
使用PAI和LLaMA Factory框架,基于全参方法微调 Qwen2-VL模型,使其能够进行文旅领域知识问答,同时通过人工测试验证了微调的效果。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
2月前
|
机器学习/深度学习 人工智能 测试技术
EdgeMark:嵌入式人工智能工具的自动化与基准测试系统——论文阅读
EdgeMark是一个面向嵌入式AI的自动化部署与基准测试系统,支持TensorFlow Lite Micro、Edge Impulse等主流工具,通过模块化架构实现模型生成、优化、转换与部署全流程自动化,并提供跨平台性能对比,助力开发者在资源受限设备上高效选择与部署AI模型。
343 9
EdgeMark:嵌入式人工智能工具的自动化与基准测试系统——论文阅读
|
6月前
|
人工智能
复旦大学X阿里云:启动人工智能教育教学新合作丨云工开物
在复旦大学建校120周年之际,阿里云与复旦达成人工智能教育教学合作,通过算力资源、实验工具及课程共建等方式支持“AI大课2.0”。此次合作深化了双方在AI for Science领域的实践,从科研拓展至教育领域。自2023年起,双方共建CFFF智算平台,服务超5200名师生;2024年,“云工开物”计划助力复旦AI课程体系建设;2025年启动大模型认证合作,推动AI教育新模式。未来,阿里云将持续赋能复旦的人才培养与教育创新。
|
7月前
|
人工智能 云计算 开发者
南京大学与阿里云联合启动人工智能人才培养合作计划,已将通义灵码引入软件学院课程体系
近日,南京大学与阿里云宣布启动人工智能人才培养合作计划,共同培养适应未来技术变革、具备跨学科思维的AI创新人才。
|
6月前
|
机器学习/深度学习 人工智能 算法
PaperCoder:一种利用大型语言模型自动生成机器学习论文代码的框架
PaperCoder是一种基于多智能体LLM框架的工具,可自动将机器学习研究论文转化为代码库。它通过规划、分析和生成三个阶段,系统性地实现从论文到代码的转化,解决当前研究中代码缺失导致的可复现性问题。实验表明,PaperCoder在自动生成高质量代码方面显著优于基线方法,并获得专家高度认可。这一工具降低了验证研究成果的门槛,推动科研透明与高效。
516 19
PaperCoder:一种利用大型语言模型自动生成机器学习论文代码的框架
|
6月前
|
PyTorch 调度 算法框架/工具
阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析
DLC任务Pytorch launch_agent Socket Timeout问题源码分析与解决方案
341 18
阿里云PAI-DLC任务Pytorch launch_agent Socket Timeout问题源码分析
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
阿里云人工智能平台 PAI 开源 EasyDistill 框架助力大语言模型轻松瘦身
本文介绍了阿里云人工智能平台 PAI 推出的开源工具包 EasyDistill。随着大语言模型的复杂性和规模增长,它们面临计算需求和训练成本的障碍。知识蒸馏旨在不显著降低性能的前提下,将大模型转化为更小、更高效的版本以降低训练和推理成本。EasyDistill 框架简化了知识蒸馏过程,其具备多种功能模块,包括数据合成、基础和进阶蒸馏训练。通过数据合成,丰富训练集的多样性;基础和进阶蒸馏训练则涵盖黑盒和白盒知识转移策略、强化学习及偏好优化,从而提升小模型的性能。
|
6月前
|
人工智能 弹性计算 程序员
青岛城市学院 × 阿里云 | 云工开物「人工智能+」训练营圆满落幕!
人工智能浪潮席卷而来,大模型、智能编程等前沿技术不断革新,已经成为推动全球经济社会发展和人类文明进步的重要力量。人工智能的发展不仅改变了产业结构,同时也对高等教育的人才培养提出了新的要求,并进一步推动着教育新生态的重构。
|
6月前
|
缓存 并行计算 测试技术
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
阿里云PAI-全模态模型Qwen2.5-Omni-7B推理浅试
1506 12
|
7月前
|
存储 人工智能 开发者
浙江大学与阿里云宣布合作人工智能通识课,通义灵码系列课程率先落地
浙江大学与阿里云联合宣布共建人工智能通识课,将在“AI+行业”课程方面从产、学、研角度,共同围绕教育、法律、设计、金融、人文和艺术等多个重点学科方向,将真实产业案例深度融入浙江大学人工智能通识课程体系。
|
7月前
|
人工智能 自然语言处理 运维
Qwen3 全尺寸模型支持通过阿里云PAI-ModelGallery 一键部署
Qwen3 是 Qwen 系列最新一代的大语言模型,提供了一系列密集(Dense)和混合专家(MOE)模型。目前,PAI 已经支持 Qwen3 全系列模型一键部署,用户可以通过 PAI-Model Gallery 快速开箱!

热门文章

最新文章

相关产品

  • 人工智能平台 PAI