【EMNLP2024】阿里云人工智能平台 PAI 多篇论文入选 EMNLP2024

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法能力方面研究获得了学术界认可。

近期,阿里云人工智能平台 PAI 的多篇论文在 EMNLP2024 上入选。论文成果是阿里云与华南理工大学金连文教授团队、复旦大学王鹏教授团队共同研发。EMNLP 是人工智能自然语言处理领域的顶级国际会议,聚焦于自然语言处理技术在各个应用场景的学术研究,尤其重视自然语言处理的实证研究。该会议曾推动了预训练语言模型、文本挖掘、对话系统、机器翻译等自然语言处理领域的核心创新,在学术和工业界都有巨大的影响力。此次入选标志着阿里云人工智能平台 PAI 在自然语言处理和多模态算法能力方面研究获得了学术界认可。

1. 论文简述

面向长文本的文视频表征学习与检索模型 VideoCLIP-XL

CLIP 模型在视觉-语言预训练领域已经取得了重要进展。然而,原始 CLIP 模型的一个显著局限性是处理长文本描述的能力受限。原始 CLIP 模型的训练过程中对简短的摘要性文本的强调迫使文本/视觉编码器主要关注文本/视觉输入中的主要特征,常常忽视一些较小但潜在关键的细节。为了解决这些限制,该工作提出了一个名为 VideoCLIP-XL 的视频 CLIP 模型,旨在提升对视频的长文本描述的理解能力。其首先构建了一个大规模的视频-长描述配对数据集 VILD,并在预训练阶段提出了一种文本相似度引导的主成分匹配方法(TPCM)来优化高维特征空间的学习。
image.png

此外,该工作提出能够理解长描述的视频 CLIP 模型应当体现两个特征:给定一个视频及其相关描述,CLIP 类模型应该对(1)具有更丰富和更精确细节的描述以及(2)在相同细节水平下更准确即幻觉更少的描述赋予更高的分数。为此,其提出两个新的预训练任务:细节描述排序(DDR)和幻觉描述排序(HDR)。此外,该工作也建立了一个新的视频长描述排序基准测评集(LVDR),来更全面地评估视频 CLIP 模型的性能。
image.png

基于多任务课程规划的大语言模型蒸馏算法

大语言模型在回答开放领域通用任务的指令上取得了很大地进步。指令微调是微调预训练模型,使其从文本补全模型成为强大的对话模型的关键。尽管已有研究探索了使用强大的黑盒教师模型(如GPT-4, Qwen-max)来自动蒸馏和标注指令的方法,但这些研究往往忽视了微调训练集中任务的多样性分布,以及训练集中指令难度的差异,这可能导致学生 LLMs 知识能力的不平衡和解决复杂任务的能力的不足。为了解决这些挑战,这篇文章介绍了一个名为 TAPIR 的知识蒸馏框架,它通过多任务课程规划来蒸馏黑盒大语言模型的指令回答能力,在蒸馏和多轮迭代过程中,使用教师 LLM 做为裁判找出对于学生 LLM 来说难以回答的指令,进行难度重采样。并调整多任务配比进行训练集中的任务多样性分布的重采样,并根据相应多任务特点自动优化教师模型的回答风格。
image.png

该工作创新性地用显式的任务标签配比代替隐式的句向量多样性。在任务重采样的过程中,大大增加数学推理代码类任务的数据比例。首次提出了模型拟合难度 (MFD) 指标,来表示数据难度大小,并在多轮迭代优化的过程中提升困难数据占比。提升模型从弱到强的泛化速度。在 AlpacaEval 排行榜上,我们微调后的 LLaMA2-7B 底座获得了7.8的相对分数,超过了参数量、数据量都远大于我们的知名开源模型模型(LLaMA2-Chat-13B,Vicuna 13B)。我们持续优化了 Qwen 系列模型的指令回答能力,优化 Qwen1.5系列模型在 AlpacaEval 榜单上提升3-8个百分点。
image.png

2. 产品化服务

上述科研成果也在人工智能平台PAI的各个模块进行了深度的集成和整合,持续为PAI客户提供AI模型训练和推理相关服务。其中,VideoCLIP-XL作为文视频质量评估模块,与EasyAnimate视频生成解决方案无缝融合,支持用户轻松实现文视频语义一致性计算和数据过滤,从而训练AIGC视频生成大模型。在智码实验室,我们也上架了“VideoCLIP-XL:面向超长文本的文视频跨模态特征抽取”的notebook。
用于数据增强和改写的蒸馏模型也已经上架PAI平台,为用户提供简单易用的大模型蒸馏解决方案。基于Qwen2的开源模型,PAI也在开源了DistilQwen2蒸馏小模型系列,进一步提升了模型的指令跟随能力,在HuggingFace和ModelScope开源社区开放下载。
此外,PAI-QuickStart集成了超过50个热门大语言模型,及其多种训练和推理方式,使客户更加简单地微调和部署大语言模型。在未来,我们也将在PAI平台上持续提供业界领先的算法和模型能力给广大客户。

资源链接

文-视频多模态

大模型蒸馏

论文汇总

  • 论文名字:VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models
  • 论文作者:汪嘉鹏、汪诚愚、黄坤哲、黄俊、金连文
  • 论文pdf链接:https://arxiv.org/abs/2410.00741
  • 论文名字:Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning
  • 论文作者:岳元浩、汪诚愚、黄俊、王鹏
    论文pdf链接:https://arxiv.org/abs/2405.13448

阿里云人工智能平台 PAI 长期招聘研究实习生。团队专注于深度学习算法研究与应用,重点聚焦大语言模型和多模态 AIGC 大模型的应用算法研究和应用。简历投递和咨询:chengyu.wcy@alibaba-inc.com。

相关实践学习
使用PAI-EAS一键部署ChatGLM及LangChain应用
本场景中主要介绍如何使用模型在线服务(PAI-EAS)部署ChatGLM的AI-Web应用以及启动WebUI进行模型推理,并通过LangChain集成自己的业务数据。
机器学习概览及常见算法
机器学习(Machine Learning, ML)是人工智能的核心,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,它是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。 本课程将带你入门机器学习,掌握机器学习的概念和常用的算法。
相关文章
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
云上一键部署通义千问 QwQ-32B 模型,阿里云 PAI 最佳实践
3月6日阿里云发布并开源了全新推理模型通义千问 QwQ-32B,在一系列权威基准测试中,千问QwQ-32B模型表现异常出色,几乎完全超越了OpenAI-o1-mini,性能比肩Deepseek-R1,且部署成本大幅降低。并集成了与智能体 Agent 相关的能力,够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。阿里云人工智能平台 PAI-Model Gallery 现已经支持一键部署 QwQ-32B,本实践带您部署体验专属 QwQ-32B模型服务。
|
6天前
|
人工智能 城市大脑 分布式计算
课时7:阿里云ET:人工智能可以是这样的
阿里云ET是阿里巴巴集团研发的超级人工智能,具备智能语音交互、图像视频识别、交通预测、情感分析等技能。作为杭州城市大脑的核心,ET依托强大的计算能力,在城市治理、工业制造、健康医疗等领域广泛应用,成为人类可靠的助手。其卓越的感知与思考能力,使ET在复杂局面下迅速做出最优决策。
|
8天前
|
人工智能 云栖大会
【云栖大会】阿里云PAI ArtLab x 通往AGI之路:ArtLab开源共创与商业落地
【云栖大会】阿里云PAI ArtLab x 通往AGI之路:ArtLab开源共创与商业落地
|
8天前
|
存储 人工智能 云栖大会
【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展,PAI ArtLab助力高校AIGC教育新路径
【云栖大会】阿里云设计中心 × 教育部协同育人项目成果展,PAI ArtLab助力高校AIGC教育新路径
|
10天前
|
人工智能 大数据
阿里云云计算ACA、大数据ACA、人工智能ACA三门认证升级调整公告
阿里云云计算ACA、大数据ACA、人工智能ACA三门认证升级调整公告
|
10天前
|
人工智能
中央美术学院与阿里云签约,推动人工智能和艺术与设计学科融合发展
中央美术学院与阿里云签约,推动人工智能和艺术与设计学科融合发展
中央美术学院与阿里云签约,推动人工智能和艺术与设计学科融合发展
|
10天前
|
存储 人工智能 算法
阿里云人工智能通识教学合作
阿里云人工智能通识教学合作
|
10天前
|
人工智能 监控 开发者
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
阿里云PAI发布DeepRec Extension,打造稳定高效的分布式训练,并宣布开源!
|
10天前
|
人工智能 自然语言处理 安全
基于阿里云向量检索 Milvus 版与 PAI 搭建高效的检索增强生成(RAG)系统
基于阿里云向量检索 Milvus 版与 PAI 搭建高效的检索增强生成(RAG)系统
|
10天前
|
人工智能 自然语言处理 BI
基于阿里云人工智能平台的智能客服系统开发与部署
随着人工智能技术的发展,智能客服系统成为企业提升服务效率和用户体验的重要工具。阿里云提供包括自然语言处理(NLP)、语音识别(ASR)、机器学习(PAI)等在内的完整AI平台,助力企业快速构建智能客服系统。本文将通过电商平台案例,展示如何基于阿里云AI平台从零开始开发、部署智能客服系统,并介绍其核心优势与最佳实践,涵盖文本和语音客服、知识库管理及数据分析等功能,显著提升客户服务效率和用户满意度。

相关产品

  • 人工智能平台 PAI