通义千问继续开源!阿里云38篇论文被顶会ACL 2024录用

简介: 通义千问继续开源!阿里云38篇论文被顶会ACL 2024录用


近日,阿里通义大模型继续开源,Qwen2系列开源家族新增音频语言模型Qwen2-Audio、新一代数学模型Qwen2-Math。同时,通义团队同步推出了一套全新的音频理解模型测评基准,相关论文已被计算语言学和自然语言处理领域的顶级学术会议国际顶会ACL 2024录用。


值得祝贺的是,在ACL 2024中阿里云今年共有38篇高水平论文被录用。其中包括通义千问团队多篇大模型相关论文,主题涉及大模型SFT技术、LLM角色扮演能力、多模态模型测评基准等。


通义展台被世界各地的NLP 研究人员和开发者围观


通义千问继续开源多模态模型:

Qwen2-Audio音频语言模型


Qwen2-Audio是一款大型音频语言模型(Large Audio-Language Model ,LALM),具备语音聊天和音频分析两种使用模式,较之前一代模型Qwen-Audio,新版模型有了更强的声音理解能力和更好的指令跟随能力。目前该模型在多个权威测评中都显著超越先前的最佳模型。


697adea5be779ca15f27f15dcc925d37.png

Qwen2-Audio 在多个测评中都显著超越了先前的最佳模型


Qwen2-Audio在使用时无需文本输入,可以直接进行语音问答,理解并分析用户输入的音频信号,包括人声、自然音、音乐等。同时还能够自动实现两种模式的切换。目前,Qwen2-Audio已支持超过8种语言和方言,如中文、英语、法语、意大利语、西班牙语、德语、日语,粤语。


让Qwen2-Audio听了一段潘展乐赛后采访


同时,通义团队同步开源了基础模型 Qwen2-Audio-7B 及其指令跟随版本Qwen2-Audio-7B-Instruct,用户可以通过Hugging Face、魔搭社区ModelScope等下载模型,也可以在魔搭社区“创空间”直接体验模型能力。


通义千问开源数学模型:

Qwen2-Math数学专项模型


Qwen2-Math新一代数学模型,包含1.5B、7B、72B三个参数的基础模型和指令微调模型,也已于不久前正式开源。


Qwen2-Math基于通义千问开源大语言模型Qwen2研发,旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等,以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题,成为最先进的数学专项模型。


8b72d069202047d5d9e6754f29065fdc.png

MATH基准测评中,通义千问数学模型的旗舰款Qwen2-Math-72B-Instruct取得了84%的准确率,


通义团队在多个中英文数学基准测评集对指令微调模型作了性能评估,除了 GSM8K 和 MATH等常见的测评基准 ,还引入了更具挑战性的考试竞赛类测试,如奥林匹克级别的基准测评OlympiadBench、大学数学级别的基准测评CollegeMath、高考(GaoKao)、美国数学邀请赛(AIME)2024 赛题、美国数学竞赛( AMC)2023赛题,中文测评则有CMATH测评集、2024年中国高考和中考数学题。最终,Qwen2-Math-72B-Instruct表现优异,在十大测评中都获得了远超其他开源数学模型的成绩。


38篇论文被ACL2024收录:

通义成为ACL现场最受关注的中国大模型


阿里云一直以来都是ACL论文入选数量最高的科技公司之一,今年累计有38篇文章被大会收录,包括16篇主会论文。作为中国大模型“开源开放”力量的代表,通义大模型团队在本次大会披露了多项大模型前沿技术,并在现场与世界各地的NLP研发人员和开发者面对面交流。


部分收录论文

《Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment》首次提出用于大模型角色扮演的自我对齐策略DITTO,显著提升了LLM的角色扮演能力,通义团队已将DITTO开源;


《AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension》介绍了通义团队推出的音频语言理解模型测评基准AIR-Bench,用于评估模型的生成式指令跟随能力,填补了业界空白;


《How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition》通过一系列实验展示了SFT数据如何影响LLM的数学、代码、人类对齐能力,可为研究者和开发者的SFT工作提供借鉴。


e8c42f5d187e6d7423ca49a03677628d.png

海外开发者基于Qwen训练了泰语大模型和东南亚语大模型


自2023年8月以来,通义千问已经开源数十款LLM、多模态和专项能力模型,Qwen系列开源模型下载量超过了2000万。


在东南亚地区,通义千问开源模型也有很多忠实用户,开源社区经常可见基于Qwen训练的泰语、越南语、东南亚语等大模型。比如,新加坡工程师刘乾基于Qwen1.5训练了广受欢迎的东南亚语大模型Sailor,覆盖0.5B、1.8B、4B、7B、14B等全套尺寸;越南语工程师Nguyen Quan开发了越南语大模型,他说:“根据我们内部的基准测评,Qwen2基础模型超越了目前市场上所有的闭源大语言模型”。


8bd3b6272d42c392e950f9ead2219d32.jpg

a70b70095ef6ecb8b31bad59035aac28.jpg

ACL 2024现场参会者给通义的寄语



/ END /

目录
相关文章
|
10月前
|
人工智能 PyTorch 算法框架/工具
|
5月前
|
弹性计算 API Python
如何利用通义千问查询阿里云资源
本篇文章详细阐述了如何利用LangChain框架构建一款Python工具,该工具能够调用通义千问大模型来查询和获取阿里云资源信息。
|
1月前
|
编解码 JSON 自然语言处理
通义千问重磅开源Qwen2.5,性能超越Llama
击败Meta,阿里Qwen2.5再登全球开源大模型王座
1651 17
|
1月前
|
编解码 自然语言处理 机器人
通义千问Qwen2-VL开源,API可直接调用!
通义千问宣布开源第二代视觉语言模型Qwen2-VL,并推出2B、7B两个尺寸及其量化版本模型。同时,旗舰模型Qwen2-VL-72B的API已上线阿里云百炼平台,用户可直接调用。
334 8
|
10月前
|
人工智能 编解码 文字识别
通义千问720亿参数模型开源,适配企业级、科研级高性能应用
通义千问720亿参数模型开源,适配企业级、科研级高性能应用
1816 0
|
3月前
|
SQL 人工智能 JavaScript
|
3月前
|
人工智能
|
4月前
|
自然语言处理 Java 测试技术
使用PostMan请求阿里云通义千问大模型
本文介绍如果通过postman调用阿里云通义千问API,然后介绍如果使用多语言集成,最后介绍了快速使用postman压测创建的API请求。
927 2
|
5月前
|
存储 人工智能 自然语言处理
阿里云的通义千问
5月更文挑战第15天
|
5月前
|
自然语言处理 API 数据安全/隐私保护
通过阿里云Milvus和通义千问快速构建基于专属知识库的问答系统
本文展示了如何使用阿里云向量检索 Milvus 版和灵积(Dashscope)提供的通用千问大模型能力,快速构建一个基于专属知识库的问答系统。在示例中,我们通过接入灵积的通义千问 API 及文本嵌入(Embedding)API 来实现 LLM 大模型的相关功能。
通过阿里云Milvus和通义千问快速构建基于专属知识库的问答系统