近日,阿里通义大模型继续开源,Qwen2系列开源家族新增音频语言模型Qwen2-Audio、新一代数学模型Qwen2-Math。同时,通义团队同步推出了一套全新的音频理解模型测评基准,相关论文已被计算语言学和自然语言处理领域的顶级学术会议国际顶会ACL 2024录用。
值得祝贺的是,在ACL 2024中阿里云今年共有38篇高水平论文被录用。其中包括通义千问团队多篇大模型相关论文,主题涉及大模型SFT技术、LLM角色扮演能力、多模态模型测评基准等。
通义展台被世界各地的NLP 研究人员和开发者围观
通义千问继续开源多模态模型:
Qwen2-Audio音频语言模型
Qwen2-Audio是一款大型音频语言模型(Large Audio-Language Model ,LALM),具备语音聊天和音频分析两种使用模式,较之前一代模型Qwen-Audio,新版模型有了更强的声音理解能力和更好的指令跟随能力。目前该模型在多个权威测评中都显著超越先前的最佳模型。
Qwen2-Audio 在多个测评中都显著超越了先前的最佳模型
Qwen2-Audio在使用时无需文本输入,可以直接进行语音问答,理解并分析用户输入的音频信号,包括人声、自然音、音乐等。同时还能够自动实现两种模式的切换。目前,Qwen2-Audio已支持超过8种语言和方言,如中文、英语、法语、意大利语、西班牙语、德语、日语,粤语。
让Qwen2-Audio听了一段潘展乐赛后采访
同时,通义团队同步开源了基础模型 Qwen2-Audio-7B 及其指令跟随版本Qwen2-Audio-7B-Instruct,用户可以通过Hugging Face、魔搭社区ModelScope等下载模型,也可以在魔搭社区“创空间”直接体验模型能力。
通义千问开源数学模型:
Qwen2-Math数学专项模型
Qwen2-Math新一代数学模型,包含1.5B、7B、72B三个参数的基础模型和指令微调模型,也已于不久前正式开源。
Qwen2-Math基于通义千问开源大语言模型Qwen2研发,旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等,以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题,成为最先进的数学专项模型。
MATH基准测评中,通义千问数学模型的旗舰款Qwen2-Math-72B-Instruct取得了84%的准确率,
通义团队在多个中英文数学基准测评集对指令微调模型作了性能评估,除了 GSM8K 和 MATH等常见的测评基准 ,还引入了更具挑战性的考试竞赛类测试,如奥林匹克级别的基准测评OlympiadBench、大学数学级别的基准测评CollegeMath、高考(GaoKao)、美国数学邀请赛(AIME)2024 赛题、美国数学竞赛( AMC)2023赛题,中文测评则有CMATH测评集、2024年中国高考和中考数学题。最终,Qwen2-Math-72B-Instruct表现优异,在十大测评中都获得了远超其他开源数学模型的成绩。
38篇论文被ACL2024收录:
通义成为ACL现场最受关注的中国大模型
阿里云一直以来都是ACL论文入选数量最高的科技公司之一,今年累计有38篇文章被大会收录,包括16篇主会论文。作为中国大模型“开源开放”力量的代表,通义大模型团队在本次大会披露了多项大模型前沿技术,并在现场与世界各地的NLP研发人员和开发者面对面交流。
部分收录论文
《Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment》首次提出用于大模型角色扮演的自我对齐策略DITTO,显著提升了LLM的角色扮演能力,通义团队已将DITTO开源;
《AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension》介绍了通义团队推出的音频语言理解模型测评基准AIR-Bench,用于评估模型的生成式指令跟随能力,填补了业界空白;
《How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition》通过一系列实验展示了SFT数据如何影响LLM的数学、代码、人类对齐能力,可为研究者和开发者的SFT工作提供借鉴。
海外开发者基于Qwen训练了泰语大模型和东南亚语大模型
自2023年8月以来,通义千问已经开源数十款LLM、多模态和专项能力模型,Qwen系列开源模型下载量超过了2000万。
在东南亚地区,通义千问开源模型也有很多忠实用户,开源社区经常可见基于Qwen训练的泰语、越南语、东南亚语等大模型。比如,新加坡工程师刘乾基于Qwen1.5训练了广受欢迎的东南亚语大模型Sailor,覆盖0.5B、1.8B、4B、7B、14B等全套尺寸;越南语工程师Nguyen Quan开发了越南语大模型,他说:“根据我们内部的基准测评,Qwen2基础模型超越了目前市场上所有的闭源大语言模型”。
ACL 2024现场参会者给通义的寄语
/ END /