通义千问继续开源!阿里云38篇论文被顶会ACL 2024录用

简介: 通义千问继续开源!阿里云38篇论文被顶会ACL 2024录用


近日,阿里通义大模型继续开源,Qwen2系列开源家族新增音频语言模型Qwen2-Audio、新一代数学模型Qwen2-Math。同时,通义团队同步推出了一套全新的音频理解模型测评基准,相关论文已被计算语言学和自然语言处理领域的顶级学术会议国际顶会ACL 2024录用。


值得祝贺的是,在ACL 2024中阿里云今年共有38篇高水平论文被录用。其中包括通义千问团队多篇大模型相关论文,主题涉及大模型SFT技术、LLM角色扮演能力、多模态模型测评基准等。


通义展台被世界各地的NLP 研究人员和开发者围观


通义千问继续开源多模态模型:

Qwen2-Audio音频语言模型


Qwen2-Audio是一款大型音频语言模型(Large Audio-Language Model ,LALM),具备语音聊天和音频分析两种使用模式,较之前一代模型Qwen-Audio,新版模型有了更强的声音理解能力和更好的指令跟随能力。目前该模型在多个权威测评中都显著超越先前的最佳模型。


697adea5be779ca15f27f15dcc925d37.png

Qwen2-Audio 在多个测评中都显著超越了先前的最佳模型


Qwen2-Audio在使用时无需文本输入,可以直接进行语音问答,理解并分析用户输入的音频信号,包括人声、自然音、音乐等。同时还能够自动实现两种模式的切换。目前,Qwen2-Audio已支持超过8种语言和方言,如中文、英语、法语、意大利语、西班牙语、德语、日语,粤语。


让Qwen2-Audio听了一段潘展乐赛后采访


同时,通义团队同步开源了基础模型 Qwen2-Audio-7B 及其指令跟随版本Qwen2-Audio-7B-Instruct,用户可以通过Hugging Face、魔搭社区ModelScope等下载模型,也可以在魔搭社区“创空间”直接体验模型能力。


通义千问开源数学模型:

Qwen2-Math数学专项模型


Qwen2-Math新一代数学模型,包含1.5B、7B、72B三个参数的基础模型和指令微调模型,也已于不久前正式开源。


Qwen2-Math基于通义千问开源大语言模型Qwen2研发,旗舰模型 Qwen2-Math-72B-Instruct在权威测评集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等,以84%的准确率处理了代数、几何、计数与概率、数论等多种数学问题,成为最先进的数学专项模型。


8b72d069202047d5d9e6754f29065fdc.png

MATH基准测评中,通义千问数学模型的旗舰款Qwen2-Math-72B-Instruct取得了84%的准确率,


通义团队在多个中英文数学基准测评集对指令微调模型作了性能评估,除了 GSM8K 和 MATH等常见的测评基准 ,还引入了更具挑战性的考试竞赛类测试,如奥林匹克级别的基准测评OlympiadBench、大学数学级别的基准测评CollegeMath、高考(GaoKao)、美国数学邀请赛(AIME)2024 赛题、美国数学竞赛( AMC)2023赛题,中文测评则有CMATH测评集、2024年中国高考和中考数学题。最终,Qwen2-Math-72B-Instruct表现优异,在十大测评中都获得了远超其他开源数学模型的成绩。


38篇论文被ACL2024收录:

通义成为ACL现场最受关注的中国大模型


阿里云一直以来都是ACL论文入选数量最高的科技公司之一,今年累计有38篇文章被大会收录,包括16篇主会论文。作为中国大模型“开源开放”力量的代表,通义大模型团队在本次大会披露了多项大模型前沿技术,并在现场与世界各地的NLP研发人员和开发者面对面交流。


部分收录论文

《Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment》首次提出用于大模型角色扮演的自我对齐策略DITTO,显著提升了LLM的角色扮演能力,通义团队已将DITTO开源;


《AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension》介绍了通义团队推出的音频语言理解模型测评基准AIR-Bench,用于评估模型的生成式指令跟随能力,填补了业界空白;


《How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition》通过一系列实验展示了SFT数据如何影响LLM的数学、代码、人类对齐能力,可为研究者和开发者的SFT工作提供借鉴。


e8c42f5d187e6d7423ca49a03677628d.png

海外开发者基于Qwen训练了泰语大模型和东南亚语大模型


自2023年8月以来,通义千问已经开源数十款LLM、多模态和专项能力模型,Qwen系列开源模型下载量超过了2000万。


在东南亚地区,通义千问开源模型也有很多忠实用户,开源社区经常可见基于Qwen训练的泰语、越南语、东南亚语等大模型。比如,新加坡工程师刘乾基于Qwen1.5训练了广受欢迎的东南亚语大模型Sailor,覆盖0.5B、1.8B、4B、7B、14B等全套尺寸;越南语工程师Nguyen Quan开发了越南语大模型,他说:“根据我们内部的基准测评,Qwen2基础模型超越了目前市场上所有的闭源大语言模型”。


8bd3b6272d42c392e950f9ead2219d32.jpg

a70b70095ef6ecb8b31bad59035aac28.jpg

ACL 2024现场参会者给通义的寄语



/ END /

目录
相关文章
|
6月前
|
分布式计算 测试技术 Spark
科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
594 2
|
7月前
|
人工智能 算法 开发者
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
702 10
开源VLM“华山论剑”丨AI Insight Talk多模态专场直播预告
|
6月前
|
机器学习/深度学习 数据采集 人工智能
通义实验室Mobile-Agent-v3开源,全平台SOTA的GUI智能体,支持手机电脑等多平台交互
近日,通义实验室MobileAgent团队正式开源全新图形界面交互基础模型 GUI-Owl,并同步推出支持多智能体协同的自动化框架 Mobile-Agent-v3。该模型基于Qwen2.5-VL打造,在手机端与电脑端共8个GUI任务榜单中全面刷新开源模型性能纪录,达成全平台SOTA。
2118 2
|
7月前
|
数据采集 机器学习/深度学习 编解码
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
775 0
小红书 hi lab开源最强多模态大模型dots.vlm1,性能对标闭源 Gemini 2.5 Pro 和 Seed-VL1.5
|
7月前
智谱发布GLM-4.5V,全球开源多模态推理新标杆,Day0推理微调实战教程到!
视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外,逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。
1045 0
|
6月前
|
人工智能 Java 开发者
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
JManus是阿里开源的Java版OpenManus,基于Spring AI Alibaba框架,助力Java开发者便捷应用AI技术。支持多Agent框架、网页配置、MCP协议及PLAN-ACT模式,可集成多模型,适配阿里云百炼平台与本地ollama。提供Docker与源码部署方式,具备无限上下文处理能力,适用于复杂AI场景。当前仍在完善模型配置等功能,欢迎参与开源共建。
2633 58
阿里出手!Java 开发者狂喜!开源 AI Agent 框架 JManus 来了,初次见面就心动~
|
7月前
|
编解码 算法 测试技术
MiniCPM-V4.0开源,多模态能力进化,手机可用,还有最全CookBook!
今天,面壁小钢炮新一代多模态模型 MiniCPM-V 4.0 正式开源。依靠 4B 参数,取得 在 OpenCompass、OCRBench、MathVista 等多个榜单上取得了同级 SOTA 成绩,且 实现了在手机上稳定、丝滑运行。此外,官方也正式开源了 推理部署工具 MiniCPM-V CookBook,帮助开发者面向不同需求、不同场景、不同设备,均可实现开箱即用的轻量、简易部署。
1028 0

热门文章

最新文章