首批!通义千问通过国家大模型标准评测

简介: 首批!通义千问通过国家大模型标准评测


今天,在刚刚结束的全国信息技术标准化技术委员会人工智能分委会全体会议上,多个好消息传来!


国内首个官方“大模型标准符合性评测”结果公布,阿里云通义千问成为首批通过评测的四款国产大模型之一,在通用性、智能性等维度均达到国家相关标准要求。


同时,MaaS模型服务相关标准正式启动编制,作为首个在业界提出MaaS理念的企业,阿里云将以技术牵头方的身份持续贡献我们的想法和实践经验



01

基础大模型通义千问,首批通过国家大模型标准符合性评测


“大模型标准符合性评测”由中国电子技术标准化研究院发起,旨在建立中国大模型标准符合性名录,引领人工智能产业健康有序发展。该评测对外征集了学术界、产业界几十家头部单位意见,覆盖评估语言大模型通用性、智能性的38项具体评测维度,是基于官方大模型测试基准的权威评测。



本次通过评测的首批大模型中,通义千问是唯一的开源模型,在全球拥有广泛的开发者用户和企业客户,其性能表现及安全性得到了大范围的公开检验。12月1日开源后,通义千问72B在10个权威基准评测中创下开源模型最优成绩,并力压Llama2登顶海外最具权威性的HuggingFace排行榜,此后又登上国内上海人工智能实验室OpenCompass榜首,成为业界公认的性能最强开源大模型。


目前,通义千问APP可在苹果和安卓各大应用商店中下载体验,提供文本对话、语音对话、文学分析、外语及文言文翻译、PPT大纲助手、小红书文案等几十项实用功能。


02

持续推进模型服务,作为技术牵头方启动MaaS相关标准编制


去年10月,阿里云在业界首次提出模型即服务MaaS理念,并发布AI模型社区“魔搭”。一年多后,市场对模型服务需求高涨,MaaS已成为全球云厂商升级部署的重要技术方向, 同时“魔搭”成为中国规模最大、最活跃的模型社区,开发者数突破280万,模型下载量破亿。


为推动MaaS领域的标准化工作,促进产业发展,在刚结束的全国信标委人工智能分委会全体会议上,《人工智能 模型即服务(MaaS)参考架构》标准文件正式讨论并启动编制工作,后续将持续推进成为国内模型即服务的依据标准,其中,阿里云成为这一标准编制的技术牵头方


《人工智能 模型即服务(MaaS)参考架构》标准文件中,集成了阿里云在MaaS服务实践中的大量经验。文件给出了模型即服务(MasS)的参考架构,规定了MaaS提供方、模型用户、模型及数据提供者、基础设施提供者的主要活动,以及规范了MaaS的主要功能层、功能组件以及接口等,适用于模型即服务及其应用系统的构建、应用、实施与维护。



同一会议上,阿里云作为联合技术牵头方的《人工智能 开源模型服务平台技术要求》国标提案也开展了工作组讨论,进入编制环节。该提案给出了开源模型服务平台的整体架构,适用于相关平台的规划、建设、运行和维护。


今年以来,阿里云持续在中国人工智能领域贡献我们的产业实践。阿里云在国家人工智能标准化总体组大模型专题组中担任联合组长单位,深度参与了多个大模型相关国家标准的制定。阿里云还是唯一开源自研大模型的云厂商,通义千问登顶国内外多个权威开源模型榜单。



/ END /

目录
相关文章
|
21天前
|
Go 开发工具
百炼-千问模型通过openai接口构建assistant 等 go语言
由于阿里百炼平台通义千问大模型没有完善的go语言兼容openapi示例,并且官方答复assistant是不兼容openapi sdk的。 实际使用中发现是能够支持的,所以自己写了一个demo test示例,给大家做一个参考。
|
14天前
|
开发框架 自然语言处理 JavaScript
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
近期,通义千问团队联合魔搭社区开源的多语言基准测试集 P-MMEval,涵盖了高效的基础和专项能力数据集。
千问开源P-MMEval数据集,面向大模型的多语言平行评测集
|
1天前
|
机器学习/深度学习 人工智能 安全
通义视觉推理大模型QVQ-72B-preview重磅上线
Qwen团队推出了新成员QVQ-72B-preview,这是一个专注于提升视觉推理能力的实验性研究模型。提升了视觉表示的效率和准确性。它在多模态评测集如MMMU、MathVista和MathVision上表现出色,尤其在数学推理任务中取得了显著进步。尽管如此,该模型仍存在一些局限性,仍在学习和完善中。
|
1天前
|
关系型数据库 机器人 OLAP
智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验
PolarDB开源社区推出基于云原生数据仓库AnalyticDB和通义千问大模型的“PolarDB知识问答助手”,实现一站式全链路RAG能力,大幅提升查询效率和问答准确率。该系统整合静态和动态知识库,提供高效的数据检索与查询服务,支持多种场景下的精准回答,并持续优化用户体验。欢迎加入钉群体验并提出宝贵意见。
智答引领|AnalyticDB与通义千问大模型联手打造社区问答新体验
|
29天前
|
人工智能 自然语言处理
ACE:阿里通义实验室推出的全能图像生成和编辑模型
ACE是阿里巴巴通义实验室推出的全能图像生成和编辑模型,基于扩散变换器,支持多模态输入和多任务处理。该模型通过长上下文条件单元(LCU)和统一条件格式,能够理解和执行自然语言指令,实现图像生成、编辑和多轮交互等复杂任务,显著提升视觉内容创作的效率和灵活性。
96 3
ACE:阿里通义实验室推出的全能图像生成和编辑模型
|
27天前
|
机器学习/深度学习 人工智能 安全
通义千问开源的QwQ模型,一个会思考的AI,百炼邀您第一时间体验
Qwen团队推出新成员QwQ-32B-Preview,专注于增强AI推理能力。通过深入探索和试验,该模型在数学和编程领域展现了卓越的理解力,但仍在学习和完善中。目前,QwQ-32B-Preview已上线阿里云百炼平台,提供免费体验。
|
17天前
|
缓存 API 开发工具
Qwen-coder方向-如果从0开始应用通义千问开源大模型
从0开始接触,带您全面了解Qwen2.5语言模型家族,包括其核心功能、微调方法以及具体应用场景。我们将通过一系列精心准备的应用demo和使用指南,帮助您掌握如何充分利用Qwen2.5的强大能力
214 8
|
1月前
|
人工智能 开发者
再次获奖!世界互联网大会把荣誉给了通义大模型
再次获奖!世界互联网大会把荣誉给了通义大模型
46 11
|
26天前
|
机器学习/深度学习 人工智能 安全
千问团队开源会思考的QwQ模型,这模型成精了!
QwQ是由Qwen团队开发的大型语言模型,专注于增强AI的推理能力。此预览版本在数学和编程领域表现出色,但在其他领域仍有提升空间。模型具备深度自省和自我质疑的能力,通过逐步推理和假设检验,能够在复杂问题上取得突破性进展。QwQ不仅支持本地推理和Ollama直接运行,还提供了详细的微调指南,助力开发者根据特定需求定制模型。尽管QwQ在推理过程中存在语言切换和安全性等方面的局限性,Qwen团队仍致力于不断优化,推动模型向更高层次的智能迈进。[了解更多](https://modelscope.cn/studios/Qwen/QwQ-32B-preview)
千问团队开源会思考的QwQ模型,这模型成精了!
|
1月前
|
人工智能 边缘计算 自然语言处理
DistilQwen2:通义千问大模型的知识蒸馏实践
DistilQwen2 是基于 Qwen2大模型,通过知识蒸馏进行指令遵循效果增强的、参数较小的语言模型。本文将介绍DistilQwen2 的技术原理、效果评测,以及DistilQwen2 在阿里云人工智能平台 PAI 上的使用方法,和在各开源社区的下载使用教程。

热门文章

最新文章