首批!通义千问通过国家大模型标准评测

简介: 首批!通义千问通过国家大模型标准评测


今天,在刚刚结束的全国信息技术标准化技术委员会人工智能分委会全体会议上,多个好消息传来!


国内首个官方“大模型标准符合性评测”结果公布,阿里云通义千问成为首批通过评测的四款国产大模型之一,在通用性、智能性等维度均达到国家相关标准要求。


同时,MaaS模型服务相关标准正式启动编制,作为首个在业界提出MaaS理念的企业,阿里云将以技术牵头方的身份持续贡献我们的想法和实践经验



01

基础大模型通义千问,首批通过国家大模型标准符合性评测


“大模型标准符合性评测”由中国电子技术标准化研究院发起,旨在建立中国大模型标准符合性名录,引领人工智能产业健康有序发展。该评测对外征集了学术界、产业界几十家头部单位意见,覆盖评估语言大模型通用性、智能性的38项具体评测维度,是基于官方大模型测试基准的权威评测。



本次通过评测的首批大模型中,通义千问是唯一的开源模型,在全球拥有广泛的开发者用户和企业客户,其性能表现及安全性得到了大范围的公开检验。12月1日开源后,通义千问72B在10个权威基准评测中创下开源模型最优成绩,并力压Llama2登顶海外最具权威性的HuggingFace排行榜,此后又登上国内上海人工智能实验室OpenCompass榜首,成为业界公认的性能最强开源大模型。


目前,通义千问APP可在苹果和安卓各大应用商店中下载体验,提供文本对话、语音对话、文学分析、外语及文言文翻译、PPT大纲助手、小红书文案等几十项实用功能。


02

持续推进模型服务,作为技术牵头方启动MaaS相关标准编制


去年10月,阿里云在业界首次提出模型即服务MaaS理念,并发布AI模型社区“魔搭”。一年多后,市场对模型服务需求高涨,MaaS已成为全球云厂商升级部署的重要技术方向, 同时“魔搭”成为中国规模最大、最活跃的模型社区,开发者数突破280万,模型下载量破亿。


为推动MaaS领域的标准化工作,促进产业发展,在刚结束的全国信标委人工智能分委会全体会议上,《人工智能 模型即服务(MaaS)参考架构》标准文件正式讨论并启动编制工作,后续将持续推进成为国内模型即服务的依据标准,其中,阿里云成为这一标准编制的技术牵头方


《人工智能 模型即服务(MaaS)参考架构》标准文件中,集成了阿里云在MaaS服务实践中的大量经验。文件给出了模型即服务(MasS)的参考架构,规定了MaaS提供方、模型用户、模型及数据提供者、基础设施提供者的主要活动,以及规范了MaaS的主要功能层、功能组件以及接口等,适用于模型即服务及其应用系统的构建、应用、实施与维护。



同一会议上,阿里云作为联合技术牵头方的《人工智能 开源模型服务平台技术要求》国标提案也开展了工作组讨论,进入编制环节。该提案给出了开源模型服务平台的整体架构,适用于相关平台的规划、建设、运行和维护。


今年以来,阿里云持续在中国人工智能领域贡献我们的产业实践。阿里云在国家人工智能标准化总体组大模型专题组中担任联合组长单位,深度参与了多个大模型相关国家标准的制定。阿里云还是唯一开源自研大模型的云厂商,通义千问登顶国内外多个权威开源模型榜单。



/ END /

目录
相关文章
|
16天前
|
并行计算 PyTorch 算法框架/工具
社区供稿 | 本地部署通义千问大模型做RAG验证
这篇文章中,我们通过将模搭社区开源的大模型部署到本地,并实现简单的对话和RAG。
|
3月前
|
自然语言处理 搜索推荐 API
通义千问API:用4行代码对话大模型
本章将通过一个简单的例子,让你快速进入到通义千问大模型应用开发的世界。
224532 105
通义千问API:用4行代码对话大模型
|
4月前
|
人工智能 自然语言处理 运维
NLP国内外大模型汇总列表[文心一言、智谱、百川、星火、通义千问、盘古等等]
NLP国内外大模型汇总列表[文心一言、智谱、百川、星火、通义千问、盘古等等]
NLP国内外大模型汇总列表[文心一言、智谱、百川、星火、通义千问、盘古等等]
|
11天前
|
自然语言处理 Swift
千亿大模型来了!通义千问110B模型开源,魔搭社区推理、微调最佳实践
近期开源社区陆续出现了千亿参数规模以上的大模型,这些模型都在各项评测中取得杰出的成绩。今天,通义千问团队开源1100亿参数的Qwen1.5系列首个千亿参数模型Qwen1.5-110B,该模型在基础能力评估中与Meta-Llama3-70B相媲美,在Chat评估中表现出色,包括MT-Bench和AlpacaEval 2.0。
|
15天前
|
人工智能 算法 知识图谱
大模型首次接入天文望远镜!基于通义千问,“星语3.0”发布
大模型首次接入天文望远镜!基于通义千问,“星语3.0”发布
29 0
|
1月前
|
人工智能 架构师 搜索推荐
通义大模型使用指南之通义千问
本文介绍了如何注册并使用通义大模型,该平台提供了通义千问、通义万相和通义听悟三大功能。通义千问包含对话和百宝箱两个子功能。在对话中,用户需按照特定格式提问,如设定角色、背景等,但实际体验中,回复可能不够理想。百宝箱提供不同场景的应用,如健身教练和办公助理。通过示例展示了健身计划的生成,但与专业教练相比仍有差距。对于职场问题,通义千问的回答显得较为通用,难以满足个性化需求。
389 0
|
3月前
|
弹性计算 前端开发 Java
通义千问API:让大模型写代码和跑代码
基于前面三章的铺垫,本章我们将展示大模型Agent的强大能力。我们不仅要实现让大模型同时使用多种查询工具,还要实现让大模型能查询天气情况,最后让大模型自己写代码来查询天气情况。
59917 448
通义千问API:让大模型写代码和跑代码
|
3月前
|
XML 搜索推荐 API
通义千问API:让大模型使用各种工具
本章我们将通过一个简单的例子,揭示基于LangChain的Agent开发的秘密,从而了解如何扩展大模型的能力。
67651 185
通义千问API:让大模型使用各种工具
|
3月前
|
人工智能 自然语言处理 算法
CodeFuse成功支持通义千问算法大赛,评测方案已开源
首届通义千问AI挑战赛成功举办,CodeFuse 为大赛提供技术支持,模型微调框架 MFTCoder 和 CodeFuseEval 评测框架为大赛保驾护航,助力大赛圆满完成。我们基于leetcode 阿里和蚂蚁最新面试题库建设了“模型赛马”在线打榜的评测方案,目前验证集已作为 CodefuseEval 的一项任务在 Github 上开放,欢迎大家下载使用。
74 1
|
4月前
国内大模型打假胜诉第一案!阿里通义千问维权获赔
【1月更文挑战第21天】国内大模型打假胜诉第一案!阿里通义千问维权获赔
53 5
国内大模型打假胜诉第一案!阿里通义千问维权获赔