Compass Arena: 司南x魔搭携手推出大模型竞技场

简介: 从Llama-3的问世,到参数规模空前的MoE模型,再到GPT-4o的震撼发布,大语言模型(LLM)的飞速进步让人目不暇接。然而,随着模型数量的增加,如何客观、公正地评估和比较这些模型的性能,亟待探索与解决的问题。

从Llama-3的问世,到参数规模空前的MoE模型,再到GPT-4o的震撼发布,大语言模型(LLM)的飞速进步让人目不暇接。然而,随着模型数量的增加,如何客观、公正地评估和比较这些模型的性能,亟待探索与解决的问题。

或许你曾对 LLM 心生好奇,但却因为缺乏计算资源而无法深入探索?又或者,你对当前的评估方法存有疑虑,感觉它们缺乏客观性和标准化?

为了解决这些问题,上海人工智能实验室 司南 OpenCompass 和 魔搭 ModelScope 推出了大语言模型竞技场 Compass Arena,旨在为国内的大语言模型领域引入一种全新的竞技模式,为广大互联网用户提供了一个匿名、随机的大语言模型竞技环境,以产生更加客观和真实的评价。

Compass Arena支持众多前沿的商业和社区模型,其中代表性的包括Meta的Llama-3系列模型、阿里巴巴的Qwen 1.5系列、百度的文心一言ERNIE-4.0-8K、月之暗面的moonshot-v1-32k,以及智谱AI的GLM-4等。模型的开源组织高达15家,其中代表性的组织有MixtralDeepSeek零一万物百川智能等。

Compass Arena简介

Compass Arena 司南大模型竞技场是司南 OpenCompass 团队和魔搭 ModelScope 团队共同推出的一个大语言模型 (LLM) 的评测平台,收集了近期最流行的大语言模型对用户免费开放使用。该平台不仅为用户提供了免费使用这些先进模型的机会,更通过创新的竞技模式,让用户能够直观体验并比较不同模型的性能。

在Compass Arena平台上,用户可以非常便捷地体验大模型的效果,并选出自己认为更好的模型。选择对战模式后,输入问题,两个大语言模型会同时根据输入内容进行对话生成。在结束对话后,用户可以根据自己对生成内容质量的主观判断,自由评估并选择哪个大模型的生成效果更为出色。

Compass Arena体验链接

Compass Arena 体验链接

https://modelscope.cn/studios/opencompass/CompassArena/summary

Compass Arena汇集了众多顶尖流行的大模型,包括但不限于Qwen-Max、ERNIE-4.0-8K、GLM-4、abab6.5以及Llama 3系列。同时,提供了两种对战模式供用户选择:匿名对战和自选对战

在匿名对战模式下,用户可以在不知道模型真实名称的情况下,让两个大语言模型进行回复。这种设置消除了先入为主的观念,让用户能够基于对话内容本身,来做出公正的判断。

自选对战模式则赋予了用户更大的选择权。用户可以根据自己的喜好或需求,从提供的模型库中选择两个模型进行对战。该模式下,用户可以根据自己的标准,来比较不同模型在特定任务或场景下的表现。

通过魔搭 ModelScope 导航栏中的 “司南评测” 即可访问 CompassArena 司南大模型竞技场

image.png

Compass Arena愿景

通过Compass Arena,司南OpenCompass与魔搭ModelScope紧密合作,旨在携手构建一个开放、公平、透明的大语言模型评估体系。我们共同致力于推动大模型评测的公正性和客观性,提供可信赖的大模型评估参考,以促进大语言模型技术的健康发展和持续创新。

Compass Arena 体验链接

https://modelscope.cn/studios/opencompass/CompassArena/summary

相关文章
|
7月前
|
人工智能 达摩院 自然语言处理
超好用的开源模型平台,ModelScope阿里达摩院
超好用的开源模型平台,ModelScope阿里达摩院
533 1
|
26天前
|
存储 人工智能 缓存
官宣开源 阿里云与清华大学共建AI大模型推理项目Mooncake
近日,清华大学和研究组织9#AISoft,联合以阿里云为代表的多家企业和研究机构,正式开源大模型资源池化项目 Mooncake。
|
27天前
|
存储 人工智能 缓存
官宣开源|阿里云与清华大学共建AI大模型推理项目Mooncake
2024年6月,国内优质大模型应用月之暗面Kimi与清华大学MADSys实验室(Machine Learning, AI, Big Data Systems Lab)联合发布了以 KVCache 为中心的大模型推理架构 Mooncake。
|
4月前
|
人工智能
Datawhale X 魔搭 AI夏令营task 2笔记
Datawhale X 魔搭 AI夏令营task 2笔记
69 1
Datawhale X 魔搭 AI夏令营task 2笔记
|
4月前
|
数据采集 人工智能 物联网
Datawhale X 魔搭 AI夏令营task 3笔记
Datawhale X 魔搭 AI夏令营task 3笔记
89 2
|
7月前
|
人工智能 自然语言处理 搜索推荐
魔搭ModelScope社区作为一个AI模型开源平台,提供了丰富的模型资源和便捷的服务
【2月更文挑战第9天】魔搭ModelScope社区作为一个AI模型开源平台,提供了丰富的模型资源和便捷的服务
463 3
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
【热门开源项目】阿里开源巨擘:Qwen-2 72B深度解析与推荐
在人工智能的浪潮中,开源模型如同璀璨的星辰,指引着开发者们探索未知的领域。而今天,我们将聚焦在阿里云推出的开源模型Qwen-2 72B上,从其项目介绍、技术特点、代码解析等多个角度,深入解析并推荐这一卓越的开源项目。
207 1
|
5月前
|
自然语言处理 API Android开发
阿里Qwen2-72B大模型已是开源榜的王者,为什么还要推出其他参数模型,被其他模型打榜?
阿里云的Qwen2-72B模型在Hugging Face上荣登开源模型榜首,展现卓越性能,超越其他包括Meta的Llama-3在内的竞争者。Qwen2有多个参数版本,其中72B版本在自然语言理解、知识、代码等任务上表现出色。较小参数版本如7B模型在某些方面略逊一筹。推出不同参数模型可能是为了降低成本、加速迭代、构建丰富的模型生态。通过提供不同规模的模型,阿里云旨在促进技术研究和全场景应用,类似于微软Windows XP和阿里云OS生态的构建策略。
360 1
|
6月前
|
人工智能 自然语言处理 测试技术
社区供稿 | OpenVINO™ 助力 Qwen 2 —— 开启大语言模型新时代
就在刚刚,阿里魔搭社区发布了全新的 Qwen 2 系列模型 ,作为 Qwen 及魔搭社区的重要合作伙伴,OpenVINO™ 一直致力于赋能开发者高效搭建人工智能解决方案,助力大规模语言模型的性能提升和应用扩展。
|
7月前
|
存储 自然语言处理 负载均衡
元象开源首个MoE大模型:4.2B激活参数,效果堪比13B模型,魔搭社区最佳实践来了
近日,元象发布其首个Moe大模型 XVERSE-MoE-A4.2B, 采用混合专家模型架构 (Mixture of Experts),激活参数4.2B,效果即可媲美13B模型。该模型全开源,无条件免费商用,支持中小企业、研究者和开发者可在元象高性能“全家桶”中按需选用,推动低成本部署。

热门文章

最新文章