从Llama-3的问世,到参数规模空前的MoE模型,再到GPT-4o的震撼发布,大语言模型(LLM)的飞速进步让人目不暇接。然而,随着模型数量的增加,如何客观、公正地评估和比较这些模型的性能,亟待探索与解决的问题。
或许你曾对 LLM 心生好奇,但却因为缺乏计算资源而无法深入探索?又或者,你对当前的评估方法存有疑虑,感觉它们缺乏客观性和标准化?
为了解决这些问题,上海人工智能实验室 司南 OpenCompass 和 魔搭 ModelScope 推出了大语言模型竞技场 Compass Arena,旨在为国内的大语言模型领域引入一种全新的竞技模式,为广大互联网用户提供了一个匿名、随机的大语言模型竞技环境,以产生更加客观和真实的评价。
Compass Arena支持众多前沿的商业和社区模型,其中代表性的包括Meta的Llama-3系列模型、阿里巴巴的Qwen 1.5系列、百度的文心一言ERNIE-4.0-8K、月之暗面的moonshot-v1-32k,以及智谱AI的GLM-4等。模型的开源组织高达15家,其中代表性的组织有Mixtral、DeepSeek、零一万物和百川智能等。
Compass Arena简介
Compass Arena 司南大模型竞技场是司南 OpenCompass 团队和魔搭 ModelScope 团队共同推出的一个大语言模型 (LLM) 的评测平台,收集了近期最流行的大语言模型对用户免费开放使用。该平台不仅为用户提供了免费使用这些先进模型的机会,更通过创新的竞技模式,让用户能够直观体验并比较不同模型的性能。
在Compass Arena平台上,用户可以非常便捷地体验大模型的效果,并选出自己认为更好的模型。选择对战模式后,输入问题,两个大语言模型会同时根据输入内容进行对话生成。在结束对话后,用户可以根据自己对生成内容质量的主观判断,自由评估并选择哪个大模型的生成效果更为出色。
Compass Arena体验链接
Compass Arena 体验链接
https://modelscope.cn/studios/opencompass/CompassArena/summary
Compass Arena汇集了众多顶尖流行的大模型,包括但不限于Qwen-Max、ERNIE-4.0-8K、GLM-4、abab6.5以及Llama 3系列。同时,提供了两种对战模式供用户选择:匿名对战和自选对战。
在匿名对战模式下,用户可以在不知道模型真实名称的情况下,让两个大语言模型进行回复。这种设置消除了先入为主的观念,让用户能够基于对话内容本身,来做出公正的判断。
自选对战模式则赋予了用户更大的选择权。用户可以根据自己的喜好或需求,从提供的模型库中选择两个模型进行对战。该模式下,用户可以根据自己的标准,来比较不同模型在特定任务或场景下的表现。
通过魔搭 ModelScope 导航栏中的 “司南评测” 即可访问 CompassArena 司南大模型竞技场
Compass Arena愿景
通过Compass Arena,司南OpenCompass与魔搭ModelScope紧密合作,旨在携手构建一个开放、公平、透明的大语言模型评估体系。我们共同致力于推动大模型评测的公正性和客观性,提供可信赖的大模型评估参考,以促进大语言模型技术的健康发展和持续创新。
Compass Arena 体验链接
https://modelscope.cn/studios/opencompass/CompassArena/summary