Compass Arena: 司南x魔搭携手推出大模型竞技场

简介: 从Llama-3的问世,到参数规模空前的MoE模型,再到GPT-4o的震撼发布,大语言模型(LLM)的飞速进步让人目不暇接。然而,随着模型数量的增加,如何客观、公正地评估和比较这些模型的性能,亟待探索与解决的问题。

从Llama-3的问世,到参数规模空前的MoE模型,再到GPT-4o的震撼发布,大语言模型(LLM)的飞速进步让人目不暇接。然而,随着模型数量的增加,如何客观、公正地评估和比较这些模型的性能,亟待探索与解决的问题。

或许你曾对 LLM 心生好奇,但却因为缺乏计算资源而无法深入探索?又或者,你对当前的评估方法存有疑虑,感觉它们缺乏客观性和标准化?

为了解决这些问题,上海人工智能实验室 司南 OpenCompass 和 魔搭 ModelScope 推出了大语言模型竞技场 Compass Arena,旨在为国内的大语言模型领域引入一种全新的竞技模式,为广大互联网用户提供了一个匿名、随机的大语言模型竞技环境,以产生更加客观和真实的评价。

Compass Arena支持众多前沿的商业和社区模型,其中代表性的包括Meta的Llama-3系列模型、阿里巴巴的Qwen 1.5系列、百度的文心一言ERNIE-4.0-8K、月之暗面的moonshot-v1-32k,以及智谱AI的GLM-4等。模型的开源组织高达15家,其中代表性的组织有MixtralDeepSeek零一万物百川智能等。

Compass Arena简介

Compass Arena 司南大模型竞技场是司南 OpenCompass 团队和魔搭 ModelScope 团队共同推出的一个大语言模型 (LLM) 的评测平台,收集了近期最流行的大语言模型对用户免费开放使用。该平台不仅为用户提供了免费使用这些先进模型的机会,更通过创新的竞技模式,让用户能够直观体验并比较不同模型的性能。

在Compass Arena平台上,用户可以非常便捷地体验大模型的效果,并选出自己认为更好的模型。选择对战模式后,输入问题,两个大语言模型会同时根据输入内容进行对话生成。在结束对话后,用户可以根据自己对生成内容质量的主观判断,自由评估并选择哪个大模型的生成效果更为出色。

Compass Arena体验链接

Compass Arena 体验链接

https://modelscope.cn/studios/opencompass/CompassArena/summary

Compass Arena汇集了众多顶尖流行的大模型,包括但不限于Qwen-Max、ERNIE-4.0-8K、GLM-4、abab6.5以及Llama 3系列。同时,提供了两种对战模式供用户选择:匿名对战和自选对战

在匿名对战模式下,用户可以在不知道模型真实名称的情况下,让两个大语言模型进行回复。这种设置消除了先入为主的观念,让用户能够基于对话内容本身,来做出公正的判断。

自选对战模式则赋予了用户更大的选择权。用户可以根据自己的喜好或需求,从提供的模型库中选择两个模型进行对战。该模式下,用户可以根据自己的标准,来比较不同模型在特定任务或场景下的表现。

通过魔搭 ModelScope 导航栏中的 “司南评测” 即可访问 CompassArena 司南大模型竞技场

image.png

Compass Arena愿景

通过Compass Arena,司南OpenCompass与魔搭ModelScope紧密合作,旨在携手构建一个开放、公平、透明的大语言模型评估体系。我们共同致力于推动大模型评测的公正性和客观性,提供可信赖的大模型评估参考,以促进大语言模型技术的健康发展和持续创新。

Compass Arena 体验链接

https://modelscope.cn/studios/opencompass/CompassArena/summary

相关文章
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
社区供稿 | 元象发布255B大规模MoE开源大模型,落地应用登顶港台榜
元象XVERSE发布 中国最大MoE开源模型:XVERSE-MoE-A36B,加速AI应用低成本部署,将国产开源提升至国际领先水平。
社区供稿 | 元象发布255B大规模MoE开源大模型,落地应用登顶港台榜
|
4月前
|
自然语言处理 API Android开发
阿里Qwen2-72B大模型已是开源榜的王者,为什么还要推出其他参数模型,被其他模型打榜?
阿里云的Qwen2-72B模型在Hugging Face上荣登开源模型榜首,展现卓越性能,超越其他包括Meta的Llama-3在内的竞争者。Qwen2有多个参数版本,其中72B版本在自然语言理解、知识、代码等任务上表现出色。较小参数版本如7B模型在某些方面略逊一筹。推出不同参数模型可能是为了降低成本、加速迭代、构建丰富的模型生态。通过提供不同规模的模型,阿里云旨在促进技术研究和全场景应用,类似于微软Windows XP和阿里云OS生态的构建策略。
315 1
|
5月前
|
编解码 自然语言处理 vr&ar
浙大、蚂蚁集团推出MaPa:文本生成超真实3D模型
【6月更文挑战第19天】浙江大学与蚂蚁集团联手推出MaPa技术,革新3D模型生成。MaPa利用文本描述创建超真实3D模型,降低依赖标注数据,提升图像质量和编辑性,推动游戏、VR及影视行业的发展。虽在复杂场景和物理属性生成上仍有局限,但已展现巨大潜力。[论文链接](https://arxiv.org/abs/2404.17569)**
98 1
|
人工智能 异构计算 Python
智谱AI数学课代表MathGLM魔搭首发,社区体验推理教程来啦!
GLM家族又发布了一个新成员 数学模型 MathGLM ,以提升大语言模型的数学推理能力。它可以在不使用计算器工具的情况下,高效执行复杂算术运算,解答中文数学应用题,已经在魔搭社区全球首发开源啦!
|
6月前
|
存储 人工智能 搜索推荐
AI PC元年会带火PC集群吗?云游戏迎来黄金时代。Stable Diffusion显存之选:12G及格,16G自由,24G上天
随着科技迅速发展,中国云游戏和PC集群在云计算和政策支持下蓬勃发展。PC集群作为经济高效的计算模型,在人工智能领域通过并行计算显著提升深度学习和神经网络训练速度,同时分布式计算模式为大数据处理提供有效手段,加速模型训练过程。
AI PC元年会带火PC集群吗?云游戏迎来黄金时代。Stable Diffusion显存之选:12G及格,16G自由,24G上天
|
6月前
|
人工智能 数据可视化 算法
苹果Vision Pro携Sora引领AI的新浪潮,XR硬件未来探索之旅
苹果Vision pro刚刚发布,一跃成为迄今最先进的虚拟现实和增强现实眼镜,苹果公司将其称为“空间计算机”。 OpenAI的创始人兼首席执行官山姆·奥特曼评价:苹果Vision pro是自iPhone以后第二惊艳的技术。实际上手体验时,当你带上眼睛后,沉浸式呈现眼前是一个虚拟空间,它以高分辨率屏幕,支持重放事件和人物的三维视频录像,看起来就像置身其中,只需要通过简单的眼神和隔空手势操作。
|
机器学习/深度学习 人工智能 自然语言处理
“魔搭”来了!一文深度解读达摩院推出的AI模型社区
一文详解ModelScope魔搭社区,模型即服务开启AI开发使用新范式
“魔搭”来了!一文深度解读达摩院推出的AI模型社区
|
11月前
|
数据采集 人工智能 自然语言处理
社区供稿 | 猎户星空发布Yi系列微调34B-Chat模型,开源免费,中英兼备全面领先!
OrionStar-Yi-34B-Chat中英文大模型集高性能、完全开源、免费可商用等诸多优势于一身
|
人工智能 数据可视化 物联网
vivo AI全球研究院 BlueLM-7B系列开源!魔搭社区最佳实践教程来了!
BlueLM 是由 vivo AI 全球研究院自主研发的大规模预训练语言模型,本次发布包含 7B 基础模型、7B 对话模型,4bits量化的7B对话模型,支持 32K 的长文本基础模型和对话模型。
|
机器学习/深度学习 人工智能 算法
智源「悟道3.0」大模型系列问世,这次不拼参数,开源开放成为主角(2)
智源「悟道3.0」大模型系列问世,这次不拼参数,开源开放成为主角
323 0