Compass Arena: 司南x魔搭携手推出大模型竞技场

简介: 从Llama-3的问世,到参数规模空前的MoE模型,再到GPT-4o的震撼发布,大语言模型(LLM)的飞速进步让人目不暇接。然而,随着模型数量的增加,如何客观、公正地评估和比较这些模型的性能,亟待探索与解决的问题。

从Llama-3的问世,到参数规模空前的MoE模型,再到GPT-4o的震撼发布,大语言模型(LLM)的飞速进步让人目不暇接。然而,随着模型数量的增加,如何客观、公正地评估和比较这些模型的性能,亟待探索与解决的问题。

或许你曾对 LLM 心生好奇,但却因为缺乏计算资源而无法深入探索?又或者,你对当前的评估方法存有疑虑,感觉它们缺乏客观性和标准化?

为了解决这些问题,上海人工智能实验室 司南 OpenCompass 和 魔搭 ModelScope 推出了大语言模型竞技场 Compass Arena,旨在为国内的大语言模型领域引入一种全新的竞技模式,为广大互联网用户提供了一个匿名、随机的大语言模型竞技环境,以产生更加客观和真实的评价。

Compass Arena支持众多前沿的商业和社区模型,其中代表性的包括Meta的Llama-3系列模型、阿里巴巴的Qwen 1.5系列、百度的文心一言ERNIE-4.0-8K、月之暗面的moonshot-v1-32k,以及智谱AI的GLM-4等。模型的开源组织高达15家,其中代表性的组织有MixtralDeepSeek零一万物百川智能等。

Compass Arena简介

Compass Arena 司南大模型竞技场是司南 OpenCompass 团队和魔搭 ModelScope 团队共同推出的一个大语言模型 (LLM) 的评测平台,收集了近期最流行的大语言模型对用户免费开放使用。该平台不仅为用户提供了免费使用这些先进模型的机会,更通过创新的竞技模式,让用户能够直观体验并比较不同模型的性能。

在Compass Arena平台上,用户可以非常便捷地体验大模型的效果,并选出自己认为更好的模型。选择对战模式后,输入问题,两个大语言模型会同时根据输入内容进行对话生成。在结束对话后,用户可以根据自己对生成内容质量的主观判断,自由评估并选择哪个大模型的生成效果更为出色。

Compass Arena体验链接

Compass Arena 体验链接

https://modelscope.cn/studios/opencompass/CompassArena/summary

Compass Arena汇集了众多顶尖流行的大模型,包括但不限于Qwen-Max、ERNIE-4.0-8K、GLM-4、abab6.5以及Llama 3系列。同时,提供了两种对战模式供用户选择:匿名对战和自选对战

在匿名对战模式下,用户可以在不知道模型真实名称的情况下,让两个大语言模型进行回复。这种设置消除了先入为主的观念,让用户能够基于对话内容本身,来做出公正的判断。

自选对战模式则赋予了用户更大的选择权。用户可以根据自己的喜好或需求,从提供的模型库中选择两个模型进行对战。该模式下,用户可以根据自己的标准,来比较不同模型在特定任务或场景下的表现。

通过魔搭 ModelScope 导航栏中的 “司南评测” 即可访问 CompassArena 司南大模型竞技场

image.png

Compass Arena愿景

通过Compass Arena,司南OpenCompass与魔搭ModelScope紧密合作,旨在携手构建一个开放、公平、透明的大语言模型评估体系。我们共同致力于推动大模型评测的公正性和客观性,提供可信赖的大模型评估参考,以促进大语言模型技术的健康发展和持续创新。

Compass Arena 体验链接

https://modelscope.cn/studios/opencompass/CompassArena/summary

相关文章
|
人工智能 机器人 Serverless
魔搭大模型一键部署到阿里云函数计算,GPU 闲置计费功能可大幅降低开销
魔搭大模型一键部署到阿里云函数计算,GPU 闲置计费功能可大幅降低开销
1457 2
|
物联网 机器人 Swift
|
人工智能 前端开发 搜索推荐
利用通义灵码和魔搭 Notebook 环境快速搭建一个 AIGC 应用 | 视频课
当我们熟悉了通义灵码的使用以及 Notebook 的环境后,大家可以共同探索 AIGC 的应用的更多玩法。
994 124
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
1088 13
AI Compass前沿速览:Qwen3-Max、Mixboard、Qwen3-VL、Audio2Face、Vidu Q2 AI视频生成模型、Qwen3-LiveTranslate-全模态同传大模型
|
12月前
|
人工智能 测试技术 API
通义灵码 + 魔搭MCP:全流程构建创空间应用
最近,通义灵码上线 MCP(ModelScope Cloud Platform)功能,从之前代码生成及修改的基础功能,到可以使用MCP服务连接更多功能,开发者可以实现从 代码爬取、模型推理到应用部署
2954 27
|
11月前
|
机器学习/深度学习 编解码 文字识别
小米又放大招!MiMo-VL 多模态大模型开源,魔搭推理微调全面解读来了!
今天,小米开源发布两款 7B 规模视觉-语言模型 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL。
1419 9
|
人工智能 程序员 测试技术
通义灵码与魔搭 Notebook 深度集成:在线编码开箱即用,开发效率倍增
通义灵码 2.0 AI 程序员 2025 年 1 月正式上线,目前已经服务百万开发者,成为国内开发者最受欢迎的智能编码助手。
|
人工智能 开发者
首发!阶跃星辰最新开源多模态模型上线阿里云魔搭
首发!阶跃星辰最新开源多模态模型上线阿里云魔搭
517 10
|
人工智能 Cloud Native 关系型数据库
速递!阶跃星辰最新开源多模态模型上线阿里云魔搭
速递!阶跃星辰最新开源多模态模型上线阿里云魔搭
|
人工智能 IDE 测试技术
通义灵码与魔搭Notebook深度集成:在线编码开箱即用,开发效率倍增
通义灵码2.0 AI程序员于2025年1月上线,目前已支持超过百万开发者。该工具的智能编程能力现已与阿里云AI模型开发平台魔搭ModelScope实现技术集成
598 0

热门文章

最新文章