精品活动 | 中文竞技场大模型评测召集令

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 8月,魔搭社区联合香港中文大学(深圳)、深圳市大数据研究院、阿里云开发者社区、阿里云开发者评测发布中文竞技场大模型评测活动,汇聚了包括Baichuan-13B、ChatGLM2-6B、Qwen-Chat-7B、moss-moon-003-sft、Ziya-LLaMa-13B-v1等十余款开源大模型在中文对话场域同台PK。

8月,魔搭社区联合香港中文大学(深圳)、深圳市大数据研究院、阿里云开发者社区、阿里云开发者评测发布中文竞技场大模型评测活动,汇聚了包括Baichuan-13B、ChatGLM2-6B、Qwen-Chat-7B、moss-moon-003-sft、Ziya-LLaMa-13B-v1等十余款开源大模型在中文对话场域同台PK。


活动提供 iPhone 14pro、Airpods、社区精美周边等限量诚意好礼,诚邀各位大语言模型爱好者们体验、评测投稿,并根据评测投稿质量、人气、速度分别设立奖项。


评测活动细则


活动时间:

2023年8月15日-2023年9月25日


参与对象:

阿里云认证用户


活动入口:

https://developer.aliyun.com/topic/ms2023


具体玩法:

1、体验场景:十余款中文大模型同台竞技

(中文竞技场模型评测平台由魔搭社区提供能力,后文详细介绍玩法)


2、场景评测:写下真实评测,角逐最佳评测

进入【文章发布页面】,写下中文竞技场大模型真实评测,参与投稿位置点击【投稿入口】进行提交评审。


评测一等奖获得者将被评为“中文竞技场大模型最佳评测官”,在重磅奖品基础上,还有机会参观阿里云云谷,与产研团队实地座谈!


3、超级豪礼:发布体验评测,参与角逐赢大奖!

活动期间,依据用户提交顺序及评审要求,为广大开发者提供多款好礼:


一等奖(导师评选产生) 1名  

iPhone 14pro / 开发者评测全套周边 / 阿里云社区最佳评测官奖杯


二等奖(导师评选产生) 2名

ModelScope定制周边背包 / Airpods耳机 / 阿里云社区优质评测证书


三等奖(点赞量前20名) 20名

ModelScope / 定制周边T恤


参与奖(发布评测前100名) 100名

30元天猫超市卡



中文竞技场大模型玩法


双模型匿名评测


玩法一:选择系统推荐的prompt提问

第一步:选择对话类型,系统会自动推荐prompt,直接点击发送,即可体验效果;

第二步:根据结果选择模型的效果,A更好,B更好,都很好,都很差,选择后,可以看到匿名的两个模型名称。


玩法二:构建自己的prompt

第一步:选择对话类型,修改或者清空并重写系统推荐的prompt,点击发送,即可体验效果

第二步:根据结果选择模型的效果,A更好,B更好,都很好,都很差,选择后,可以看到匿名的两个模型名称。


模型自动对话

模型自动对话不支持自定义prompt,同时中文竞技场已经准备好了丰富的多场景prompts,供用户体验。

第一步:选择对话类型,系统会自动推荐prompt,直接点击发送,即可体验效果

第二步:根据A模型和B模型的对话效果,选出效果更好的模型

此时模型会模拟一个场景,并展开场景下的两人的对话。



单模型对话

可选择任意的模型测试效果。目前支持14个主流的中文LLM



点击链接投稿

https://developer.aliyun.com/topic/ms2023

相关文章
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
350 10
【中文竞技场】大模型深度体验与测评
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69964 5
|
算法 安全 测试技术
中文竞技场大模型体验报告
本次测评的主要目标是评估中文竞技场提供的大模型在写作创作相关、知识常识和代码相关方面的表现。我们进入“中文竞技场”体验了这些模型,并在以下方面进行了测试和评估。
236 30
|
自然语言处理
|
程序员 数据安全/隐私保护 开发者
《开发者评测》之中文竞技场大模型评测获奖名单
中文竞技场大模型评测自2023年8月15日启动以来,收到了100+开发者的投稿,经审核,现公布一二三等奖及争优奖获奖名单!
1354 12
《开发者评测》之中文竞技场大模型评测获奖名单
|
人工智能 自然语言处理 数据安全/隐私保护
【玩转ModelScope有奖征文活动】全新中文大模型竞技场上手评测
近年来,人工智能领域取得了巨大的进展,其中中文自然语言处理(NLP)领域尤为突出。这一进展的关键因素之一是中文大型语言模型的崛起,如BERT、GPT-3和其后继者,等。为了评估这些模型的性能和效用,进行中文大模型评测变得至关重要。本文将深入探讨中文大模型评测的关键方面,方法和洞见。本次测试主要模型为ChatGLM,moss-moon-003-sft,BiLLa-7B-SFT和BELLE-LLaMA-13B-2M等
74060 32
【玩转ModelScope有奖征文活动】全新中文大模型竞技场上手评测
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1229 2
中文竞技场大模型测评
中文大模型竞技评测
进行了写作创作、人类价值观、中文游戏3个主题的模型匿名问答测试。
中文大模型竞技评测
对中文竞技场模型的测评
了解并学习了MS大模型,接下来发表一些我的看法。
821 1
对中文竞技场模型的测评

热门文章

最新文章