中文竞技场大模型评测

简介: 对于新兴评测技术,我们要讨论汲取经验,从而推动更好发展。

代码相关:
可扩展性(Scalability): 可自由扩展尽可能多的模型。
增量性(Incrementality): 对数据没有强依赖,可用相对少的试验次数评估新模型。
唯一顺序(Unique order): 所有模型有唯一顺序。给定任意两个模型,判断哪个排名更高或相同。
知识常识:
基础能力: 包括了常见的有代表性的模型能力,10项。
语义理解、生成与创作、闲聊、对话、百科与知识、逻辑与推理、计算能力、代码、角色模拟、安全
专业能力: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。
抽象代数、天文学、临床知识、大学生物学、大学计算机科学、大学数学、高中化学、高中物理、机器学习、营养、专业会计、职业心理学等
中文特性能力: 针对有中文特点的任务,包括10项多种能力。
成语、诗词、文学、字义理解、汉语句法分析、汉字字形和拼音理解、歇后语和谚语、对联、方言、古文
人类价值观:
大模型评测不宜简单看排名,注意结合应用场景决策。按照业务功能选择测试功能集合,设置权重,累加打分后才是适合自己的评测。

相关文章
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69958 5
|
2月前
|
自然语言处理 C语言 Python
中文竞技场大模型评测
介绍“中文竞技场”,一个体验大型中文语言模型的平台。点击进入后,遵循规则输入问题,两个模型将生成回复供对比。避免简单问候,可进行多轮对话,涉及写作、代码、知识、游戏、价值观及NLP等领域。评测示例包括诸葛亮空城计描述、C语言冒泡排序及人生意义探讨等,展示不同模型的风格与优劣。
70 7
|
自然语言处理 知识图谱
中文大模型体验评测
中文大模型体验评测
494 42
|
自然语言处理 Python
中文大模型评测
中文大模型评测
794 3
|
自然语言处理
|
自然语言处理 知识图谱
中文竞技场模型体验
中文竞技场模型体验
363 0
|
自然语言处理 Java iOS开发
中文竞技场大模型评测
中文竞技场大模型评测
367 0
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1226 2
中文竞技场大模型测评
中文大模型竞技评测
进行了写作创作、人类价值观、中文游戏3个主题的模型匿名问答测试。
中文大模型竞技评测