代码相关:
可扩展性(Scalability): 可自由扩展尽可能多的模型。
增量性(Incrementality): 对数据没有强依赖,可用相对少的试验次数评估新模型。
唯一顺序(Unique order): 所有模型有唯一顺序。给定任意两个模型,判断哪个排名更高或相同。
知识常识:
基础能力: 包括了常见的有代表性的模型能力,10项。
语义理解、生成与创作、闲聊、对话、百科与知识、逻辑与推理、计算能力、代码、角色模拟、安全
专业能力: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。
抽象代数、天文学、临床知识、大学生物学、大学计算机科学、大学数学、高中化学、高中物理、机器学习、营养、专业会计、职业心理学等
中文特性能力: 针对有中文特点的任务,包括10项多种能力。
成语、诗词、文学、字义理解、汉语句法分析、汉字字形和拼音理解、歇后语和谚语、对联、方言、古文
人类价值观:
大模型评测不宜简单看排名,注意结合应用场景决策。按照业务功能选择测试功能集合,设置权重,累加打分后才是适合自己的评测。