MS大模型评测有感

简介: 写作创作相关 知识常识 中文游戏

专业能力: 包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。
抽象代数、天文学、临床知识、大学生物学、大学计算机科学、大学数学、高中化学、高中物理、机器学习、营养
成语、诗词、文学、字义理解、汉语句法分析、汉字字形和拼音理解、歇后语和谚语、对联、方言、古文
代码相关:
增量性(Incrementality): 对数据没有强依赖,可用相对少的试验次数评估新模型。
唯一顺序(Unique order): 所有模型有唯一顺序。给定任意两个模型,判断哪个排名更高或相同。
知识常识:
基础能力: 包括了常见的有代表性的模型能力,10项。
语义理解、生成与创作、闲聊、对话、百科与知识、逻辑与推理、计算能力、代码、角色模拟、安全
人类价值观:
大模型评测不宜简单看排名,注意结合应用场景决策。按照业务功能选择测试功能集合,设置权重,累加打分后才是适合自己的评测。
1.到底介绍的详细更好还是细致更好呢?
2.不同的算法优势如何展现?
3.实际应用中到底适不适用?
4.每种算法适用的具体情况如何辨别?
5.算法的时间还能否继续缩小?
6.算法计算能否不卡顿?
7.是否适应人的操作?
8.我们能否操作熟练?
9.哪种更容易让人理解?7)0%LBLQ`M2MHYWLR}${%1Q.png
7)0%LBLQ`M2MHYWLR}${%1Q.png
GY~}[9UYV3H([BKL353Z9KI.png](https://ucc.alicdn.com/pic/developer-ecology/nnb4i454w6fme_ef42b6d45113400284eea5d53a94588d.png)
![U_M]4@6Q17`[X3H9F%3]5MD.png
VGBZ8}8AWX{OGKUNECY__}B.png

相关文章
|
6月前
|
自然语言处理 开发者
衡量大语言模型表现的 AlpacaEval 指标
衡量大语言模型表现的 AlpacaEval 指标
|
人工智能 物联网 测试技术
CodeFuse发布34B-4bit单卡4090可部署模型
CodeFuse 是蚂蚁集团自研的代码生成专属大模型,可以根据开发者的输入提供智能建议和实时支持,帮助开发者自动生成代码、自动增加注释、自动生成测试用例、修复和优化代码等,以提升研发效率。
473 0
CodeFuse发布34B-4bit单卡4090可部署模型
|
异构计算
单卡可推理CodeFuse-CodeLlama-34B 4bits量化版本魔搭开源!
继2023-09-11 CodeFuse-CodeLlama-34B发布,HumanEval pass@1指标达到74.4% (贪婪解码), 为当前开源SOTA。最近,CodeFuse-CodeLlama-34B 4bits量化版本发布,CodeFuse-CodeLlama-34B-4bits是CodeFuse-CodeLlama-34B模型的4bits量化版本,后者是通过QLoRA对基座模型CodeLlama-34b-Python进行多代码任务微调而得到的代码大模型,模型输入长度为4K。
|
6月前
|
运维 数据可视化 测试技术
Lag-Llama:第一个时间序列预测的开源基础模型介绍和性能测试
2023年10月,我们发表了一篇关于TimeGPT的文章,TimeGPT是时间序列预测的第一个基础模型之一,具有零样本推理、异常检测和共形预测能力。 虽然TimeGPT是一个专有模型,只能通过API访问。但是它还是引发了对时间序列基础模型的更多研究。到了2024年2月,已经有了一个用于时间序列预测的开源基础模型:laglllama。
354 2
|
人工智能 索引 Python
阿里云社区MS大模型评测
通过中文竞技场模型比较模型AB的优劣
|
6月前
|
自然语言处理
衡量大语言模型表现的 MT-bench 指标
衡量大语言模型表现的 MT-bench 指标
|
机器学习/深度学习 自然语言处理 安全
中文竞技场(MS)大模型评测
分别从写作创作、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大领域测评不同模型的效果。
97099 2
中文竞技场(MS)大模型评测
|
人工智能
MS大模型体验
本文选择了写作创作相关、知识常识、人类价值观三个方向,每个方向提出三个问题,比较了两个模型。
158 1
MS大模型测评报告
从写作创作相关、知识常识、中文游戏三个方向对大语言模型进行评测
75 1