中文语言能力评测基准「智源指数」

简介: 中文语言能力评测基准「智源指数」

智源指数简介


http://cuge.baai.ac.cn/#/

智源指数是指中文语言理解和生成评测基准,智源指数包含高质量中文自然语言处理数据集、排行榜与在线评测平台,旨在构建全面系统的中文机器语言能力评测体系,形成多层次维度的评测方案,力求更加科学、规范、高质量地推进中文自然语言处理技术的标准评测。


74.png


排行榜


智源指数排行榜提供多层次维度的评测方案,提供数据集、任务、能力得分,以及智源指数总体得分。智源指数根据标准基线模型(mT5-small)的得分,对参与评测模型的得分进行归一化(括号中显示),最大程度消除不同数据集和评测指标的差异。


75.png


主要任务包括:

  • 语言理解-词句级:中文分词、中文分词和词性标注、古诗文标记、命名实体识别、实体关系抽取
  • 语言理解-篇章级:幽默检测、故事情节完形填空、阅读理解
  • 信息获取及问答:反向词典、开放域问答、文档检索
  • 语言生成:摘要生成、数据到文本生成
  • 对话交互:知识驱动的对话生成
  • 多语言:机器翻译、跨语言摘要
  • 数学推理:数值计算


如何参与智源指数评测?


在智源指数框架介绍页面一键下载所有数据集,或在数据下载页面下载某个特定数据集;

生成测试集的预测结果文件。预测结果文件格式见对应数据集的readme文件;

将预测结果文件按照相应数据集的readme文件中所要求的正确提交文件名命名,压缩成zip格式。登录个人账号后即可在参与评测页面提交。

相关文章
|
25天前
|
人工智能 JSON API
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
LongDocURL 是由中科院与淘天集团联合推出的多模态长文档理解基准数据集,涵盖 2,325 个问答对,支持复杂文档的理解、推理和定位任务。
168 77
LongDocURL:中科院联合阿里推出多模态长文档理解基准数据集,用于评估模型对复杂文档分析与推理的能力
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板
VideoWorld 是由字节跳动、北京交通大学和中国科学技术大学联合推出的自回归视频生成模型,能够从未标注的视频数据中学习复杂知识,支持长期推理和规划任务。
84 8
VideoWorld:字节开源自回归视频生成模型,支持输入视频指导AI生成视频!弥补文本生成视频的短板
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
NeurIPS 2024:真实世界复杂任务,全新基准GTA助力大模型工具调用能力评测
在NeurIPS 2024会议上,GTA(General Tool Agents Benchmark)基准测试被提出,旨在评估大型语言模型(LLM)在真实世界复杂任务中的工具调用能力。GTA采用真实用户查询、真实部署工具和多模态输入,全面评估LLM的推理和执行能力。结果显示,现有LLM在真实世界任务中仍面临巨大挑战,为未来研究提供了重要方向。
55 13
|
机器学习/深度学习 自然语言处理 安全
中文竞技场(MS)大模型评测
分别从写作创作、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大领域测评不同模型的效果。
97136 2
中文竞技场(MS)大模型评测
中文大模型竞技评测
进行了写作创作、人类价值观、中文游戏3个主题的模型匿名问答测试。
中文大模型竞技评测
|
存储 SQL 数据库
中文竞技场大模型评测—个人深度测评有感
中文竞技场大模型评测—个人深度测评有感
232 0
中文竞技场大模型评测—个人深度测评有感
|
人工智能 自然语言处理 达摩院
达摩院发布大模型测试基准:GPT-4勉强及格,其他模型悉数落败
达摩院发布大模型测试基准:GPT-4勉强及格,其他模型悉数落败
333 0
|
人工智能 API 开发者
弥补斯坦福70亿参数「羊驼」短板,精通中文的大模型来了,已开源
弥补斯坦福70亿参数「羊驼」短板,精通中文的大模型来了,已开源
185 0
|
存储 人工智能 算法
大羊驼LLaMa竞品来了:AI画图最火公司开源语言模型,最小30亿参数
大羊驼LLaMa竞品来了:AI画图最火公司开源语言模型,最小30亿参数
202 0
|
计算机视觉
10亿参数、多项SOTA,智源开源视觉基础模型EVA
10亿参数、多项SOTA,智源开源视觉基础模型EVA
390 0

热门文章

最新文章