中文LLM测评

简介: 下面是针对 Modelscope 的代码相关;写作创作;中文游戏三个方面的问题,并附上一段测评内容。

代码测评

最近在学pandas,就让llm帮写pandas代码。

针对下列题目,给出基于pandas的代码:
给定World 表:

+-------------+---------+
| Column Name | Type |
+-------------+---------+
| name | varchar |
| continent | varchar |
| area | int |
| population | int |
| gdp | bigint |
+-------------+---------+
name 是该表的主键(具有唯一值的列)。
这张表的每一行提供:国家名称、所属大陆、面积、人口和 GDP 值。

如果一个国家满足下述两个条件之一,则认为该国是 大国 :

面积至少为 300 万平方公里(即,3000000 km2),或者
人口至少为 2500 万(即 25000000)
编写解决方案找出 大国 的国家名称、人口和面积。

按 任意顺序 返回结果表。

得到两个结果

目录
相关文章
|
8月前
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69803 5
|
9月前
|
人工智能 自然语言处理 测试技术
中文大模型体验测评系列(一)
本文主要通过体验中文竞技场大模型,并详细记录体验过程及感受。
99324 27
|
8月前
|
自然语言处理 Python
中文大模型评测
中文大模型评测
760 3
|
9月前
|
搜索推荐 安全 测试技术
中文大模型测评
中文大模型测评
|
9月前
|
机器人 测试技术 开发者
ModelScope中文模型测评
Modelscope可以帮助研究人员和开发者对模型进行性能分析等。本次我体验了知识常识,人类价值观和写作创作相关这三个对话类型场景,下面是我对测试模型的分析与看法
282 1
 ModelScope中文模型测评
|
9月前
|
自然语言处理 知识图谱
中文大模型体验评测
中文大模型体验评测
|
9月前
|
自然语言处理 Java iOS开发
中文竞技场大模型评测
中文竞技场大模型评测
317 0
|
9月前
|
数据采集 人工智能
对ModelScope 中的中文竞技场进行分析测评
ModelScope 是一款功能强大的人工智能模型,它在多个领域都有着广泛的应用
|
7月前
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1193 2
中文竞技场大模型测评
|
8月前
|
机器学习/深度学习 自然语言处理 测试技术
中文大模型测评-我有话说
近年来,随着深度学习技术的快速发展,中文自然语言处理领域取得了显著的进展。中文大模型如GPT-3、BERT和T5等已经成为广泛应用于各种任务的核心工具。本文对中文大模型的性能测评进行了深入研究,探讨了多个关键方面,包括任务性能、语法和语义准确性、多样性、生成速度等。我们还考察了模型的数据效应、抗攻击性、用户满意度以及对隐私和安全性的关注。最后,我们讨论了中文大模型的可维护性、领域适用性以及模型大小和资源消耗等问题,并展望了未来的研究方向。
395 0