中文竞技场大模型体验报告

简介: 本次测评的主要目标是评估中文竞技场提供的大模型在写作创作相关、知识常识和代码相关方面的表现。我们进入“中文竞技场”体验了这些模型,并在以下方面进行了测试和评估。

一、目的

本次测评的主要目标是评估中文竞技场提供的大模型在写作创作相关、知识常识和代码相关方面的表现。我们进入“中文竞技场”体验了这些模型,并在以下方面进行了测试和评估。

二、写作创作相关

在写作创作领域,我们测试了模型的文章创作能力。这次我主要是针对医疗相关的题目,目的是想测试模型的医疗知识、理解和表达能力。首先给模型一个主题或者一段情境描述,要求其生成一篇符合要求的文章。问题的题目是“请以“如何提高医疗保健质量”为题写一篇文章”。通过观察,我们发现模型的文章具有较好的逻辑性和语言流畅性,但在用词的准确性和丰富性方面还有一定的提升空间。

接下来,我们测试了模型在文学在医疗行业的理解及创作方面的表现。题目是“请以“如何提高医疗保健质量”为题写一篇文章。在此任务中,模型A展现出了较强的理解力,同时较好地保持了语言风格和情节连贯性。然而模型B则表现的非常差劲,它还在回答问题一的延续,该模型还需进一步提升。

最后,我们测试了情景反应表现。题目是“在我的疾病管理中,我最应该关注的是什么?”。在这个任务中,模型A继续表现出较好的准确性和文体适应性。然而,在某些特定领域的专业知识和表达技巧方面,模型仍有一定的提升空间。模型B继续表现的非常糟糕。

三、知识常识

在知识常识方面,我们测试了模型对于不同场景下的自动对话能力,它考研了模型对语言的理解能力以及对知识掌握程度。通过与模型进行问答交互,我们发现其在生活、历史、文化等方面具有一定的知识储备。然而,在某些特定领域,模型的知识有限。

超市场景:

场景一:

你是一位超市的货架整理员,你会将商品摆放得整齐并易于找到。我是一位寻找食品的顾客,我会向你询问商品的位置。顾客:

“请问,我能在哪里找到罐头食品?”

场景二:

你是一个超市的保安员,你会保障超市的安全并帮助顾客。我是一位迷失的孩子,我会在你的帮助下寻找我的父母。孩子:
“你能帮我找找我的爸爸妈妈吗?”

这次的回答非常有意思,语句内容存在明显的错误。超市的地图里面居然出现了大山。

博物馆场景

模型B:你是一位保安员,你会巡逻并确保展品的安全。我是一位摄影师,我会尊重规则并拍摄。摄影师:
“我可以在这儿使用闪光灯拍照吗?”

在这些任务中,模型表现的非常不好,对语言的理解不够充分,回答的语气及语法都不符合中国人说话的特点。该模型需要加强处理复杂逻辑问题。

四、代码相关

在代码相关方面,我们测试了模型在编程语言理解、算法设计、调试等方面的能力。通过与模型进行交互,让其阅读和理解一段代码,或者根据一些要求设计出一个正确的算法。我们发现模型在基本编程语言的理解和简单算法的设计方面表现出色,但在处理复杂算法和实际问题的解决方案时,还存在一定的局限性。这次我主要提了3个问题。

  1. 请编写一个程序,该程序接受一个由整数组成的无限循环迭代器作为输入,并输出所有偶数的平方。程序应该使用迭代器的方法来实现,并且应该能够处理输入迭代器为空的情况。

  1. 请编写一个程序,该程序接受一个字符串作为输入,并输出一个新字符串,其中原字符串中的每个字母都被替换为它在字母表中的下一个字母。如果已经是字母表中的最后一个字母,则应该将其替换为字母表中的第一个字母。程序应该能够处理输入为空的情况,以及输入字符串中包含非字母字符的异常情况。

  1. 请编写一个程序,该程序接受一个由整数组成的列表作为输入,并输出一个新列表,其中原列表中每个元素的平方都被添加到新列表中。程序应该能够处理输入列表为空的情况,以及列表中包含非整数元素的异常情况。

这三个问题都涉及到对输入的处理、函数设计和数值计算等方面的能力,同时也要求编写能够实现特定功能的程序。这些问题能够测试大模型在编程语言、数据类型和算法设计等方面的能力,同时也涉及到一些特定的情境和条件处理。

此外,我们还测试了模型在自动编程和代码生成方面的能力。通过给模型一些输入和输出样例,要求其自动生成一段符合要求的代码。在此任务中,模型表现出了较强的代码生成能力,但自动编程的准确性和效率仍需进一步提升。

五、总结

总的来说,中文竞技场提供的大模型在写作创作、知识常识和代码相关方面表现出了一定的能力,但仍存在一定的提升空间。在未来的研发中,建议针对上述不足之处进行优化和提升,以更好地满足实际应用需求。

目录
相关文章
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
356 10
【中文竞技场】大模型深度体验与测评
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69996 5
|
人工智能 自然语言处理 Java
首次体验中文竞技场大模型体验!!!
我将分别从知识常识、中文游戏、NLP专业领域、代码相关、写作创作、人类价值观六大领域测评不同模型的效果,以及一些看法。
|
4月前
|
自然语言处理 C语言 Python
中文竞技场大模型评测
介绍“中文竞技场”,一个体验大型中文语言模型的平台。点击进入后,遵循规则输入问题,两个模型将生成回复供对比。避免简单问候,可进行多轮对话,涉及写作、代码、知识、游戏、价值观及NLP等领域。评测示例包括诸葛亮空城计描述、C语言冒泡排序及人生意义探讨等,展示不同模型的风格与优劣。
84 7
|
自然语言处理
|
自然语言处理 知识图谱
中文竞技场模型体验
中文竞技场模型体验
370 0
|
自然语言处理
「ModelScope」中文竞技场体验测评报告
体验大语言模型,并产出创作、代码相关、知识常识三个领域的评测报告
131 1
|
自然语言处理 UED
中文竞技场大模型体验
中文竞技场大模型体验

热门文章

最新文章