一、目的
本次测评的主要目标是评估中文竞技场提供的大模型在写作创作相关、知识常识和代码相关方面的表现。我们进入“中文竞技场”体验了这些模型,并在以下方面进行了测试和评估。
二、写作创作相关
在写作创作领域,我们测试了模型的文章创作能力。这次我主要是针对医疗相关的题目,目的是想测试模型的医疗知识、理解和表达能力。首先给模型一个主题或者一段情境描述,要求其生成一篇符合要求的文章。问题的题目是“请以“如何提高医疗保健质量”为题写一篇文章”。通过观察,我们发现模型的文章具有较好的逻辑性和语言流畅性,但在用词的准确性和丰富性方面还有一定的提升空间。
接下来,我们测试了模型在文学在医疗行业的理解及创作方面的表现。题目是“请以“如何提高医疗保健质量”为题写一篇文章”。在此任务中,模型A展现出了较强的理解力,同时较好地保持了语言风格和情节连贯性。然而模型B则表现的非常差劲,它还在回答问题一的延续,该模型还需进一步提升。
最后,我们测试了情景反应表现。题目是“在我的疾病管理中,我最应该关注的是什么?”。在这个任务中,模型A继续表现出较好的准确性和文体适应性。然而,在某些特定领域的专业知识和表达技巧方面,模型仍有一定的提升空间。模型B继续表现的非常糟糕。
三、知识常识
在知识常识方面,我们测试了模型对于不同场景下的自动对话能力,它考研了模型对语言的理解能力以及对知识掌握程度。通过与模型进行问答交互,我们发现其在生活、历史、文化等方面具有一定的知识储备。然而,在某些特定领域,模型的知识有限。
超市场景:
场景一:
你是一位超市的货架整理员,你会将商品摆放得整齐并易于找到。我是一位寻找食品的顾客,我会向你询问商品的位置。顾客:
“请问,我能在哪里找到罐头食品?”
场景二:
你是一个超市的保安员,你会保障超市的安全并帮助顾客。我是一位迷失的孩子,我会在你的帮助下寻找我的父母。孩子:
“你能帮我找找我的爸爸妈妈吗?”
这次的回答非常有意思,语句内容存在明显的错误。超市的地图里面居然出现了大山。
博物馆场景
模型B:你是一位保安员,你会巡逻并确保展品的安全。我是一位摄影师,我会尊重规则并拍摄。摄影师:
“我可以在这儿使用闪光灯拍照吗?”
在这些任务中,模型表现的非常不好,对语言的理解不够充分,回答的语气及语法都不符合中国人说话的特点。该模型需要加强处理复杂逻辑问题。
四、代码相关
在代码相关方面,我们测试了模型在编程语言理解、算法设计、调试等方面的能力。通过与模型进行交互,让其阅读和理解一段代码,或者根据一些要求设计出一个正确的算法。我们发现模型在基本编程语言的理解和简单算法的设计方面表现出色,但在处理复杂算法和实际问题的解决方案时,还存在一定的局限性。这次我主要提了3个问题。
- 请编写一个程序,该程序接受一个由整数组成的无限循环迭代器作为输入,并输出所有偶数的平方。程序应该使用迭代器的方法来实现,并且应该能够处理输入迭代器为空的情况。
- 请编写一个程序,该程序接受一个字符串作为输入,并输出一个新字符串,其中原字符串中的每个字母都被替换为它在字母表中的下一个字母。如果已经是字母表中的最后一个字母,则应该将其替换为字母表中的第一个字母。程序应该能够处理输入为空的情况,以及输入字符串中包含非字母字符的异常情况。
- 请编写一个程序,该程序接受一个由整数组成的列表作为输入,并输出一个新列表,其中原列表中每个元素的平方都被添加到新列表中。程序应该能够处理输入列表为空的情况,以及列表中包含非整数元素的异常情况。
这三个问题都涉及到对输入的处理、函数设计和数值计算等方面的能力,同时也要求编写能够实现特定功能的程序。这些问题能够测试大模型在编程语言、数据类型和算法设计等方面的能力,同时也涉及到一些特定的情境和条件处理。
此外,我们还测试了模型在自动编程和代码生成方面的能力。通过给模型一些输入和输出样例,要求其自动生成一段符合要求的代码。在此任务中,模型表现出了较强的代码生成能力,但自动编程的准确性和效率仍需进一步提升。
五、总结
总的来说,中文竞技场提供的大模型在写作创作、知识常识和代码相关方面表现出了一定的能力,但仍存在一定的提升空间。在未来的研发中,建议针对上述不足之处进行优化和提升,以更好地满足实际应用需求。