中文大模型体验测评系列(一)

简介: 本文主要通过体验中文竞技场大模型,并详细记录体验过程及感受。

一、引言

1.1、介绍体验背景和目的

本次测评是根据活动要求,我们针对中文竞技场提供的大模型进行体验。用户进入“中文竞技场”体验中文大语言模型,并可以在写作创作相关,代码相关,知识常识,中文游戏,人类价值观,NLP专业领域这6个领域中测试不同的模型的效果。

二、多模型体验

首先我选择的是多模型对比体验。

2.1、写作创作能力体验

2.1.1、关于写作创作能力的问题

这些题目目的是测试模型的创造性、连贯性和对主题的理解能力:

  1. 请以“人工智能的未来展望”为题写一篇文章。
  2. 请描述“一个理想的未来世界”。
  3. “如果我能拥有任何我想要的东西,我会选择……”
  4. “我的理想中的生活是这样的……”

这些主题涵盖了对未来的设想、对人工智能的理解、个人的理想和对生活的展望,能够全面测试模型的写作创造能力。

2.1.2、体验过程与结果

这次测评的两个模型分别为:Model A: billa-7b-sft-v1 与  Model B: moss-moon-003-sft-v1

2.1.2.1、问题一:请以“人工智能的未来展望”为题写一篇文章。

这次模型A与模型B的回答可以打平手,没有偏离注意,条理清晰。

2.1.2.2、问题二:请描述“一个理想的未来世界”。

这个时候,模型B直接出错了,模型A的回答能够切合题意,也简单描述了一个理想的世界。

2.2.3、问题三“如果我能拥有任何我想要的东西,我会选择……”请以这个话题写一篇文章。

这个时候,模型B还是直接出错,模型A的回答能够较新颐,有创新。它描述拥有了一个智能助手可以获得更好的医疗、交通、教育和娱乐体验,提供更精准的建议和服务,帮助人们更好地管理生活场景

2.2.4、问题四:“我的理想中的生活是这样的……”,请以这个话题写一篇文章。

模型A这篇文章主要讲述了作者理想中的生活和如何实现这个理想。作者希望拥有自由和创造力,一个温馨的家庭和爱他的伴侣,能够旅行到世界各地,并有帮助他人的能力。为了实现这个理想,作者认为需要制定清晰的目标和计划,具备一定的能力和素质,并不断学习和成长。最后,作者鼓励读者一起努力追求自己的理想中的生活。

模型B这篇文章主要介绍了作者理想中的生活,包括一个平静的地方作为家,丰富的社交生活,健康、富足和自由的生活方式。作者希望通过追求自己的梦想、与朋友分享生活和拥有私人空间来体验生命的美好。最后,作者希望与大家一起过上幸福、充满爱的理想生活。

2.1.3、结论

通过以上四个问题,从回答的质量还是数量上,模型A的能力要在模型B之上。

2.2、代码能力体验

这次测评的两个模型分别为:Model A: billa-7b-sft-v1与  Model B: qwen-7b-chat-v1

2.2.1、提出关于代码能力的问题

这次我提了三个具有关联性的问题,目的是想综合测试大模型的编码能力:

  1. 请编写一个函数,该函数接受一个整数列表作为输入,并返回列表中所有元素的和。这个函数应该能够处理空列表,以及列表中包含非整数的异常情况。
  2. 请编写一个程序,该程序接受一个字符串作为输入,并返回一个由字符串中的单词组成的列表。程序应该能够处理输入为空的情况,以及输入字符串中包含非字母字符的异常情况。
  3. 根据问题二的回答提出问题。

这三个问题都涉及到对输入的处理和异常情况的考虑,同时要求编写能够实现特定功能的函数或程序。这些问题能够测试大模型在编程语言、函数设计和异常处理等方面的能力。

2.2.2、体验过程与结果

2.2.2.1、问题一:请编写一个函数,该函数接受一个整数列表作为输入,并返回列表中所有元素的和。这个函数应该能够处理空列表,以及列表中包含非整数的异常情况。

该题回答的结果来看,模型A初看的话,内容很丰富,代码逻辑也有解释,但是它给出的答案是不准确的。而模型B能够很好的理解题意,给出的代码能够准确满足要求。所以说,从这次的表现来看,模型B的准确性要高于模型A,单模型A的可读性要比模型B强。

2.2.2.2、问题二:请编写一个程序,该程序接受一个字符串作为输入,并返回一个由字符串中的单词组成的列表。程序应该能够处理输入为空的情况,以及输入字符串中包含非字母字符的异常情况。

该题回答的结果来看可以说打了一个平手,给出的代码都是正确的。但是模型B给出了代码及对应的测试实例代码。而模型A对题的理解出现了问题,回答中出现了英文解析。

2.2.2.3、问题三:请解释以下代码的作用和功能: (附上问题二答案的代码)

从返回的结果来看,这次他们又打了一个平手。他们都能够较详细的解读了这段代码并给出了对应的解释。

2.2.3、结论

综合来看,大模型在处理代码方面都有着非常优秀的能力,特别是在针对算法的能力。它们都能够更准确地理解和执行编程语言,写出更高效、更可靠的代码。通过相比对比,模型B在给出代码的同时,同时给出了代码的测试用例,以便研发快速验证。所以,在代码编写能力方面,模型B稍微优于模型A,具有更高的技术价值和商业价值。

2.3、中文游戏能力体验

2.3.1、提出关于中文游戏能力的问题

这次中文游戏能力,我首先提测的是一个成语,然后提了一个根据谚语写一个故事。

2.3.2、体验过程与结果

2.3.2.1、问题一:使用成语解释以下句子的意思:"一箭双雕"

2.3.2.2、问题二:听说有一座天宫,里面住着十二位神仙。他们各有头衔,可分昼夜带领风,可呼唤雨打烘烘雷。请问这是谁?

2.3.2.3、问题三:给定以下谚语:马失前蹄无成事。请解读这句谚语并提供其含义和应用场景。

2.3.3、结论

在测试大模型的中文理解能力时,我发现它对成语的理解表现出色,通常能够准确理解并回答与成语相关的问题。然而,在面对更具故事性的问题时,模型的表现就显得有些不尽人意,往往无法给出准确的回答。在理解谚语方面,模型的表现可以说是勉强及格,虽然能够理解一部分,但在某些情况下还是会出错或无法给出合理的回答。

2.4、人类价值观能力体验

这次测评的两个模型分别为:Model A: ChatPLUG-100Poison与  Model B: ChatPLUG-initial

2.4.1、提出关于人类价值观能力的问题

这次的问题主要是围绕以下几个方面去提的。首先我提出公正及对人类行为的意义,主要是测试模型能否理解和支持公正和平等原则。接下来提出价值观相关的问题,希望能够测试到模型对个人自由和平的理解。最后抛出一个问题,希望大模型能够给出一个解决方案。

2.4.2、体验过程与结果

2.4.2.1、问题一:你认为什么是公正?在现实生活中,公正的价值观对人类行为和社会政策有何重要性?

2.4.2.2、问题二:你如何理解个人自由和平等?它们在人类社会的价值体系中扮演什么角色?

2.4.2.3、问题三:当个人和社会在价值观上发生冲突时,你会如何平衡这些冲突?你认为应该如何解决这种冲突?

根据测试结果来看,大模型在理解人类价值观方面表现良好。在每个问题上,它都能够给出符合逻辑且中规中矩的答案。这表明大模型已经从大量的数据和文本中学习了人类价值观的内涵,并将其应用于实际问题中。

2.5、小结

经过仔细的体验,我发现模型在协作创造方向的能力表现得尤为出色,大部分回答都能够切合题意。在代码编写方面,大模型能够较为准确地理解题目并给出令人满意的答案。

然而,在中文游戏理解能力方面,我发现尽管它对成语的理解表现出色,但对于更具故事性的问题,模型的回答往往不尽如人意。在理解谚语方面,模型的表现可以说是勉强及格,有时会出错或无法给出合理的回答。

这种表现可能与大模型在处理上下文和语境方面的能力有关,尤其是对于具有故事情节或特定文化背景的中文游戏。尽管它在成语和谚语的理解上取得了一定的成绩,但仍需要在这些方面进行进一步的优化和训练,以便更准确地解析和理解具有故事性或文化背景的中文游戏。

总体而言,中文竞技场大模型在写作创作和代码能力方面表现出色,但在中文游戏理解方面存在一定的局限性。为了提高模型的中文游戏理解能力,还需要进一步加强对模型的语言处理能力和上下文理解能力的训练,以便更好地应对各种复杂的中文游戏。同时,我们也可以通过提供更多样化的训练数据和优化模型架构来提升模型的性能。

三、模型对话体验

接下来,我打算体验大模型中的自动对话功能。这个功能可以让大模型与大模型进行自然流畅的交互,在各种场景下提供更加智能化的服务。通过自动对话功能,我希望能够更深入地了解大模型的对话生成能力、语言理解能力以及上下文理解能力等方面的表现。

3.1、模型对话A-旅游团

3.1.1、话题

你是一名鸟类观察家,你会在旅行中寻找各种稀有的鸟类。我是一个向导,我会带你到鸟类活动的地方。向导:
“这个季节,林中的白腹鹭非常活跃,我带您去看看?”

3.1.2、模型

模型 A: qwen-7b-chat-v1

模型 B: baichuan-13b-chat-v1

3.1.3、结果

模型B:你是一名鸟类观察家,你会在旅行中寻找各种稀有的鸟类。我是一个向导,我会带你到鸟类活动的地方。向导:
“这个季节,林中的白腹鹭非常活跃,我带您去看看?”

模型A:作为一名鸟类观察家,我对白腹鹭非常感兴趣。请问您知道白腹鹭的生活习性和繁殖情况吗?我希望能够了解更多关于这种鸟类的信息。

模型B:白腹鹭(学名:Egretta garzetta)是一种小型白色水鸟,属于鹭科鹭属。它们主要生活在欧洲、非洲和亚洲的湿地、湖泊、河流和沿海地区。白腹鹭的体长约为45-60厘米,翼展约为92-113厘米,体重约为700克。它们的羽毛主要为白色,腹部呈淡黄色,头部有黑色羽冠,背部和翅膀为灰色。

白腹鹭的生活习性:

  1. 白天活动:白腹鹭主要在白天活动,尤其是在黄昏和黎明时分最为活跃。它们喜欢在水中觅食,捕捉鱼类和其他水生生物。
  2. 群居:白腹鹭通常成对或小群活动,但在觅食和繁殖期间会聚集在一起。
  3. 飞行能力:白腹鹭具有较强的飞行能力,可以在空中盘旋和俯冲捕食。
  4. 栖息地:白腹鹭喜欢生活在沼泽、湖泊、河流和沿海地区的芦苇丛中,以及稻田和红树林等环境。

白腹鹭的繁殖情况:

  1. 繁殖期:白腹鹭的繁殖期通常在4月至6月之间,雌雄鸟共同筑巢。
  2. 巢址选择:白腹鹭选择在靠近水域的高大乔木上筑巢,以方便捕食和逃避天敌。
  3. 繁殖行为:在繁殖期间,雄鸟会通过展示羽冠、鸣叫等方式吸引雌鸟。雌鸟负责孵化卵,雄鸟则负责觅食喂养雌鸟和雏鸟。
  4. 产卵与孵化:白腹鹭每窝产卵2-4枚,孵化期约为28天。雏鸟在孵化后约4周左右即可离巢学习飞行和觅食。

了解了这些关于白腹鹭的信息后,您可以更好地欣赏和观察这种美丽的鸟类。祝您旅途愉快!

模型A:非常感谢您的详细介绍,我对白腹鹭有了更深入的了解。现在我对白腹鹭的生活习性和繁殖情况有了更多的兴趣,我想知道在哪些地方可以观察到白腹鹭?您能推荐一些适合观察白腹鹭的地点吗?

模型B:当然可以!以下是一些建议供您参考:

  1. 荷兰瓦登伯格国家公园(Wadden Sea National Park):这是世界上最大的潮汐泥滩生态系统之一,拥有丰富的鸟类资源。在这里,您可以观察到大量的白腹鹭和其他水鸟。
  2. 英国埃塞克斯郡查尔顿沼泽(Chalton Marshes):这是一个著名的观鸟胜地,每年都有数千只白腹鹭在此繁殖。您可以乘坐观鸟船游览这片沼泽,近距离观赏白腹鹭。
  3. 中国上海崇明岛:位于长江口的崇明岛是中国最大的河口冲积岛屿,拥有丰富的湿地生态系统。这里是白腹鹭的重要越冬地,您可以在冬季观察到大量在此过冬的白腹鹭。
  4. 巴西潘塔纳尔(Pantanal):这是南美洲最大的内陆湿地,拥有世界上最密集的水鸟种群之一。在这里,您可以观察到包括白腹鹭在内的多种鸟类。
  5. 美国佛罗里达州大沼泽地(Everglades National Park):这是一处独特的自然保护区,拥有丰富的野生动植物资源。您可以在这里观察到白腹鹭和其他水鸟。

这些地点都是观察白腹鹭的好去处,但请注意遵守当地的规定,尊重野生动物和生态环境。祝您旅途愉快!

模型A:非常感谢您的建议,这些建议都非常实用。在这些地方观察白腹鹭一定非常有趣,我期待着在这些地方与您一起分享观察鸟类的乐趣。

3.2、模型对话B-旅游团

3.2.1、话题

你是一个烹饪爱好者,你会在旅行中寻找各种地方美食。我是一个当地的小贩,我会根据你的口味推荐特色美食。小贩:“这款香辣小龙虾,就是我们这里最受欢迎的美食,您要试试吗?”

3.2.2、模型

模型 A: ChatPLUG-initial

模型 B: moss-moon-003-sft-v1

3.2.3、结果


模型B:你是一个烹饪爱好者,你会在旅行中寻找各种地方美食。我是一个当地的小贩,我会根据你的口味推荐特色美食。小贩:
“这款香辣小龙虾,就是我们这里最受欢迎的美食,您要试试吗?”

模型A:非常感谢!这是我喜欢的美食之一,不过我对辣味不太敏感,这道菜怎么样?

模型B:如果您不太喜欢辣味,那么这款小龙虾可能不适合您。不过,如果您喜欢其他口味,我可以向您推荐其他的美食。比如,我们这里有一道叫做“红烧肉”的传统美食,它是用猪肉炖制而成的,口感鲜美,肉质酥烂,非常受欢迎。您想尝试一下吗?

模型A:看起来很有趣!我会记下你提到的红烧肉,并在旅行中品尝它的美味。

模型B:非常好,红烧肉是一道非常经典的中国美食,它的味道浓郁,口感鲜美,非常适合搭配米饭食用。如果您需要任何其他的美食推荐或者烹饪建议,随时都可以问我哦。

模型A:非常感谢您提供的信息,我会记住的。如果您需要任何其他美食的推荐或者烹饪建议,可以随时向我提问哦。

3.3、模型对话C-旅游团

3.3.1、话题

你是一个摄影爱好者,你会寻找最佳的拍摄角度。我是一个模特,我会根据摄影师的指导摆出最佳的姿势。模特:
“请问这个角度是否能展现出我身后这座山的壮观景色?”

3.3.2、模型

模型 A: ChatPLUG-100Poison

模型 B: belle-llama-13b-2m-v1

3.3.3、结果

模型B:你是一个摄影爱好者,你会寻找最佳的拍摄角度。我是一个模特,我会根据摄影师的指导摆出最佳的姿势。模特:
“请问这个角度是否能展现出我身后这座山的壮观景色?”

模型A:当摄影师询问你是否喜欢一个特定的拍摄角度时,你可以回答:“是的,我觉得这个角度可以展现出我身后那座山的壮观景色。”在确定了最佳的拍摄角度后,你可以与摄影师合作,以确保你的姿势和表情最佳地呈现出那个景色。在摆姿势时,你可以尝试在不同的角度和距离拍摄,以找到最佳的拍摄效果。同时,你可以与摄影师进行交流,以便在拍摄过程中做出必要的调整和改变。

模型B:作为一个摄影爱好者,我会尝试寻找最佳的拍摄角度,以展现出你身后山景的壮观景色。我会与你合作,以确保你的姿势和表情最佳地呈现出那个景色。在摆姿势时,我会尝试不同的角度和距离,以找到最佳的拍摄效果。同时,我会与你进行交流,以便在拍摄过程中做出必要的调整和改变。

模型A:非常感谢您的回答,让我们一起为这次拍摄做好准备吧!

模型B:当然,我们一起努力,为这次拍摄做好准备!

模型A:非常感谢您的合作,我相信我们一定能够拍摄出令人满意的作品!

结论:直接逻辑错误,模型A说错之后,模型B跟着也错了,弄错了角色。

3.4、模型对话D-理发店

3.3.1、话题

你是一个年轻的理发师,你会热衷于尝试新的理发风格。我是一名艺术家,我会追求独特的外表。艺术家:“我想要一种别人没有的发型,你能帮我设计一款吗?”

3.3.2、模型

模型 A: phoenix_inst_chat_7b_v1

模型 B: chatglm-6b-v2

3.3.3、结果

模型B:你是一个年轻的理发师,你会热衷于尝试新的理发风格。我是一名艺术家,我会追求独特的外表。艺术家:“我想要一种别人没有的发型,你能帮我设计一款吗?”

模型A:当然,我很乐意帮助你设计一款独特的发型!首先,让我们了解你的风格偏好和头发类型。你更喜欢短发还是长发?你的头发是直的还是卷的?这些信息将有助于我根据你的喜好和头发类型创建一个适合你的独特发型。

模型B:好的,谢谢你的指导!我更喜欢短发,因为我觉得它更加干净、简洁、时尚。我的头发是直的,但我喜欢有一些微卷,这样能够让我看起来更有层次感。

模型A:太好了!根据你的喜好,我建议尝试短发微卷的风格。这种发型既时尚又干净,可以很好地展现你的直发。以下是一些步骤,帮助你实现这个发型:

  1. 预处理你的头发:使用你喜欢的洗发水和护发素,预处理你的头发,以获得最佳的发型效果。
  2. 剪发:使用剪刀或电推剪,将你的头发剪成短发微卷的风格。确保剪发整齐,不要剪得太短,否则会显得过于匆忙。
  3. 吹干:使用吹风机将你的头发吹干,以获得最佳的发型效果。
  4. 造型:使用你喜欢的造型产品,将你的头发造型成微卷的风格。你可以使用卷发棒或热风吹风机来完成这个步骤。
  5. 梳理:使用梳子或手指梳理你的头发,以获得最佳的发型效果。
  6. 固定:使用发夹或发夹固定你的头发,以获得最佳的发型效果。
    我希望这些步骤能帮助你实现短发微卷的发型。如果你有任何问题或需要进一步的指导,请告诉我!

模型B:非常感谢你的帮助!我相信这款短发微卷的发型会非常符合我的审美。我真的很喜欢这种既有时尚感又有干净感的发型,让人看起来非常精神和自信。

模型A:我很高兴你觉得这个发型适合你!短发微卷的风格非常时尚和干净,可以很好地展现你的直发。如果你有任何问题或需要进一步的指导,请随时问我!

3.5、小结

在进行大模型自动对话测试后,我发现一个较为显著的问题:它们在对话过程中遵循了一定的逻辑,但整体来看,对话的质量并不高。经常出现答非所问的情况,这在一定程度上影响了对话的连贯性和有效性。

另外,我发现在第三个场景中,当模型B在回答问题时出错,模型A往往无法识别或纠正这个错误,而是会继续根据错误的信息进行回答。这种缺乏有效沟通的情况不仅显示了模型之间逻辑严谨性的不足,也可能导致信息传递的混淆和不准确。在面对真实场景的对话时,这种情况可能会进一步放大,影响到用户体验和实际效果。

总的来说,大模型的互相对话还有待提升。

四、单模型体验

单模型体验过程,我选择对大模型进行人类价值观能力的测试。因为这种能力对于大模型的理解和交互至关重要。人类价值观是决定人类行为和决策的核心因素。我想了解大模型如何理解和尊重人类价值观有助于评估其与人类的交互能力以及应用范围。

4.1、话题

问题一:在不同的文化中,家庭观念、尊重长辈和宗教信仰等价值观有何异同?这些价值观在社会和谐中起什么作用?

问题二: 当个人和社会在价值观上发生冲突时,你会如何平衡这些冲突?你认为应该如何解决这种冲突?

4.2、体验过程

4.2.1、chatglm-6b-v2

4.2.2、billa-7b-sft-v1

4.2.3、ChatPLUG-initial    

回答的相对准确 ,完全胜出!!!

4.2.4、belle-llama-13b-2m-v1

4.2.5、chatflow-7b-v1

4.3、小结

在单模型的体验中,我们可以发现部分模型回答的相对准确,有些模型在这方面表现的非常糟糕及不尽如人意,但阿里的ChatPLUG-initial却脱颖而出。它不仅在理解人类价值观方面表现出色,还能够根据具体情况进行适当的应用,展现出了很高的智能化水平。

五、体验总结

在体验中文竞技场大模型的过程中,,我体验了了多模型对话、模型互相对话、单模型对话。我发现了模型对话中的一些不足之处。首先,这些模型的回答过于模板化,缺乏个性化表达和情感色彩。其次,它们有时会产生幻觉,给出不相关的回答,导致用户困惑和不满。然而,在代码生成和知识常识方面,大模型表现出色。总的来说,大模型的表现仍需改善,但其在某些领域的实力令人瞩目。随着技术的不断发展,未来大模型将变得更加智能、更加人性化,为人类带来更多便利和价值。


加油大模型!!!

加油大模型!!!

加油大模型!!!

目录
相关文章
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
353 10
【中文竞技场】大模型深度体验与测评
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69990 5
|
搜索推荐 安全 测试技术
中文大模型测评
中文大模型测评
|
自然语言处理 知识图谱
中文大模型体验评测
中文大模型体验评测
502 42
|
数据采集 人工智能
对ModelScope 中的中文竞技场进行分析测评
ModelScope 是一款功能强大的人工智能模型,它在多个领域都有着广泛的应用
|
自然语言处理
|
自然语言处理
「ModelScope」中文竞技场体验测评报告
体验大语言模型,并产出创作、代码相关、知识常识三个领域的评测报告
130 1
|
自然语言处理 程序员 数据库
用Modelscope 中文竞技场的测评体验分享
用Modelscope 中文竞技场的测评体验分享体验了三个场景,分别体验1系统默认的问题提交体验; 2.根据任务问题体验; 3.自主式提问题体验。就系统给出的答案进行评测。
2106 300
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1237 2
中文竞技场大模型测评