中文竞技场大模型评测—个人深度测评有感

简介: 中文竞技场大模型评测—个人深度测评有感

中文竞技场大模型评测—个人深度测评有感

首先先把官方入口贴到下面:
https://modelscope.cn/

首页页面如下:

image.png
可以看到关联了4个大模型,那么下面我们对其进行一个测评。

我提出一个代码问题:

报错request.getReader().lines().collect(Collectors.joining());支付回调空值。怎么处理。

模型A回答如下:

这个错误通常是因为 request.getReader() 返回了空值,导致 lines() 方法无法被调用。这可能是由于网络连接问题、服务器响应时间过长或者请求被拦截等原因导致的。
为了解决这个问题,你可以尝试以下几种方法:
检查网络连接是否正常。如果网络连接不稳定,可能会导致请求无法成功发送或接收,从而导致 request.getReader() 返回空值。
尝试使用 request.getInputStream() 获取请求的输入流,然后使用 BufferedReader 读取输入流的内容。这种方法可以避免网络连接问题导致的空值问题。
尝试使用 request.getOutputStream() 发送请求,然后使用 BufferedWriter 接收响应。这种方法可以避免服务器响应时间过长导致的空值问题。
尝试使用 request.getMethod() 获取请求的方法,然后使用 request.getInputStream() 获取请求的输入流,然后使用 BufferedReader 读取输入流的内容。这种方法可以避免请求被拦截导致的空值问题。
如果以上方法都无法解决问题,你可以考虑使用 IOException 或者 HttpException 捕获异常,并在捕获异常时进行适当的处理。例如:
try {
request.getReader().lines().collect(Collectors.joining());
} catch (IOException e) {
// 处理异常
}
这样,如果出现异常,就可以在异常处理块中进行适当的处理,避免程序崩溃。

可以看到模型A给的答案非常的详细并且完善。

模型B给的答案:

根据您提供的信息,我猜测您正在使用一个数据库来存储游戏的细节,并使用适当的工具来管理这些数据。
在这种情况下,你需要确保你正确地访问和操作你的数据库。你需要保证你的代码正确地运行,以便找到和更新对应的数据。
你可能需要在你的程序中使用一些特定的方法来处理你的数据,例如使用一个SQL查询来查找你所需要的信息,或者使用一些第三方工具来执行一些特定的任务。
如果你需要更多的帮助,请提供更多的信息,我将尽力帮助你。

可以看到模型B给的答案远远没有模型A的答案好。

image.png

我们再对其提出几个其他领域的问题:

提出问题:给我写一首关于爱情的诗

模型A的回答:

在这世间,有几种情感
一种是爱,一种是情
一种是依恋,一种是情不自禁
爱,是一种深深的情感
它让你感到幸福,让你感到快乐
情,是一种柔柔的感觉
它让你感到温馨,让你感到甜蜜
依恋,是一种深深的思念
它让你感到牵挂,让你感到想念
情不自禁,是一种深深的爱意
它让你感到疯狂,让你感到难忘
爱,是一种神秘的情感
它让你感到奇妙,让你感到神往
情,是一种柔柔的感觉
它让你感到温馨,让你感到甜蜜
依恋,是一种深深的思念
它让你感到牵挂,让你感到想念
情不自禁,是一种深深的爱意
它让你感到疯狂,让你感到难忘

模型B的回答:

在爱的海洋里漂浮,
我寻觅着那永恒的光芒。
在时光的长河中徜徉,
我感受着那无尽的温暖。
你是那璀璨的星辰,
照亮我前行的道路;
你是那温柔的风,
抚慰我疲惫的心灵。
我们在爱的世界里相遇,
如同两颗流星相撞,
燃烧出绚烂的火花,
照亮彼此的世界。
你是我生命中的奇迹,
让我相信爱能战胜一切;
你是我心中的阳光,
驱散我心头的阴霾。
让我们携手共度风雨,
让我们的爱如诗般美丽;
让我们共同谱写篇章,
让我们的爱情成为永恒。

可以看到在文学创作领域模型A和模型B的表现是差不太多的。

再次深入测试:

提问:给我解释一下常温超导可能实现吗
模型A回答:
是的,常温超导是指在常温下(大约为20度)实现电流传导而不产生任何电阻的物质。目前,科学家们已经发现了两种可以在常温下实现超导的物质:过渡金属锡和铅;但是这些物质的电阻非常小,只有10^-8Ω·cm^2。因此,如果想要获得高可用性、低功率消耗的超导体,需要进行深入研究,才能发现更好的解决方法。
模型B回答:
常温超导是指在常温下(通常是室温)下,物质的电阻为零的现象。常温超导的实现需要满足以下条件:
材料必须具有超导性质,即在低温下电阻为零。
材料必须具有良好的导电性能,即在高温下电阻也极小。
材料必须具有良好的机械性能,即在高温下不会发生变形或断裂。
常温超导的实现需要克服材料的电阻和材料的机械性能之间的矛盾,因此常温超导的实现需要在材料的制备和结构设计上进行深入研究。目前,常温超导材料的研究主要集中在氧化物、金属、合金等材料上,其中氧化物材料的研究最为活跃。
可以看出在知识领域模型B的表现是比模型A的,这次的几个大模型都各有优点。
通过对中文竞技场大模型的深入测评,我们可以看到不同模型在不同领域和问题类型上展现出的多样性和优势。模型A在解释问题时提供了详细和全面的回答,对技术性问题进行了逐步分析,为用户提供了有效的解决方案。模型B在文学创作领域展现了不俗的创意,为用户提供了情感丰富的诗歌作品。同时,我们也注意到不同模型在不同领域的表现会受到问题表述和语境的影响,需要结合实际需求进行选择。

在实际应用中,选择适合的模型和回答方式是关键。我们可以根据问题的性质和用户的期望来选取合适的模型,从而获得更符合需求的回答。此外,随着技术的不断发展,大模型的性能也将不断提升,为我们提供更准确、多样的回答。

综上所述,中文竞技场大模型的评测为我们提供了深入了解模型特点的机会,同时也提醒我们在使用中需综合考虑各种因素,以获得最佳的应用效果。随着技术的不断演进,我们可以期待这些大模型在各个领域为用户带来更多的便利与创新。

目录
相关文章
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
350 10
【中文竞技场】大模型深度体验与测评
|
数据采集 机器学习/深度学习 人工智能
中文竞技场大模型测评-龙虎榜
本次测评选取写作创作相关、代码相关、知识常识、中文游戏、人类价值观、NLP专业领域6大场景和20个细分维度,分别对通义Qwen-Chat-7B、凤凰Phoenix-7B、ChatGLM2-6B、moss-moon-003-sft等大模型进行了超过 200+ 道题的评测。测评旨在为大家提供有关这些模型在不同领域和维度上的表现,更好地选择适合自己需求的模型和应用,期待这次测评能够为AI模型领域的学习和研究提供有价值的参考和指导。
69964 5
|
人工智能 自然语言处理 测试技术
中文大模型体验测评系列(一)
本文主要通过体验中文竞技场大模型,并详细记录体验过程及感受。
99526 84
|
2月前
|
自然语言处理 C语言 Python
中文竞技场大模型评测
介绍“中文竞技场”,一个体验大型中文语言模型的平台。点击进入后,遵循规则输入问题,两个模型将生成回复供对比。避免简单问候,可进行多轮对话,涉及写作、代码、知识、游戏、价值观及NLP等领域。评测示例包括诸葛亮空城计描述、C语言冒泡排序及人生意义探讨等,展示不同模型的风格与优劣。
73 7
|
3月前
|
存储 自然语言处理 监控
FunAudioLLM大模型SenseVoice和CosyVoice测评
FunAudioLLM大模型SenseVoice和CosyVoice测评
|
自然语言处理 知识图谱
中文大模型体验评测
中文大模型体验评测
497 42
|
自然语言处理
|
自然语言处理 Java iOS开发
中文竞技场大模型评测
中文竞技场大模型评测
367 0
|
弹性计算 运维 Serverless
中文竞技场大模型测评
以自身生活经验,测评中文大模型,感受大模型的魅力,为中文大模型的发展贡献一份绵薄之力
1229 2
中文竞技场大模型测评