【中文竞技场】大模型深度体验与测评

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。

简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。

image.png

一、开篇

在科技日新月异的今天,中文竞技场提供了一系列大模型供我们体验。涉及的领域包括写作创作、代码编写、中文游戏等,真是一个涉猎广泛的"知识王国"。接下来,我会详细地分享我在这三个领域的体验过程和心得。

image.png


二、写作创作能力体验测评

1. 问题背景  写作创作测试旨在测量模型的创造性、连贯性和对给定主题的理解能力。

2. 测试模型  本次测评的模型分别为:Model A: billa-7b-sft-v1 和 Model B: moss-moon-003-sft-v1。

3. 问题与回答:

1)  我要求模型以“人工智能的未来展望”为题写一篇文章。结果显示,Model A能够提供更深入、具有前瞻性的内容,而Model B则更偏重于当前的发展状态。两者在文章的连贯性和逻辑性上都表现得相当不错,但在对未来的展望上,Model A显得更具有洞察力。

image.png

2)我要求模型以“当代青年就业”为题写一篇文章。结果显示,Model B能够提供更深入、具有前瞻性的内容,而Model A则需要你提供具体方向分析。两者在文章的连贯性和逻辑性上都表现得相当不错。

image.png

3)我要求模型以“武松打虎”为题写一篇文章。结果显示,Model B能够提供更深入具体的内容,而Model A则更简明扼要。两者在文章的连贯性和逻辑性上都表现得相当不错。

image.png



三、代码编写能力体验测评

1. 问题背景  代码编写测试的目的是检验模型对编程语言的理解和代码生成能力。

2. 测试内容  :我提供以下三种简单的编程需求:

1)使用Python语言写一个水仙花素的算法。

2)使用Java语言写一个快速排序。

3)使用c++语言写一个计算器。

3. 体验结论

1)  两个模型都能快速生成代码,但在细节和优化方面,Model B表现得更加出色,代码结构清晰,可读性强,而Model A虽然完成了任务,但代码稍显冗余。

image.png

2)两个模型都能快速生成代码,但在细节和优化方面,Model B表现得更加出色,代码结构清晰,可读性强,而Model A虽然完成了任务,但代码稍显冗余。

image.png

3)两个模型都能快速生成代码,但我们可以清晰的看到Model A有点小问题还停留在上个JAVA需求中(有点小BUG),但Model B 表现得更加出色,代码结构清晰,可读性强

image.png


四、中文游戏体验测评

1. 问题背景  中文游戏测试的目标是了解模型在中文问答和文字冒险游戏上的表现。

2. 问题与回答  :

1)首先,我为模型提出了一个中文成语题:“指鹿为马”的寓意是什么? Model A给出的答案比较简洁,而Model B答案比较完善,提出具体史事。

image.png

2)其次,我为模型提出了一个中文成语题:“围魏救赵”的寓意是什么? Model B给出的答案比较简洁,而Model A答案比较完善,提出具体史事。

image.png


3)最后,我为模型提出了一个问题:猜一种动物,它有四条腿,能够嗅出其他动物的气味,有锋利的牙齿和爪子,可以在树上爬来爬去。Model A给出的答案比较具体,直接给出答案松鼠,而Model B答案比较笼统,指出它可能是猫科动物。

image.png

3. 体验结论  在中文游戏方面,Model A明显更胜一筹,但这也提醒了我,无论模型多么先进,我们都不能完全依赖它,毕竟机器也有它的局限性。




五、结论

经过深入的体验和测评,我发现中文竞技场中的大模型在各个领域都有出色的表现,但仍有提升空间。对于我们来说,这样的平台不仅可以帮助我们快速获取知识,还能锻炼我们的批判性思维,真正做到“与机器共舞”。

相关文章
|
机器学习/深度学习 人工智能 数据可视化
文心千帆大模型测评分享,效果超出预期
文心千帆大模型测评分享,效果超出预期
289 1
|
6月前
|
人工智能 自然语言处理 搜索推荐
WritingBench:阿里最新大模型写作能力多维测评工具,开源32B深度思考写作模型
近日,阿里研究团队联合中国人民大学和上海交通大学共同开源了WritingBench ——该评估基准覆盖6大领域、100个细分场景,共包含1239条评测数据,以期为生成式写作提供全面的评估。团队进一步发现,凭借思维链技术和动态评估体系的加持,基于Qwen开发的32B创作模型在创意型任务上表现接近顶尖模型R1,为高效能创作开辟了新路径。
465 5
|
7月前
|
人工智能 Serverless API
评测|全网最强🚀!5min部署满血版DeepSeek,零成本,无需编程!
本文介绍了阿里云提供的四种DeepSeek部署方案,包括基于百炼调用满血版API、基于函数计算部署、基于人工智能平台PAI部署和GPU云服务器部署。通过这些方案,用户可以摆脱“服务器繁忙”的困扰,实现快速部署与使用
2206 3
评测|全网最强🚀!5min部署满血版DeepSeek,零成本,无需编程!
|
11月前
|
存储 安全 关系型数据库
后端技术深度剖析:构建高效稳定的企业级应用
【10月更文挑战第5天】后端技术深度剖析:构建高效稳定的企业级应用
244 0
|
9月前
|
人工智能 前端开发 数据可视化
2024年低代码趋势洞察——企业最看重的功能有哪些
低代码平台通过可视化开发、五大核心引擎(SQL、功能、模板、图表、切面引擎)、模型驱动开发、高效数据处理、AI智能助力及灵活插件生态等功能,简化开发流程,提高效率,降低成本,成为企业加速数字化转型的关键驱动力。其强大的技术架构和企业级特性,进一步提升了运营效率与决策能力。
|
资源调度 计算机视觉
图像处理之图像加噪
图像处理之图像加噪
223 0
图像处理之图像加噪
|
机器学习/深度学习 算法
【MATLAB】基于VMD-SSA-LSTM的回归预测模型
【MATLAB】基于VMD-SSA-LSTM的回归预测模型
437 4
语音识别(ASR)基础介绍第三篇——经典做法及术语概念
上一章介绍了万金油特征MFCC,相当于数据的输入已经确定了。 本章尽可能的介绍经典asr做法。其中涉及到的各种概念和思考,了解了之后,和相关专业的人交流,大概就不再迷茫了:D 传统方法也可以按 声学模型 和 语言学模型 的方式来划分。 声学模型主要的职责是,把一段音频处理成类似拼音的形式, 然后交给语言模型来猜: 能够发这些音的单词,怎么组合起来更常见一些。然后找到最可能的组合,便是asr的结
7176 0
|
11月前
|
存储 安全 API
单元化架构,分布式系统的新王!
【10月更文挑战第9天】
634 0
单元化架构,分布式系统的新王!
|
11月前
|
机器学习/深度学习 自然语言处理 PyTorch
【机器学习】探索LSTM:深度学习领域的强大时间序列处理能力
【机器学习】探索LSTM:深度学习领域的强大时间序列处理能力

热门文章

最新文章