中文竞技场模型体验

2023-08-18 120

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，5000CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： 本次体验我选了三个比较考验专业技能的方向。分别是：代码相关、知识常识相关和NLP专业领域。这些模型对于一些基础得问题回答的还是很不错的，但是掌握的知识广度不够，深度还是可以的。更有甚者，一个模型遇到不会的问题，直接给我返回乱码，这个就要批评一下程序员了，怎么可以让用户看到这种场面呢？

本次体验了三个方向，共使用了六个模型。分别是代码相关、知识常识相关和NLP专业领域，都是专业性比较强得问题。这六个模型中有表现好的，当然也有一些确实存在致命的问题。下面我就这三个方向，展开详细的分析：

代码相关：

首先我们先来看一下具体的问答，用到的模型分别为：Model A: ChatPLUG-100Poison、Model B: billa-7b-sft-v1
本次我共问了三个问题。一个python相关、两个java相关。其中python相关的比较基础，两个模型回答得都挺不错，java相关的常见题目也基本都回答出来了，其中模型B的答案较详细。最后不太常见的细节问题，两个模型都没有回答出来，而且都乱码了，这一点我认为非常的不好，如果这个题没有在模型的题库中，可以给一个较为友好的提示，直接乱码，实在不好。

知识常识相关

我们仍然先来看一下，各个模型的表现情况。本次用到的模型：Model A: qwen-7b-chat-v1、Model B: moss-moon-003-sft-v1
第一道题是关于数学的等差数列，我直接用的是系统推荐的题目。很显然，这道题回答的还是非常不错的。区别的话，就是Model B: moss-moon-003-sft-v1回答得要更为详细，更用于看懂，而Model A: qwen-7b-chat-v1则需要有些基础的人看。
第二个问题，是我们日常生活观察到的。两个模型都回答错了，而且错得一致，在这方便还是需要加强的。
第三个问题，是医学类的常识，两个模型表现得都很好。
NLP专业领域相关
本次测试呢？两个模型的差异就比较大了。用到的模型有：Model A: qwen-7b-chat-v1 、Model B: belle-llama-13b-2m-v1。下面我们具体看下：
第一个问题，仍然是系统推荐的，基础数学相关的问题，两个模型都很棒，回答的都特别好。
第二个问题，是名著相关的，差异就表现出来了。Model A: qwen-7b-chat-v1仍然表现得很好，回答准确，抓住了问题的核心。Model B: belle-llama-13b-2m-v1这次表现得就超级不好，直接乱码了。
第三个问题，是中国得传统节日相关问题。Model A: qwen-7b-chat-v1虽然回答的过于简洁，但是也算抓住了问题的核心，Model B: belle-llama-13b-2m-v1则是，完全不知道我在问什么，回答得乱七八糟。