中文竞技场模型体验

简介: 本次体验我选了三个比较考验专业技能的方向。分别是:代码相关、知识常识相关和NLP专业领域。这些模型对于一些基础得问题回答的还是很不错的,但是掌握的知识广度不够,深度还是可以的。更有甚者,一个模型遇到不会的问题,直接给我返回乱码,这个就要批评一下程序员了,怎么可以让用户看到这种场面呢?

本次体验了三个方向,共使用了六个模型。分别是代码相关、知识常识相关和NLP专业领域,都是专业性比较强得问题。这六个模型中有表现好的,当然也有一些确实存在致命的问题。下面我就这三个方向,展开详细的分析:

代码相关:

  1. 首先我们先来看一下具体的问答,用到的模型分别为:Model A: ChatPLUG-100Poison、Model B: billa-7b-sft-v1
    图片.png
    图片.png

  2. 本次我共问了三个问题。一个python相关、两个java相关。其中python相关的比较基础,两个模型回答得都挺不错,java相关的常见题目也基本都回答出来了,其中模型B的答案较详细。最后不太常见的细节问题,两个模型都没有回答出来,而且都乱码了,这一点我认为非常的不好,如果这个题没有在模型的题库中,可以给一个较为友好的提示,直接乱码,实在不好。

知识常识相关

  1. 我们仍然先来看一下,各个模型的表现情况。本次用到的模型:Model A: qwen-7b-chat-v1、Model B: moss-moon-003-sft-v1
    图片.png
    图片.png
  2. 第一道题是关于数学的等差数列,我直接用的是系统推荐的题目。很显然,这道题回答的还是非常不错的。区别的话,就是Model B: moss-moon-003-sft-v1回答得要更为详细,更用于看懂,而Model A: qwen-7b-chat-v1则需要有些基础的人看。
  3. 第二个问题,是我们日常生活观察到的。两个模型都回答错了,而且错得一致,在这方便还是需要加强的。
  4. 第三个问题,是医学类的常识,两个模型表现得都很好。

    NLP专业领域相关

  5. 本次测试呢?两个模型的差异就比较大了。用到的模型有:Model A: qwen-7b-chat-v1 、Model B: belle-llama-13b-2m-v1。下面我们具体看下:
    图片.png
    图片.png
  6. 第一个问题,仍然是系统推荐的,基础数学相关的问题,两个模型都很棒,回答的都特别好。
  7. 第二个问题,是名著相关的,差异就表现出来了。Model A: qwen-7b-chat-v1仍然表现得很好,回答准确,抓住了问题的核心。Model B: belle-llama-13b-2m-v1这次表现得就超级不好,直接乱码了。
  8. 第三个问题,是中国得传统节日相关问题。Model A: qwen-7b-chat-v1虽然回答的过于简洁,但是也算抓住了问题的核心,Model B: belle-llama-13b-2m-v1则是,完全不知道我在问什么,回答得乱七八糟。

总结:总得来看,我们平时学习经常遇到的问题,像数学相关的都回答得不错,但是广度不够。但是生活上的小细节问题,或者在实际开发中要遇到得小问题,则是没有记录。还有对中国的传统文化了解得不够,国内的东西,这一点还是挺不好的。

相关文章
|
存储 NoSQL 关系型数据库
带你读《2022技术人的百宝黑皮书》——数据库存储选型经验总结(3)
带你读《2022技术人的百宝黑皮书》——数据库存储选型经验总结(3)
242 0
|
人工智能 自然语言处理 搜索推荐
如何构建一套qwen-max智能体拥有媲美通义千问在线接口的能力
智能系统通过任务识别、决策引擎、工具选择和结果整合,自动选择合适的工具和方法,高效处理查询、生成、翻译、图像处理等任务,提供精准的解决方案。系统支持自然语言理解、任务分类、语义解析与意图识别,确保任务的准确执行和反馈。
409 3
|
消息中间件 JSON 数据库
探索Flink动态CEP:杭州银行的实战案例
本文由杭州银行大数据工程师唐占峰、欧阳武林撰写,介绍Flink动态CEP的定义、应用场景、技术实现及使用方式。Flink动态CEP是基于Flink的复杂事件处理库,支持在不重启服务的情况下动态更新规则,适应快速变化的业务需求。文章详细阐述了其在反洗钱、反欺诈和实时营销等金融领域的应用,并展示了某金融机构的实际应用案例。通过动态CEP,用户可以实时调整规则,提高系统的灵活性和响应速度,降低维护成本。文中还提供了具体的代码示例和技术细节,帮助读者理解和使用Flink动态CEP。
1676 3
探索Flink动态CEP:杭州银行的实战案例
|
人工智能 大数据 程序员
一文看懂开源图化框架中的循环设计逻辑!
相信大家在日常工作中,已经精通各种循环逻辑的实现。就拿我来说吧,多年的工作经验,已经让我可以熟练的使用 C++,Python,英语等多种语言,循环多次输出“hello word”。不过大家有没有想过一个这样的问题:如何在一个有向无环图(Directed Acyclic Graph,简称dag)中实现循环呢?
1156 0
一文看懂开源图化框架中的循环设计逻辑!
|
消息中间件 存储 运维
RabbitMQ-消息消费时的可靠性保障
将这些实践融入到消息消费的处理逻辑中,可以很大程度上保障RabbitMQ中消息消费的可靠性,确保消息系统的稳定性和数据的一致性。这些措施的实施,需要在系统的设计和开发阶段充分考虑,以及在后续的维护过程中不断的调整和完善。
326 0
|
缓存 网络协议 开发者
HTTP1.0、HTTP1.1 、HTTP2.0和HTTP3.0 的区别【面试题】
HTTP1.0、HTTP1.1 、HTTP2.0和HTTP3.0 的区别【面试题】
2134 0
HTTP1.0、HTTP1.1 、HTTP2.0和HTTP3.0 的区别【面试题】
操作系统(8)---进程的同步与互斥以及信号量机制(万字总结~)(3)
操作系统(8)---进程的同步与互斥以及信号量机制(万字总结~)
1077 0
|
域名解析 网络协议
Namesilo域名解析
简单的3步,就可以让你快速完成Namesilo域名解析设置,修改DNS解析记录。首先你需要登录Namesilo官网,点击My Account进入账户主页,然后点击Domain Manager打开Namesilo域名管理控制台。找到你想要解析的域名,在其右侧点击蓝色小球图标进入域名修改界面,添加和删除你的域名解析记录。
3109 0
Namesilo域名解析
|
云安全 运维 安全
远程桌面时连接不上远程计算机是什么问题
有一些其他可能导致远程桌面连接失败的因素,例如远程计算机已关闭、远程计算机上安装的软件与远程桌面发生冲突等。针对这些问题,可以采取相应的解决措施,来查看处理。
|
小程序 数据安全/隐私保护
阿里云新手入门:注册账号、实名认证、申请免费云服务器
阿里云新手指南:注册账号(手机号或支付宝快捷注册),完成实名认证(个人/企业)。通过免费服务器获取3个月试用。创建后,设置密码,远程连接,配置安全组规则,部署应用,如建站与环境安装。详询官方教程。

热门文章

最新文章