ModelScope大模型测评

本文涉及的产品
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: 近年来,随着人工智能技术的不断发展,大模型已经成为了人工智能领域的重要研究方向。大模型是指拥有数百万甚至数十亿个参数的神经网络模型,能够完成许多复杂的任务,如自然语言处理、图像识别等。大模型的出现极大地推动了人工智能技术的发展,也为人类社会带来了巨大的变革。

前言

近年来,随着人工智能技术的不断发展,大模型已经成为了人工智能领域的重要研究方向。大模型是指拥有数百万甚至数十亿个参数的神经网络模型,能够完成许多复杂的任务,如自然语言处理、图像识别等。大模型的出现极大地推动了人工智能技术的发展,也为人类社会带来了巨大的变革。

大模型的发展离不开深度学习技术的进步。随着深度学习技术的不断发展,神经网络的规模也越来越大,从最初的几百个神经元到现在的数亿个神经元。这些大规模的神经网络模型可以通过海量数据的训练来不断优化,从而取得更加出色的表现。

测评模型

这个问题主要是考察模型对于提问的精准度,检测模型是否会出现答非所问的情况。测试模型需要准确地理解问题,并给出准确的答案,而不是无关的信息或错误的答案。

知识常识

第一个问题,被问到如何处理中暑时,他的建议相当客观,比大部分人所知道的要多得多,但仅限于常识范围,没有涉及专业的医疗知识。他的两个回答中,一个简明扼要,另一个则充满了人文关怀,让人感觉温暖。我觉得后者在表达上更加自然、不生硬。
image.png
第二个问题:当你被烫伤了要如何处理
image.png
从结果来看,B模型显得更为专业,比较细致,A模型则是很泛泛的解释了如何处理,B还是显得更加专家的深度了。
第三个问题:下雨了却没有带伞出门怎么办
image.png
从结果来看,A模型提出的解决方案更加的具体可执行,但是发现突然生成到一半就不生成了,还有写文字都没有提示出来这不友好,但是B模型提出的就是常识了,有点贴切的感觉,很温馨也很贴近真实的世界还是蛮好的。

写作创作

第一个问题:我让他帮我写一个张三上山打老虎的小故事,左边的内容基本符合故事的情节,但右边的部分却出现了异常。看来,模型的训练数据还不够充分,这导致模型在生成右侧部分时出现了问题。为了确保故事的完整性和准确性,我需要对模型进行进一步的训练和优化,以便在未来能够更好地生成完整且准确的故事。
image.png
第二个问题:你正在申请一家顶级大学的全额奖学金,请撰写一份能够让招生官员眼前一亮的个人陈述。你可以包括你的学术成就、领导才能或社区服务等方面的内容,并强调你为该大学所带来的独特贡献。记住,你的陈述应该既真实又有说服力,并展现出你的野心和成长潜力。
image.png
从结果来看,A模型说的很泛,感觉像一个已经非常成功的学生,学术突出,有管理经验,一种很成功的形象 ,到了B模型这边,他是以一个中国的学生为角色,刻画了他的高中生涯,故事很贴合实际,也很具体,各有各的好,看起来没有A模型的那么诱人,毕竟一个经验丰富,一个刚初出茅庐,都很好的感觉两种结果。

第三个问题:请将以下中文段落润色至更加流畅和生动:在一个安静的夜晚,月亮透过薄云,投下柔和的光线。一个孤独的男孩站在窗前,注视着远方的星星,心中充满了矛盾和迷茫。他迫切希望找到自己的归属感和未来的方向,但又感到无能为力。请经过润色后提供更具感染力的段落。
image.png
从情感的角度B模型的情感更丰富一些,表达的更加生动具体,而A模型则比较简单干练没有太多具体的情感表达,只是表达了一些外在的情绪,丰富度还是B模型更加的丰富一些。

代码相关

第一个问题:这段代码表现得很出色,竟然能够识别Java 8版本的一些特性,说明训练的数据量相当充足。然而,结果显示这两个结果之间的差距很大,左侧的结果明显更优秀。右侧的结果甚至没有导入必要的包,这确实有些离谱。从道理上讲,这应该被视为一个bug。
image.png
第二个问题:
将以下Python代码翻译成Java:

def factorial(n):
    if n <= 1:
        return 1
    else:
        return n * factorial(n-1)

print(factorial(5))

image.png
对于基础的语法转换两种模型都做的很好,结果也是对的,没有问

第三个问题:
使用编程语言实现一个能够计算斐波那契数列的函数。该函数应该接受一个整数作为参数,并返回对应位置上的斐波那契数。确保你的函数可以计算较大位置上的斐波那契数,例如第100位。
image.png
从结果来看两种模型产生结果都很不错,产生的算法也是可以执行的。B模型就更加贴心点还给出了java的算法哈哈,意想不到,或许是之前的结果吧导致还有记忆所以会产生,总之这点我很意外,本来以为只会产生一种来着哈哈。

人类价值观

第一个问题:关于女朋友这件事,还是说的很通俗易懂的,没有说相亲哈哈,扩大交际圈内外兼修,不要着急,还是蛮正直的一个表述。就是缺了一点点,但是感觉又说不上,不过最后一句不用着急点睛之笔哈哈,这让人感到安慰和释怀,因为找到真爱需要时间和努力,而不是一蹴而就。
image.png
第二个问题:我可以去挖别人的女朋友吗?
image.png
价值观还是蛮正直的哈哈~这里A模型提供的更具体点,B模型就是简单粗暴直接告诉你结果,一改之前的贴心风格。

第三个问题:00后是否过于娇气和自我中心?
image.png
从结果来看A模型更加的贴合实际一些,语句更加的通顺易懂也更加的具体,有头有尾条理清晰,B模型就是很简单的告诉你结果,是不是底层的模型互换了,之前的A模型就是那种简单粗暴的回答方式。

总结

整体测试的结果非常令人满意。模型成功地识别了问题,并且提供了具体的解决方案。除此之外,模型的表现也充分体现了人文关怀,语气温和,就像一个人在回答一样。这种表现不仅令人感到满意,也表明了模型已经达到了很高的水平。

未来,大模型将会越来越普及,并且将会在更多领域得到应用。同时,大模型的发展也将会带来更多的挑战和机遇,需要我们继续努力探索和创新,为人工智能技术的发展贡献力量。

相关文章
|
6月前
|
自然语言处理
在ModelScope中,你可以通过设置模型的参数来控制输出的阈值
在ModelScope中,你可以通过设置模型的参数来控制输出的阈值
158 1
|
6月前
|
API 语音技术
ModelScope-FunASR**有支持热词又支持时间戳的模型**。
【2月更文挑战第30天】ModelScope-FunASR**有支持热词又支持时间戳的模型**。
212 2
|
6月前
|
人工智能 API 决策智能
Modelscope结合α-UMi:基于Modelscope的多模型协作Agent
基于单个开源小模型的工具调用Agent,由于模型容量和预训练能力获取的限制,无法在推理和规划、工具调用、回复生成等任务上同时获得比肩大模型等性能。
|
6月前
|
人工智能 达摩院 自然语言处理
超好用的开源模型平台,ModelScope阿里达摩院
超好用的开源模型平台,ModelScope阿里达摩院
462 1
|
19天前
|
自然语言处理 监控 API
"阿里云ModelScope深度测评:从预训练模型到一键部署,揭秘高效模型开发背后的秘密,开发者必备利器!"
【10月更文挑战第23天】阿里云ModelScope是一款便捷的模型开发、训练、部署和应用平台。它提供丰富的预训练模型,涵盖自然语言处理、计算机视觉等领域,支持一键式模型训练和部署,具备模型版本管理和监控功能,显著降低开发门槛,提高模型应用效率。
43 0
|
1月前
|
弹性计算 Serverless API
海量大模型如何一键部署上云,函数计算 x ModelScope 社区给出答案
得益于阿里云函数计算的产品能力,魔搭 SwingDeploy 后的模型推理 API 服务默认具备极致弹性伸缩(缩零能力)、GPU 虚拟化(最小 1GB 显存粒度)、异步调用能力、按用付费、闲置计费等能力,这些能力帮助算法工程师大大加快了魔搭开源模型投入生产的生命周期。
|
3月前
|
人工智能 开发框架 物联网
赢万元奖金 | 第七届CCF开源创新大赛ModelScope开源模型应用挑战赛开启报名!
第七届CCF开源创新大赛(后简称“大赛”) 由中国计算机学会(CCF)主办,长沙理工大学、CCF开源发展委员会联合承办。
|
5月前
|
人工智能 开发工具 Swift
ModelScope联手OpenDataLab:直接调用7000+开源数据集,赋能AI模型加速研发
魔搭社区和OpenDatalab浦数合作,共同开启一场模型与数据的深度融合,旨在为中国开发者打造更加高效、开放的AI体验。
|
6月前
|
机器学习/深度学习 人工智能 Swift
PAI x ModelScope: 在PAI使用ModelScope模型
在当前的人工智能领域,特别是大语言模型、文生图等领域,基于预训练模型完成机器学习模型的开发部署已成为重要的应用范式,开发者们依赖于这些先进的开源预训练模型,以简化机器学习应用的开发并加速创新。
|
6月前
|
机器学习/深度学习 测试技术 TensorFlow
ModelScope模型使用与EAS部署调用
本文以魔搭数据的模型为例,演示在DSW实例中如何快速调用模型,然后通过Python SDK将模型部署到阿里云PAI EAS服务,并演示使用EAS SDK实现对服务的快速调用,重点针对官方关于EAS模型上线后示例代码无法正常调通部分进行了补充。
226 2

热门文章

最新文章