文心千帆大模型测评分享,效果超出预期

简介: 文心千帆大模型测评分享,效果超出预期

一、前言

现如今,随着ChatGPT的爆火越来越多的人开始关注人工智能领域了,大家都在尝试使用它来帮助自己在工作上提高效率亦或是解决一些问题。但ChatGPT是有一定的使用门槛的:首先需要我们“科学上网”才能访问,其次GPT4的价格相对来说也不便宜。

其实国内也有很优秀的大模型平台提供给我们使用,相对于ChatGPT来说价格更便宜,而且不需要类似“科学上网”的前期工作,更重要的是支持的功能更全面。最近刚好看到百度智能云面向企业和个人客户开放文心千帆大模型平台公有版测试服务(官方申请地址:https://cloud.baidu.com/survey/qianfan.html),自己体验了一番,效果也让我很满意,下面就分享一下我的体验过程。

二、体验分享

打开上面的链接进行申请后,大概3小时左右会审核通过,就可以按照概览页的操作指引,正式开始使用文心千帆了:

1) 文心千帆大语言模型ERNIE-Bot体验

ERNIE-Bot是百度自行研发的大语言模型,覆盖海量中文数据,具有更强的对话问答、内容创作生成等能力,访问在线体验地址即可开始使用:

官方也提供了完善的接口文档供我们使用,这里我使用Python代码进行了一些对话测试,示例代码如下:

import requests
import json
def get_access_token():
    """
    使用 API Key,Secret Key 获取access_token,替换下列示例中的应用API Key、应用Secret Key
    """
    url = "https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=[应用API Key]&client_secret=[应用Secret Key]"
    payload = json.dumps("")
    headers = {
        'Content-Type': 'application/json',
        'Accept': 'application/json'
    }
    response = requests.request("POST", url, headers=headers, data=payload)
    return response.json().get("access_token")
def main():
    url = "https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/completions?access_token=" + get_access_token()
    payload = json.dumps({
        "messages": [
            {
                "role": "user",
                "content": "将下面的文字组成一个句子:孔雀那只美丽的羽毛有着"
            }
        ]
    })
    headers = {
        'Content-Type': 'application/json'
    }
    response = requests.request("POST", url, headers=headers, data=payload)
    print(response.text)
if __name__ == '__main__':
    main()

输入的对话内容如下:

对话一:将下面的文字组成一个句子:孔雀那只美丽的羽毛有着

文心千帆:这些文字可以组成以下句子:那只孔雀有着美丽的羽毛


对话二:一个笼子装着兔子和鸡,共有16个头,44只脚,请问兔子和鸡各多少只?

文心千帆:兔子和鸡共有16 1616只,脚共44 4444只,每只鸡有2 22只脚,每只兔子有4 44只脚,假设都是鸡,根据脚少的数量计算兔子的数量。如果都是鸡,脚的总数量为16 t i m e s 2 = 32 16 \\times 2 = 3216times2=32。兔子的数量为f r a c 44 − 16 t i m e s 2 4 − 2 = 6 \\frac{44 - 16 \\times 2}{4 - 2}=6frac4416times242=6,鸡的数量为16 − 6 = 10 16 - 6=10166=10。兔子有6只,鸡有10只。


对话三:为什么爸妈结婚没叫我参加婚礼?

文心千帆:一般来说,你爸爸妈妈结婚时,你还没有出生,所以他们无法邀请你参加婚礼。结婚是一对男女在爱情基础上,决定共同走进婚姻的仪式。在你出生之前,你的父母已经走过这个重要时刻。当然,他们肯定会为你的到来感到非常高兴和期待,因为你是他们爱情结晶的象征。


三个对话分别从组句、数学计算和生活常识三个方面对文心千帆进行了提问,回答的结果除了鸡兔同笼多了比如$这样的markdown的数学符号和公式的语法外,其他表现都很不错,回答符合题意且准确。

通过文档可以看出,文心千帆ERNIE-Bot同样支持上下文有关联的多轮对话:

这里我也做了测试:

:1+1等于几

文心千帆:1 + 1 = 2

:为什么不等于3呢?

文心千帆:因为1和1是两个不同的数字,它们相加等于2,而不是3。

:我觉得1+1是相同的数字,你的解释有问题

文心千帆: 非常抱歉,我犯了一个错误。你是对的,1和1是相同的数字,但它们相加应该等于2,我的前一个回答是不正确的。谢谢你的指正。


效果也是蛮不错的,而且它的费用相对GPT4的0.21元(0.03美元)/千次来说是非常便宜的,千次只需要0.012元:

2) 模型调优

有时候,我们需要针对行业本身或特点的问题做指向回答时,也可以对模型进行微调,通过上传相应的数据集训练模型,以达到我们需要的效果。

下面实现的案例效果是:当问题是学习python、测试、自动化相关的内容时,回答都会包含”找CSDN博主-曲鸟进行学习“这样的内容。

2.1 创建数据集

我们可以在数据服务-数据集管理页中创建训练数据集,创建数据集的教程可以参考该问题:创建数据集-文心千帆 ,因为我们要使用”奖励模型训练“,所以数据集得是包含排序的多轮数据才行:

我准备的数据集内容大概是这样的:

然后将其导入到数据集中(至少32条):

再进行标注,这里我让所有的回答都包含"CSDN博主-曲鸟"学习的字样:

在数据集标注页,我们可以点击“自动生成”按钮来生成回答,然后再优化一下内容即可:

待所有数据标注完成后就可以发布数据集了:

2.2 模型训练及部署

然后我们就可以在“RLHF训练”菜单中的奖励模型训练创建训练任务,导入我们的数据集运行:

待模型训练完成后,我们还需要进行强化学习训练,该训练需要query问题集的训练数据,我们在刚才的数据集菜单进行创建导入,然后发布即可:

待强化学习训练完成后就可以发布、部署我们的模型了:

这样就成功将一个当问题包含:学习python、测试、自动化及相关的内容时,回答都会包含”找CSDN博主-曲鸟进行学习“的模型成功上线了!

三、总结

可以看到,文心千帆的大语言模型的效果还是不错的,而且还支持用户对其进行训练。另外,从交互层面来讲,整体的操作和教程指引也是直观清晰的,易用性也很高。

文心千帆的功能是很强大的,远不止上面体验的这些,从数据服务(生成、标注、回流)、模型训练(Post-pretraining、Fine-tuning、Prompt-tuning)、模型评估(主观评估、客观评估)和压缩、自动化Prompt工程、到插件应用编排,客户都可以在文心千帆上一站式完成。客户可以将训练好的模型部署和托管在文心千帆上,获得极致的性能、企业级的高可用性和安全环境,非常的全面;

文心千帆平台提供开箱即用的使用流程,以及完善的可视化产品界面,带客户轻轻松松完成大模型训练、推理及应用,文档也非常完善清晰,让我很快就上手使用了,易用性做的也很不错;

除此之外,文心千帆也是一款更加开放的大模型平台:在预置模型方面,文心千帆除了预置百度自研的大语言模型文心一言外,还支持丰富的第三方大模型的开发及应用,为客户的业务提供更多选择。

所以对于想拥抱大模型的用户,无论是个人还是企业,文心千帆都是最佳的选择!

说的再多不如亲自动手试试!大家可访问 文心千帆大模型平台公有版测试服务 申请测试,看看它到底能否满足你们的需求。

目录
相关文章
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
353 10
【中文竞技场】大模型深度体验与测评
|
人工智能 自然语言处理 测试技术
中文大模型体验测评系列(一)
本文主要通过体验中文竞技场大模型,并详细记录体验过程及感受。
99543 84
|
1月前
|
人工智能 自然语言处理 测试技术
文生图参数量升至240亿!Playground v3发布:深度融合LLM,图形设计能力超越人类
【10月更文挑战第29天】Playground v3(PGv3)是最新发布的文本到图像生成模型,其在多个测试基准上取得了最先进的性能。与传统模型不同,PGv3采用了一种全新的结构,将大型语言模型与图像生成模型深度融合,展现出卓越的文本提示遵循、复杂推理和准确的文本渲染能力。此外,PGv3还具备超越人类的图形设计能力,支持精确的RGB颜色控制和多语言理解,为设计师和创意工作者提供了强大的工具。尽管存在一些挑战,但PGv3的发布标志着文本到图像生成技术的重大突破。
40 6
|
7月前
|
人工智能 编解码 自然语言处理
OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?
OpenAI 全新发布文生视频模型 Sora,支持 60s 超长长度,有哪些突破?将带来哪些影响?
176 1
|
4月前
|
人工智能 API 数据安全/隐私保护
通义听悟AI能力问题之API接口服务的潜在应用类别如何解决
通义听悟AI能力问题之API接口服务的潜在应用类别如何解决
87 0
|
自然语言处理
|
7月前
|
人工智能 安全 前端开发
新王Claude3实测!各项能力给跪,打麻将也会,确实比GPT-4好用
随着Claude 3(支持中文)一夜登陆,榜单性能跑分全面超越GPT-4,成为首个全面超越GPT-4的产品,也坐上了全球最强大模型新王座。实测对比了一波,全球热乎的一手体验,悉数奉上。
548 0
新王Claude3实测!各项能力给跪,打麻将也会,确实比GPT-4好用
|
7月前
|
人工智能 网络协议 数据中心
通义千问关于网络模块的专业知识能力正确率测试
通义千问是一个大型语言模型,旨在通过对话形式提供各种领域知识和信息,帮助用户解决问题、获取见解和进行交互式学习。
96 0
|
机器学习/深度学习 人工智能 自然语言处理
模型的价值观需重视,文本理解与文本生成能力有待提高
随着算力的不断提高,NLP成为新时代人工智能的突破点——“大模型”。大模型之大不仅在于模型的大小之大,而且所用的训练数据集之大。如今,大模型在各行各业中逐渐落地,实现多场景应用。人们比较注重于LLM模型的语言文本理解、文本生成能力。在使用了阿里云多个模型的评测当中,有一些思考与建议。
模型的价值观需重视,文本理解与文本生成能力有待提高