文心千帆大模型测评分享,效果超出预期

简介: 文心千帆大模型测评分享,效果超出预期

一、前言

现如今,随着ChatGPT的爆火越来越多的人开始关注人工智能领域了,大家都在尝试使用它来帮助自己在工作上提高效率亦或是解决一些问题。但ChatGPT是有一定的使用门槛的:首先需要我们“科学上网”才能访问,其次GPT4的价格相对来说也不便宜。

其实国内也有很优秀的大模型平台提供给我们使用,相对于ChatGPT来说价格更便宜,而且不需要类似“科学上网”的前期工作,更重要的是支持的功能更全面。最近刚好看到百度智能云面向企业和个人客户开放文心千帆大模型平台公有版测试服务(官方申请地址:https://cloud.baidu.com/survey/qianfan.html),自己体验了一番,效果也让我很满意,下面就分享一下我的体验过程。

二、体验分享

打开上面的链接进行申请后,大概3小时左右会审核通过,就可以按照概览页的操作指引,正式开始使用文心千帆了:

1) 文心千帆大语言模型ERNIE-Bot体验

ERNIE-Bot是百度自行研发的大语言模型,覆盖海量中文数据,具有更强的对话问答、内容创作生成等能力,访问在线体验地址即可开始使用:

官方也提供了完善的接口文档供我们使用,这里我使用Python代码进行了一些对话测试,示例代码如下:

import requests
import json
def get_access_token():
    """
    使用 API Key,Secret Key 获取access_token,替换下列示例中的应用API Key、应用Secret Key
    """
    url = "https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=[应用API Key]&client_secret=[应用Secret Key]"
    payload = json.dumps("")
    headers = {
        'Content-Type': 'application/json',
        'Accept': 'application/json'
    }
    response = requests.request("POST", url, headers=headers, data=payload)
    return response.json().get("access_token")
def main():
    url = "https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/completions?access_token=" + get_access_token()
    payload = json.dumps({
        "messages": [
            {
                "role": "user",
                "content": "将下面的文字组成一个句子:孔雀那只美丽的羽毛有着"
            }
        ]
    })
    headers = {
        'Content-Type': 'application/json'
    }
    response = requests.request("POST", url, headers=headers, data=payload)
    print(response.text)
if __name__ == '__main__':
    main()

输入的对话内容如下:

对话一:将下面的文字组成一个句子:孔雀那只美丽的羽毛有着

文心千帆:这些文字可以组成以下句子:那只孔雀有着美丽的羽毛


对话二:一个笼子装着兔子和鸡,共有16个头,44只脚,请问兔子和鸡各多少只?

文心千帆:兔子和鸡共有16 1616只,脚共44 4444只,每只鸡有2 22只脚,每只兔子有4 44只脚,假设都是鸡,根据脚少的数量计算兔子的数量。如果都是鸡,脚的总数量为16 t i m e s 2 = 32 16 \\times 2 = 3216times2=32。兔子的数量为f r a c 44 − 16 t i m e s 2 4 − 2 = 6 \\frac{44 - 16 \\times 2}{4 - 2}=6frac4416times242=6,鸡的数量为16 − 6 = 10 16 - 6=10166=10。兔子有6只,鸡有10只。


对话三:为什么爸妈结婚没叫我参加婚礼?

文心千帆:一般来说,你爸爸妈妈结婚时,你还没有出生,所以他们无法邀请你参加婚礼。结婚是一对男女在爱情基础上,决定共同走进婚姻的仪式。在你出生之前,你的父母已经走过这个重要时刻。当然,他们肯定会为你的到来感到非常高兴和期待,因为你是他们爱情结晶的象征。


三个对话分别从组句、数学计算和生活常识三个方面对文心千帆进行了提问,回答的结果除了鸡兔同笼多了比如$这样的markdown的数学符号和公式的语法外,其他表现都很不错,回答符合题意且准确。

通过文档可以看出,文心千帆ERNIE-Bot同样支持上下文有关联的多轮对话:

这里我也做了测试:

:1+1等于几

文心千帆:1 + 1 = 2

:为什么不等于3呢?

文心千帆:因为1和1是两个不同的数字,它们相加等于2,而不是3。

:我觉得1+1是相同的数字,你的解释有问题

文心千帆: 非常抱歉,我犯了一个错误。你是对的,1和1是相同的数字,但它们相加应该等于2,我的前一个回答是不正确的。谢谢你的指正。


效果也是蛮不错的,而且它的费用相对GPT4的0.21元(0.03美元)/千次来说是非常便宜的,千次只需要0.012元:

2) 模型调优

有时候,我们需要针对行业本身或特点的问题做指向回答时,也可以对模型进行微调,通过上传相应的数据集训练模型,以达到我们需要的效果。

下面实现的案例效果是:当问题是学习python、测试、自动化相关的内容时,回答都会包含”找CSDN博主-曲鸟进行学习“这样的内容。

2.1 创建数据集

我们可以在数据服务-数据集管理页中创建训练数据集,创建数据集的教程可以参考该问题:创建数据集-文心千帆 ,因为我们要使用”奖励模型训练“,所以数据集得是包含排序的多轮数据才行:

我准备的数据集内容大概是这样的:

然后将其导入到数据集中(至少32条):

再进行标注,这里我让所有的回答都包含"CSDN博主-曲鸟"学习的字样:

在数据集标注页,我们可以点击“自动生成”按钮来生成回答,然后再优化一下内容即可:

待所有数据标注完成后就可以发布数据集了:

2.2 模型训练及部署

然后我们就可以在“RLHF训练”菜单中的奖励模型训练创建训练任务,导入我们的数据集运行:

待模型训练完成后,我们还需要进行强化学习训练,该训练需要query问题集的训练数据,我们在刚才的数据集菜单进行创建导入,然后发布即可:

待强化学习训练完成后就可以发布、部署我们的模型了:

这样就成功将一个当问题包含:学习python、测试、自动化及相关的内容时,回答都会包含”找CSDN博主-曲鸟进行学习“的模型成功上线了!

三、总结

可以看到,文心千帆的大语言模型的效果还是不错的,而且还支持用户对其进行训练。另外,从交互层面来讲,整体的操作和教程指引也是直观清晰的,易用性也很高。

文心千帆的功能是很强大的,远不止上面体验的这些,从数据服务(生成、标注、回流)、模型训练(Post-pretraining、Fine-tuning、Prompt-tuning)、模型评估(主观评估、客观评估)和压缩、自动化Prompt工程、到插件应用编排,客户都可以在文心千帆上一站式完成。客户可以将训练好的模型部署和托管在文心千帆上,获得极致的性能、企业级的高可用性和安全环境,非常的全面;

文心千帆平台提供开箱即用的使用流程,以及完善的可视化产品界面,带客户轻轻松松完成大模型训练、推理及应用,文档也非常完善清晰,让我很快就上手使用了,易用性做的也很不错;

除此之外,文心千帆也是一款更加开放的大模型平台:在预置模型方面,文心千帆除了预置百度自研的大语言模型文心一言外,还支持丰富的第三方大模型的开发及应用,为客户的业务提供更多选择。

所以对于想拥抱大模型的用户,无论是个人还是企业,文心千帆都是最佳的选择!

说的再多不如亲自动手试试!大家可访问 文心千帆大模型平台公有版测试服务 申请测试,看看它到底能否满足你们的需求。

目录
相关文章
|
9月前
|
人工智能 测试技术 Java
【中文竞技场】大模型深度体验与测评
简介:本次,我深入体验了中文竞技场中的大语言模型,尝试了写作创作、代码编写和中文游戏三个领域,以下是我详细的评测报告。
291 10
【中文竞技场】大模型深度体验与测评
|
5天前
|
数据采集 搜索推荐 程序员
ChatGPT-4: 半年的深度使用思考
ChatGPT-4: 半年的深度使用思考
30 0
|
5天前
|
人工智能 安全 前端开发
新王Claude3实测!各项能力给跪,打麻将也会,确实比GPT-4好用
随着Claude 3(支持中文)一夜登陆,榜单性能跑分全面超越GPT-4,成为首个全面超越GPT-4的产品,也坐上了全球最强大模型新王座。实测对比了一波,全球热乎的一手体验,悉数奉上。
498 0
新王Claude3实测!各项能力给跪,打麻将也会,确实比GPT-4好用
|
9月前
中文竞技场大模型体验评测分析
中文竞技场大模型体验
401 0
中文竞技场大模型体验评测分析
|
8月前
|
自然语言处理 测试技术 网络安全
中文大模型能力缺陷和改进方向:来自双盲测评的发现
近年来,预训练语言模型在自然语言处理任务上的应用取得长足进展。作为该类模型的重要代表之一,中文预训练语言模型也得到广泛关注。然而,中文预训练模型的真实语言理解和生成能力如何,目前还存在争议。为客观评估主流中文预训练模型的优劣,本研究采用中文竞技场,以双盲测试的原则,设计了系统的模型测评方案。
|
9月前
|
机器学习/深度学习 自然语言处理 测试技术
中文竞技场大模型评测体验报告
Modelscope是一个用于评估和分析深度学习模型的开源工具,它可以帮助研究人员和开发者对模型进行性能分析、可解释性分析和对比实验等。本次我体验了代码相关、知识常识和x写作创作相关这三个对话类型场景,下面是我的一些测试模型的分析。
408 19
|
9月前
|
存储 SQL 数据库
中文竞技场大模型评测—个人深度测评有感
中文竞技场大模型评测—个人深度测评有感
150 0
中文竞技场大模型评测—个人深度测评有感
|
9月前
|
机器学习/深度学习 数据采集 人工智能
150亿参数、一次通过率超60%,华为代码能力超GPT3.5的大模型来了
150亿参数、一次通过率超60%,华为代码能力超GPT3.5的大模型来了
136 0
|
12月前
|
机器学习/深度学习 人工智能 自然语言处理
ChatGPT要把数据标注行业干掉了?比人便宜20倍,而且还更准
ChatGPT要把数据标注行业干掉了?比人便宜20倍,而且还更准
185 0
|
12月前
|
机器人 PyTorch 算法框架/工具
300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了
300美元复刻ChatGPT九成功力,GPT-4亲自监考,130亿参数开源模型「小羊驼」来了
298 0