文心千帆大模型测评分享,效果超出预期

简介: 文心千帆大模型测评分享,效果超出预期

一、前言

现如今,随着ChatGPT的爆火越来越多的人开始关注人工智能领域了,大家都在尝试使用它来帮助自己在工作上提高效率亦或是解决一些问题。但ChatGPT是有一定的使用门槛的:首先需要我们“科学上网”才能访问,其次GPT4的价格相对来说也不便宜。

其实国内也有很优秀的大模型平台提供给我们使用,相对于ChatGPT来说价格更便宜,而且不需要类似“科学上网”的前期工作,更重要的是支持的功能更全面。最近刚好看到百度智能云面向企业和个人客户开放文心千帆大模型平台公有版测试服务(官方申请地址:https://cloud.baidu.com/survey/qianfan.html),自己体验了一番,效果也让我很满意,下面就分享一下我的体验过程。

二、体验分享

打开上面的链接进行申请后,大概3小时左右会审核通过,就可以按照概览页的操作指引,正式开始使用文心千帆了:

1) 文心千帆大语言模型ERNIE-Bot体验

ERNIE-Bot是百度自行研发的大语言模型,覆盖海量中文数据,具有更强的对话问答、内容创作生成等能力,访问在线体验地址即可开始使用:

官方也提供了完善的接口文档供我们使用,这里我使用Python代码进行了一些对话测试,示例代码如下:

import requests
import json
def get_access_token():
    """
    使用 API Key,Secret Key 获取access_token,替换下列示例中的应用API Key、应用Secret Key
    """
    url = "https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=[应用API Key]&client_secret=[应用Secret Key]"
    payload = json.dumps("")
    headers = {
        'Content-Type': 'application/json',
        'Accept': 'application/json'
    }
    response = requests.request("POST", url, headers=headers, data=payload)
    return response.json().get("access_token")
def main():
    url = "https://aip.baidubce.com/rpc/2.0/ai_custom/v1/wenxinworkshop/chat/completions?access_token=" + get_access_token()
    payload = json.dumps({
        "messages": [
            {
                "role": "user",
                "content": "将下面的文字组成一个句子:孔雀那只美丽的羽毛有着"
            }
        ]
    })
    headers = {
        'Content-Type': 'application/json'
    }
    response = requests.request("POST", url, headers=headers, data=payload)
    print(response.text)
if __name__ == '__main__':
    main()

输入的对话内容如下:

对话一:将下面的文字组成一个句子:孔雀那只美丽的羽毛有着

文心千帆:这些文字可以组成以下句子:那只孔雀有着美丽的羽毛


对话二:一个笼子装着兔子和鸡,共有16个头,44只脚,请问兔子和鸡各多少只?

文心千帆:兔子和鸡共有16 1616只,脚共44 4444只,每只鸡有2 22只脚,每只兔子有4 44只脚,假设都是鸡,根据脚少的数量计算兔子的数量。如果都是鸡,脚的总数量为16 t i m e s 2 = 32 16 \\times 2 = 3216times2=32。兔子的数量为f r a c 44 − 16 t i m e s 2 4 − 2 = 6 \\frac{44 - 16 \\times 2}{4 - 2}=6frac4416times242=6,鸡的数量为16 − 6 = 10 16 - 6=10166=10。兔子有6只,鸡有10只。


对话三:为什么爸妈结婚没叫我参加婚礼?

文心千帆:一般来说,你爸爸妈妈结婚时,你还没有出生,所以他们无法邀请你参加婚礼。结婚是一对男女在爱情基础上,决定共同走进婚姻的仪式。在你出生之前,你的父母已经走过这个重要时刻。当然,他们肯定会为你的到来感到非常高兴和期待,因为你是他们爱情结晶的象征。


三个对话分别从组句、数学计算和生活常识三个方面对文心千帆进行了提问,回答的结果除了鸡兔同笼多了比如$这样的markdown的数学符号和公式的语法外,其他表现都很不错,回答符合题意且准确。

通过文档可以看出,文心千帆ERNIE-Bot同样支持上下文有关联的多轮对话:

这里我也做了测试:

:1+1等于几

文心千帆:1 + 1 = 2

:为什么不等于3呢?

文心千帆:因为1和1是两个不同的数字,它们相加等于2,而不是3。

:我觉得1+1是相同的数字,你的解释有问题

文心千帆: 非常抱歉,我犯了一个错误。你是对的,1和1是相同的数字,但它们相加应该等于2,我的前一个回答是不正确的。谢谢你的指正。


效果也是蛮不错的,而且它的费用相对GPT4的0.21元(0.03美元)/千次来说是非常便宜的,千次只需要0.012元:

2) 模型调优

有时候,我们需要针对行业本身或特点的问题做指向回答时,也可以对模型进行微调,通过上传相应的数据集训练模型,以达到我们需要的效果。

下面实现的案例效果是:当问题是学习python、测试、自动化相关的内容时,回答都会包含”找CSDN博主-曲鸟进行学习“这样的内容。

2.1 创建数据集

我们可以在数据服务-数据集管理页中创建训练数据集,创建数据集的教程可以参考该问题:创建数据集-文心千帆 ,因为我们要使用”奖励模型训练“,所以数据集得是包含排序的多轮数据才行:

我准备的数据集内容大概是这样的:

然后将其导入到数据集中(至少32条):

再进行标注,这里我让所有的回答都包含"CSDN博主-曲鸟"学习的字样:

在数据集标注页,我们可以点击“自动生成”按钮来生成回答,然后再优化一下内容即可:

待所有数据标注完成后就可以发布数据集了:

2.2 模型训练及部署

然后我们就可以在“RLHF训练”菜单中的奖励模型训练创建训练任务,导入我们的数据集运行:

待模型训练完成后,我们还需要进行强化学习训练,该训练需要query问题集的训练数据,我们在刚才的数据集菜单进行创建导入,然后发布即可:

待强化学习训练完成后就可以发布、部署我们的模型了:

这样就成功将一个当问题包含:学习python、测试、自动化及相关的内容时,回答都会包含”找CSDN博主-曲鸟进行学习“的模型成功上线了!

三、总结

可以看到,文心千帆的大语言模型的效果还是不错的,而且还支持用户对其进行训练。另外,从交互层面来讲,整体的操作和教程指引也是直观清晰的,易用性也很高。

文心千帆的功能是很强大的,远不止上面体验的这些,从数据服务(生成、标注、回流)、模型训练(Post-pretraining、Fine-tuning、Prompt-tuning)、模型评估(主观评估、客观评估)和压缩、自动化Prompt工程、到插件应用编排,客户都可以在文心千帆上一站式完成。客户可以将训练好的模型部署和托管在文心千帆上,获得极致的性能、企业级的高可用性和安全环境,非常的全面;

文心千帆平台提供开箱即用的使用流程,以及完善的可视化产品界面,带客户轻轻松松完成大模型训练、推理及应用,文档也非常完善清晰,让我很快就上手使用了,易用性做的也很不错;

除此之外,文心千帆也是一款更加开放的大模型平台:在预置模型方面,文心千帆除了预置百度自研的大语言模型文心一言外,还支持丰富的第三方大模型的开发及应用,为客户的业务提供更多选择。

所以对于想拥抱大模型的用户,无论是个人还是企业,文心千帆都是最佳的选择!

说的再多不如亲自动手试试!大家可访问 文心千帆大模型平台公有版测试服务 申请测试,看看它到底能否满足你们的需求。

目录
相关文章
|
存储 监控 测试技术
【游戏】服务器性能测试(三) 性能指标
一、引言 在做游戏服务器性能测试的时候,我们需要通过一些指标来判断服务端是否存在性能问题,由于绝大多数的服务端都是架设在Linux服务器上,因此本篇是以Linux系统为前提,简单介绍常用的性能指标。 二、服务器指标 现如今的游戏服务器一般为分布式架构如图1。一个区的服务端由多个节点组成,通过这些节点来完成复杂的业务功能交互以及扩大人数承载。并不是每个节点都会占用一台物理机,通常是一个区的节点都放在一台物理机上(多区公用的除外)。这样每个节点进程就不能完全独占CPU,内存,网络等资源。而进行服务器性能测试也就是确保这些节点能够在一台机器上满足预定的设计要求。
2070 0
【游戏】服务器性能测试(三) 性能指标
|
9月前
|
SQL 数据可视化 关系型数据库
MCP与PolarDB集成技术分析:降低SQL门槛与简化数据可视化流程的机制解析
阿里云PolarDB与MCP协议融合,打造“自然语言即分析”的新范式。通过云原生数据库与标准化AI接口协同,实现零代码、分钟级从数据到可视化洞察,打破技术壁垒,提升分析效率99%,推动企业数据能力普惠化。
775 3
|
SQL 人工智能 自然语言处理
如何诱导AI犯罪-提示词注入
我们用到的大模型基本把政治类信息、犯罪相关信息都已屏蔽。但是,黑客依旧可以使用提示词诱导和提示词注入的方式对大模型进行攻击。
如何诱导AI犯罪-提示词注入
|
tengine Kubernetes Cloud Native
Tengine-Ingress 高性能高可用的云原生网关
Tengine-Ingress 高性能高可用的云原生网关
994 0
|
弹性计算 自然语言处理 Ubuntu
从0开始在阿里云上搭建基于通义千问的钉钉智能问答机器人
本文描述在阿里云上从0开始构建一个LLM智能问答钉钉机器人。LLM直接调用了阿里云百炼平台提供的调用服务。
从0开始在阿里云上搭建基于通义千问的钉钉智能问答机器人
|
存储 SQL 数据库
【赵渝强老师】达梦数据库的数据库对象
达梦数据库包含基本与复杂两大类数据库对象。基本对象如表、索引、视图、序列和同义词,通过单一DDL语句创建和管理。表是数据存储核心,支持多种数据类型;索引提升查询速度,常见类型包括聚集、唯一、函数等索引;视图提供虚表功能;序列生成有序整数;同义词简化对象访问。复杂对象包括存储过程、函数和触发器,需用DMSQL语言开发,适用于更复杂的业务逻辑处理。文中通过实例详细介绍了各类对象的创建与使用方法。
756 3
|
人工智能 自然语言处理 监控
video-analyzer:开源视频分析工具,支持提取视频关键帧、音频转录,自动生成视频详细描述
video-analyzer 是一款开源视频分析工具,结合 Llama 的 11B 视觉模型和 OpenAI 的 Whisper 模型,能够提取视频关键帧、转录音频并生成详细描述,支持本地运行和多种应用场景
4157 6
video-analyzer:开源视频分析工具,支持提取视频关键帧、音频转录,自动生成视频详细描述
|
算法 数据可视化 机器人
ROS2教程01 ROS2介绍
本文是ROS2(机器人操作系统的下一代)的介绍教程,内容包括ROS2的诞生背景、核心功能、特点、框架以及与ROS1的比较。文章涵盖了ROS2的通信系统、框架和工具、生态系统、全球性社区支持、完全开源、跨平台特性、多机协同能力、实时系统支持和更强的稳定性。此外,还提供了ROS2架构的详细介绍资源链接,适合对ROS2感兴趣的读者学习和了解。
4145 1
|
存储 消息中间件 数据采集
Flume 配置文件编写技巧(包会的,抄就完了)
本文介绍了Apache Flume的基础配置,包括数据源(Source)、数据通道(Channel)和数据处理器(Sink)三大部分。配置文件编写流程包括查阅官方文档、参考样例配置、实际操作配置。文章提供了一个经典例子,展示如何从本地端口收集数据并通过内存通道缓冲,最终记录到日志。配置流程包括声明组件、配置Source、Sink和Channel,然后将它们绑定。通过示例展示了如何配置HTTP Source和HDFS Sink,并给出了完整的配置文件示例及测试步骤,帮助读者理解Flume配置文件的编写。
1247 0
|
存储 Android开发 数据安全/隐私保护
Mosquitto 搭建及配置
Eclipse Mosquitto是一个开源消息代理,实现了MQTT协议版本3.1和3.1.1。Mosquitto轻量,适用于低功耗单板计算机到完整服务器的所有设备。
8877 0