社区供稿 | 大模型恋爱神器!16种MBTI自由定制,北大ChatLaw团队出品

简介: 北大团队新作,让大模型拥有个性!而且还是自定义那种,16种MBTI都能选。

北大团队新作,让大模型拥有个性!

而且还是自定义那种,16种MBTI都能选。

这样一来,即便是同一个大模型,不同性格下的回答都不一样。

比如提问:你周末喜欢干什么?

ENFP的大模型会说:喜欢参加社交活动,结识新朋友。

INFJ的大模型则回答:喜欢独自读过。

这样能干啥呢?北大的童鞋们列出来了一些情景

  • 在特殊节日,给你的男/女朋友寻找心仪的礼物
  • 了解你关注的那个Ta在不同情境下的反应。
  • 深入理解大模型的定制化、个性化的方式及可能性。
  • 在做出重大决策时,考虑不同情境下的个性特征。
  • 通过深入了解人性的复杂性,促进个人成长和相互理解。

这项工作由FarReel AI Lab(前身是ChatLaw项目)和北大深研院合作研发,支持给开源模型赋予性格。

目前已开源32个模型和数据集。

具体如何实现?一起来看原理~


已开放32个有个性模型

在此之前,想让大模型具备一定个性,最常用的方法是利用 提示工程

比如Character.ai上不同性格的对话bot,就是用户通过提示工程调教出来的。

不过这种方式带来的效果不完全稳定。

所以北大团队提出了一种方法,他们自主构建了十万条大规模MBTI数据,然后通过多阶段预训练、微调、DPO训练方法为它注入性格。

数据集方面,主要分为两种,行为数据集 自我意识数据集

行为数据集的目的是为了让大模型可以表现出不同性格的回应,这部分是对Alpaca数据集进行个性化修改实现。

行为数据集中MBTI四个维度的比例如下:

自我意识数据集是为了让大模型能够意识到自己的个性特征。

通过一个两阶段的有监督训练微调过程,最后可以得到对应人格的大模型。

以训练一个INFP大模型为例,在第一阶段的有监督微调中利用行为数据集中“I”、“N”、“F”、“P”四个数据集,在第二阶段的有监督微调中,再使用一个额外的自我意识数据集。

研究团队表示,这种方法成功使Baichuan、Qwen、LLaMA、Mistral等模型完成不同MBTI类型的性格对齐任务。

首先开放的是基于Baichuan-7b-chat的16个中文模型以及基于LLaMA2-7b的16个英文模型。后续还将做更多补充。

最后得到的训练结果如下。

ENFP问答结果

ENTJ问答结果

INFP问答结果

ISTJ问答结果

数据集方面,团队开源了MBTI训练数据集

数据集涵盖了丰富多样的场景,旨在帮助研究者和开发者训练出能够理解和模拟不同 MBTI 性格的基座模型。这些模型不仅能够提供更加人性化的互动体验,还能够在多种情境下提供精准的心理学洞察。


对于这项工作的思考,研究团队认为人类的思维就像从出生就拥有的一个预训练模型,每个人的参数、训练数据可能不尽相同,这也导致我们的一些抽象思维和能力不同,长大后有人擅长数理逻辑、有人擅长情感演绎。


而之后从小到大的学习、环境、经历的事情都相当于是在对我们的预训练大脑进行微调和人类反馈对齐,这样来看,所谓的MBTI性格基本都是后天环境因素影响下形成的,这也导致每个人都独具特色。

也就是说可以尝试用 微调 人类反馈对齐(DPO),去对各种预训练的基座LLM进行分阶段的训练,从而让模型拥有不同的MBTI属性。


团队的目标不仅是使这些模型拥有不同的MBTI属性,还要模拟人类形成不同MBTI性格的过程。

他们相信,这一独特的方法将为我们在人格心理学领域理解和利用大语言模型开辟新的途径。请继续关注更多的发展,因为我们继续探索语言模型和人类个性的令人着迷的交汇点。


已开放的大模型在GitHub项目主页可查看,同时在魔搭社区也可支持模型下载体验:


GitHub:https://github.com/PKU-YuanGroup/Machine-Mindset

数据集:https://github.com/PKU-YuanGroup/Machine-Mindset/blob/main/datasets/behaviour/README.md


点击直达创空间体验:https://www.modelscope.cn/studios/FarReelAILab/Machine_Mindset/summary


相关文章
|
7月前
|
开发者
社区供稿 | 一张照片跳舞的AnimateAnyone社区开发者复刻版,开源!
日前,兵马俑跳科目三、奶牛猫跳洗澡舞等趣味和魔性的短视频在社交媒体上出圈,背后“一张照片来跳舞”的技术来自阿里通义实验室在可控动画生成领域的一项研究工作——AnimateAnyone。
|
7月前
|
算法 前端开发 语音技术
推荐6款2023年爆火的开源项目,你值得一试!
推荐6款2023年爆火的开源项目,你值得一试!
110 0
推荐6款2023年爆火的开源项目,你值得一试!
|
7月前
|
算法 开发者
代码与禅意:技术实践中的悟道之旅
【2月更文挑战第23天】在技术的海洋中,我们如同行者探索未知的领域。本文透过个人的技术实践经历,探讨了编程不仅仅是一门科学或艺术,更是一种哲学和内省的过程。我们将深入分析如何通过代码实现自我超越,以及在这个过程中对技术、生活和存在的深刻理解。
|
机器学习/深度学习 算法 安全
隐语开源社区 首期“社区之星” 新鲜出炉!
隐语开源社区 首期“社区之星” 新鲜出炉!
278 1
|
机器学习/深度学习 边缘计算 算法
隐语开源社区【提问解答】第二期
隐语开源社区【提问解答】第二期
263 0
|
JSON 安全 JavaScript
开源分享|速进!这些开源项目助你玩转世界杯
为了帮助大家找到更好的世界杯打开方式,OpenSCA项目组搜罗了一些与世界杯相关的开源项目。一起来看看吧~
218 0
开源分享|速进!这些开源项目助你玩转世界杯
|
存储 分布式计算 监控
专访骨灰级开源爱好者吴晟:开源没有黑魔法,两年后泡沫将会破灭
在刚结束的 2020 年,国内先后有超过 11 家开源软件领域企业获得了新一轮的资本助力,融资纪录创下近年来开源赛道最高。开源的热潮,已然兴起。然而,当越来越多的资本、企业等产业界人士开始越来越关注开源之时,一些隐藏在开源光鲜外衣背面的阴暗,也随之而来。
388 0
专访骨灰级开源爱好者吴晟:开源没有黑魔法,两年后泡沫将会破灭
|
机器学习/深度学习 人工智能 自然语言处理
让天下三子,DeepMind官方解读新版AlphaGo强大实力
5 月 23 日,乌镇围棋峰会第一场人机大战以柯洁落败而结束,DeepMind 和谷歌在今天的人工智能高峰论坛中详细回顾了昨天的比赛,并解读了 AlphaGo 背后的强大实力。
696 0
|
Ubuntu Linux 开发者
90 后开源老司机徐亮:从大学开始全职做开源是一种怎样的体验?
  “如果你有正确的态度,有趣的事情自然会找到你。”   Eric S. Raymond 在被奉为“开源运动独立宣言”的《大教堂与集市》一文中,总结了 19 条在开源开发中非常有用的理论,上面是其中一条。开源项目总会在不经意间升级,参与者可能最初只是做一些小打小闹的贡献,后来逐步维护越来越重要、越来越多的代码,甚至是负责整个程序。在一个鼓励代码共享的软件文化中,这是一种很自然的项目演化方式。   徐亮在开源社区的经历也遵循着同样的演化路径。从一开始因为兴趣入圈、负责翻译工作,到后来成为Ubuntu、Debian资深官方开放人员,甚至把开源变成一份全职工作,今年已经是徐亮与开源结缘的第 12
456 0
|
安全 数据可视化
技术宅打算如何改变世界——来看看Facebook工程师黑客马拉松的年度杰作吧
黑客马拉松在美国是一种极为流行的,工程师们的头脑风暴比赛,在10几个小时内,选手们要用尽自己的智慧做出想要的产品,现在在国内也渐渐发展了起来。由技术宅扎克伯格领导的Facebook对此由衷热爱,创始初期常常通过黑客马拉松来招贤纳士。2012年,Facebook共举办了12场黑客马拉松。今天在其官方博客,它评选出最受欢迎的头脑风暴作品,这些全部由Facebook工程师想出来的创意有些是雷人却又高科技的恶作剧比如楼顶上的二维码,有些则已经应用到Facebook中去,还有些是让工作变得更简单的工具。
196 0