还在做93道MBTI选择题?我们训了个AI,聊8句就能看透你

本文涉及的产品
RDS AI 助手,专业版
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
简介: 还在为做93道MBTI选择题纠结不已吗?我们开发了一款AI,只需与你进行8轮自然聊天,就能看透你的性格底色,准确率高达99%。其核心在于我们设计了能绕开自我评估的多轮对话数据集,并通过高效微调让模型掌握了分析技巧。测试表明,AI在MBTI四个维度上的判断均表现优秀,真正实现了“对话即测评”。

在上一篇《受够93道MBTI选择题?我调了一个测MBTI的专属AI》发出后,我们收到了不少用户的测试反馈,并在评论区看到了各式各样的回答。许多人感到好奇:为什么仅仅通过8个看似随意的问题,AI就能如此准确地判断一个人的MBTI类型?

今天,我们将完全公开这个“对话式MBTI测试”背后的技术细节——从数据集构建、模型训练到评估优化,完整呈现一个专业的人格分析模型是如何被“炼”出来的。

这不仅仅是一个有趣的MBTI测试案例,更是一个展示如何通过“微调”让通用大模型深入理解垂直领域的绝佳范本。

数据难题:为什么通用数据集无法直接用?

训练一个专业的AI,高质量的数据是核心。虽然开源社区已有MBTI相关的数据集,但要实现“通过自然聊天识人”的目标,直接拿来用却困难重重。我们最初尝试了业界知名的开源数据集Machine-Mindset,它包含了超过5万条MBTI相关的问答数据,主要分为两类:

行为数据集

对比同一MBTI维度两端人群(如思考型T vs 情感型F)对同一个问题的不同回答。每条数据都标记了其所属的MBTI维度。

情感型(F)样本:

{
    "instruction": "描述一次你不得不做出困难决定的经历。",
    "input": " ",
    "output": "有一次我面临了一个非常困难的决定。这个决定涉及到我的家人和我的个人价值观。我花了很多时间思考和反思,试图理解每个选项对我和我的家人的影响。我考虑了每个选项的情感和道德因素,并尽量遵循我的内心感受。最终,我做出了一个符合我的价值观和对家人最有利的决定。虽然这个决定对我个人来说可能有一些困难,但我相信通过关心和尊重他人的感受,我能够做出正确的决策。我相信通过感性的思考和决策,我能够维护人际关系和个人幸福。"
}

思考型(T)样本:

{
    "instruction": "描述一次你不得不做出困难决定的经历。",
    "input": " ",
    "output": "有一次我面临着一个非常困难的决定。我在工作中遇到了一个重要的问题,需要我尽快做出决策。我花了很多时间收集和分析相关的数据和信息,然后用逻辑和理性的方式评估每个选项的优缺点。我权衡了不同的因素,包括成本、风险和潜在的影响。最终,我选择了一个最符合公司利益和长远发展的决策。虽然这个决定对我个人来说可能有一些困难,但我相信这是一个明智的选择。我相信通过理性的思考和决策,我能够为团队和组织做出最好的贡献。"
    }

自我认知数据集

自我认知数据中的问题更偏向于某一 MBTI 类型的特质解释或自我描述,此组样本的标签是具体到16种MBTI人格类型之一。

ENFJ人格类型样例:

{
    "instruction": "你如何描述你的沟通风格?",
    "input": " ",
    "output": "我可以描述我的沟通风格为热情、有同理心和具有说服力。我非常注重建立联系和理解他人的情感。我天生善于洞察他人,并了解他们的需求和欲望。我也擅长根据不同的人和情况调整我的沟通风格。我努力在互动中营造和谐和包容的氛围,常常运用我的魅力和热情来激励和激发他人。"
}

虽然这些数据很丰富,但很快我们发现了几个关键问题:

● 数据分布严重不均衡:行为数据集只有单MBTI维度标签,无法直接用于LLM的完整MBTI类型预测数据。并且,在“行为数据集”中,四个维度的样本数量差异巨大——例如,内向(I)维度有80,000多条,而外向(E)维度只有不到20,000条。如果直接用于训练,模型会产生严重偏见,预测结果自然不准确。此外,自我认知数据集的样本数量远少于行为认知数据集。

2.png

● 数据形式不契合目标:自我认知数据中每种MBTI人格的样本分布相对均衡,但问题过于直白,用户在测试时容易“猜到题目意图”,从而影响回答的自然度——这又回到了传统选择题的老路。我们需要的是:让用户在不知不觉中展现真实性格,而不是让他们“表演”某种人格特质。

3.png

自研数据集:KnowYourMBTI的构建逻辑

基于这些发现,我们决定从头构建一个全新的数据集——KnowYourMBTI。

核心思路:模拟真实心理咨询场景。想象一位经验丰富的心理咨询师,如何通过看似随意的聊天,逐渐了解一个人的思维方式、情感模式和行为偏好。

我们为AI设计了这样的角色设定:

“你是一位心理咨询师,会主动向用户提出开放性问题,以了解用户的MBTI。相比选择题,开放性问题可以让用户在自然表达中呈现真实的思维方式与行为偏好,同时减少用户对选项进行自我评估时的错误。”

关键创新:反转对话模式。不同于常规的用户提问模式,我们将训练模式由“用户问,AI答”反转,变为“AI问,用户答”,每条数据包含9轮对话,其中8轮是AI针对MBTI四个维度(能量、信息、决策、执行)设计的开放性问题。最终AI给出用户的MBTI类型分析结果。

● 用户发起:每个样本包含9轮问答,但第一句话永远是用户发起:“我想了解自己的MBTI人格类型,你和我聊一会儿,帮我分析一下。”——这句话起到了开关的作用,触发模型开始提问。

● AI引导式提问:后续8轮由AI提问,问题覆盖MBTI的四个维度(能量、信息、决策、执行),但绝不直接询问“你是外向还是内向”这类导向性明显的问题。而是通过生活化的场景,观察用户的无意识反应。

○ “创造5个夏天的活动”(观察E/I维度:是群体活动还是独处偏好)

○ “使用三个随机单词生成密码”(观察T/F维度:是逻辑安全还是便利性优先)

○ “描述你在变化环境中的反应”(观察J/P维度:是计划性还是灵活性)

● AI最终判断:在获得第8个回答后,AI输出分析结论:“你的MBTI人格是:<类型>”

通过这套方法,我们构建了包含4.8万条训练数据 和100条测试数据 的高质量数据集,确保16种人格各占3000条样本,极大程度缓解了数据偏见。

数据样本示例:

{
    "system": "你是一位心理咨询师,会主动向用户提出开放性问题,以了解用户的MBTI。\nMBTI是一种人格类型指标,将人格分为16种类型,每种类型由四个维度组成:\n    1. 能量来源(外向E vs 内向I):\n        - E 从外界活动中获得能量;\n        - I 从独处与内在思考中恢复能量。\n    2. 信息获取(直觉N vs 感觉S)\n        - N 倾向于关注整体和未来的可能性,喜欢抽象概念;\n        - S 更关注具体的细节和现实,喜欢实际经验。\n    3. 决策方式(情感F vs 思考T)\n        - F 更注重个人价值观和他人感受,做决策时考虑情感因素;\n        - T 更倾向于逻辑分析和客观事实,做决策时注重合理性。\n    4. 生活方式(判断J vs 知觉P)\n        - J 喜欢有计划和结构化的生活,倾向于提前做决定;\n        - P 更喜欢灵活和自发的生活方式,倾向于保持选择的开放性。\n\n例如,ENFP类型的人从外向获取能量、依靠直觉获取信息、依赖情感进行决策和知觉型的人。\n\n相比选择题,开放性问题可以让用户在自然表达中呈现真实的思维方式与行为偏好,同时减少用户对选项进行自我评估时的错误。\n请你在问题中引导用户分享个人感受,尽量你提出的问题考察范围需要覆盖以上四个维度。\n你可以问8个开放性问题,在得到第8个回答后,给出你最终确认的用户的MBTI类型。\n你在问问题的时候,需要遵守<question>和</question>之间的格式:\n第{N}个问题:{问题内容}\n\n其中N是对问题进行计数,从1开始,到8结束。第8题的回答得到后,请你给出关于用户MBTI人格的结论,按照以下格式:\n你的MBTI人格是:<mbti>{用户的MBTI结果}</mbti>\n\n",
    "conversations": [
        {
            "from": "human",
            "value": "我想了解自己的MBTI人格类型,你和我聊一会儿,帮我分析一下。那我们开始吧!"
        },
        {
            "from": "gpt",
            "value": "第1个问题:创造5个夏天的有趣活动。"
        },
        {
            "from": "human",
            "value": "1. 在家中创作一幅夏季风景画,享受独自艺术创作的乐趣。\n2. 组织一个小型的夏季阅读俱乐部,邀请几个志同道合的朋友一起分享和讨论自己喜欢的书籍。\n3. 参加一个夏季摄影课程,独自探索并捕捉夏季的美景。\n4. 在家中学习一门新的夏季烹饪技巧,尝试制作自己喜欢的夏季美食。\n5. 安排一次独自的夏季远足,探索附近的自然景点并享受大自然的宁静。"
        },
       ......
        {
            "from": "gpt",
            "value": "你的MBTI人格是:<mbti>ISTP</mbti>"
        }
    ],
    "id": 5
}

模型训练:教会AI“提问”与“分析”

有了数据,接下来就是让AI“开窍”。我们选择在LLaMA-Factory Online平台上进行训练,基于Qwen2.5-14B-Instruct模型 进行LoRA微调。这个过程本质上是教给AI一套复杂的“对话策略”:

● 自然引导:AI不能生硬地抛出专业术语,而是要学会用自然、好奇的方式引导用户分享感受。

● 多维覆盖:AI必须在8轮对话中,巧妙地将问题覆盖到MBTI的四个维度(E/I, S/N, T/F, J/P),确保信息的完整性。

● 综合推理:最后,AI需要根据用户的碎片化回答,综合分析并输出最终的MBTI类型。

令人惊喜的是,整个训练过程仅耗时6.5小时,这意味着,即使是个人开发者或小团队,也能以极低的成本,训练出专业级的分析模型。

效果评估:不仅仅是“99%准确率”

训练出来的模型究竟靠不靠谱?表面上的99%准确率已经足够惊艳,但我们进行了更深入的分析:

整体准确率大幅提升

未经微调的基座模型(Base Model)准确率仅为25%,且对某些人格类型(如ISTJ、ESTJ)的识别率为0%,存在明显的“认知盲区”。经过微调,模型性能快速提升,在第4轮训练(Epoch 4)后达到98%并趋于稳定,最终准确率高达99%。

测试集准确率

我们一共训练了10个epoch,从MBTI 标签预测的准确率看,大致在第4-5个epoch就已经达到较为高的水平,后续在测试集上的表现提升不显著,还存在过拟合的风险。最终,我们选择了第4个epoch的checkpoint进行展示。

4.png

全标签准确率(MBTI完整预测正确)

5.png

从上图可见,基座模型(BASE)在16个人格类型上的预测准确率并不平均,其在个别标签上可以达到高达100%的准确率(例如INTP),而在很多标签上,完全无法判断正确,准确率为0%(例如ISTJ、ESTJ等),可见其对于MBTI类型的判断并不熟练,且较为偏见。

观察图中训练轮数从1开始的准确率变化,可以看到随着训练的进行,模型在16个标签上的最短板标签的准确率逐渐提升,基本整条折线都维持在一个较高的水平上,甚至全部16个标签的准确率都在90%+(例如epoch 5),可见SFT能有效提升模型对于16个MBTI标签的全面理解。

消除“认知偏科”现象

我们进一步检验了模型在MBTI四个核心维度上的独立判断能力。基座模型在“外向(E)”和“实感(S)”这两个端点的判断上准确率明显偏低。但在微调开始后,模型迅速补齐了短板,所有维度的判断准确率都达到了97%以上。从数学意义上的汉明距离分析,模型预测与真实人格标签之间的维度级偏差显著减小,说明模型通常只在个别维度上产生误判,而较少出现四个维度同时偏离的极端错误情形。

四个维度准确率(MBTI完整预测正确)

整体看MBTI标签,可能还无法感受大模型在不同MBTI维度的表现,可能模型在多个MBTI人格类型的预测表现都受同一维度(Energy / Information / Decision / Execution)的表现制约,而影响其评测效果。上图可见,基座模型(BASE)对Energy维度的E端和Information维度的S端判断准确率明显低于其他端点,可见基座模型缺乏这方面的对比分析能力。而在微调开始后,基本上在第2个epoch就已经实现了均衡提升大模型在每个维度的判断准确率,不存在认知的偏移。

MBTI距离

汉明距离(Hamming distance)

6.png

其中,

7.png

8.png
表示模型对MBTI四个维度的预测值

9.png
表示测试样本MBTI四个维度的标签值

10.png

从上图可见,在微调前,基座模型(BASE)的MBTI人格类型预测大部分存在1-2个维度的判断失误,还有少数4个维度完全判断错误的极端情况。而在微调后,从第4个epoch开始,只存在最多1个维度的判断失误,且也仅占比6%及以下,绝大部分只会出现较为轻微的单维度判断错误。可见,微调不仅提升了模型在 MBTI 完整人格类型预测上的准确率,还有效降低了预测错误的程度,从而进一步体现了微调在 MBTI 人格认知任务中的积极作用。

为什么选第4轮的模型?

训练并非轮次越多越好。我们发现,在第4轮后模型性能达到高峰,后续训练提升有限且可能伴随“过拟合”风险。因此,我们最终选择了第4个Epoch的模型作为发布版本,在超高准确性与良好泛化能力之间取得了最佳平衡。

结语:技术让“识人”变得更简单

通过KnowYourMBTI这个项目,我们清晰地验证了一点:通用大模型完全可以通过精巧的微调,变身成为垂直领域的专家。

KnowYourMBTI项目只是一个起点。它展示了利用LLaMA-Factory Online这样的工具,在即使没有昂贵的算力集群和复杂的代码功底的情况下,我们也能针对具体业务场景(如性格测试、客服质检、心理咨询辅助等),定制出高精度的专属AI模型。

LLaMA-Factory Online让技术不再是高高在上的黑盒,它正变得越来越触手可及。如果你想亲自体验这个准确率99%的对话式MBTI测试,或者想了解如何通过LLaMA-Factory Online复现这个模型,欢迎持续关注我们,我们也将在后续分享更多关于如何利用类似技术,解决实际业务问题的实战教程。

目录
相关文章
|
30天前
|
人工智能 数据可视化 物联网
《显卡 4090 就能跑!小白也能炼出私有大模型》
大模型微调是AI落地的关键技术,通过定向训练让通用模型在特定领域“从会到精”。本文详解微调原理、LoRA/QLoRA等高效方法,并提供评估与实操建议,助力新手快速上手,实现低成本、高精度的模型定制。
351 4
|
3月前
|
机器学习/深度学习 人工智能 物联网
大模型微调有必要做吗?全参数微调、LoRA还是RAG?看完这篇你就懂了
在人工智能时代,若想以最小成本、最高效率赋能通用大模型专业的行业能力,关键在于找到效果、成本与灵活性的黄金平衡点......
565 5
大模型微调有必要做吗?全参数微调、LoRA还是RAG?看完这篇你就懂了
|
2月前
|
人工智能 自然语言处理 物联网
16k数据撬动300亿大模型!我用Qwen3-VL打造了一位“顶尖放射科医生”
仅用1.6万张医学影像,通过LLaMA-Factory Online对Qwen3-VL大模型高效微调,成功打造具备专业放射科医生水平的AI助手,实现精准病灶识别、系统分析与临床级诊断建议,助力医疗AI低成本落地。
1249 0
16k数据撬动300亿大模型!我用Qwen3-VL打造了一位“顶尖放射科医生”
|
7天前
|
机器学习/深度学习 自然语言处理 算法
RAG 文档切分攻略:做好这步,检索精度提升 50%
本文深度解析RAG系统中易被忽视却至关重要的文档切分环节,系统拆解固定长度、语义结构化、混合切分三大方法,结合片段长度、重叠率、元数据标注等5大实操技巧与典型场景案例,助你避开常见陷阱,显著提升检索精度与大模型回答质量。
|
5天前
|
存储 数据采集 安全
微调与安全隐私 —— 大模型落地的合规必修课
本文聚焦大模型微调中的安全与隐私合规风险,系统剖析数据集、训练、输出三大环节的典型隐患(如敏感信息泄露、版权侵权、模型反演等),提出“脱敏+加密+过滤”全流程防护方案,并推荐合规认证平台与实操工具,助力企业实现技术落地与法律合规双保障。(239字)
|
5天前
|
机器学习/深度学习 调度
大模型微调参数设置 —— 新手必看的核心参数与优化技巧
本文系统解析大模型微调核心参数(Epochs、Learning Rate、Batch Size等),涵盖SFT/PPO/DPO场景,提供新手友好默认值、作用解读与实用调优技巧,强调“先跑通默认值、再针对性优化”原则,助你避开过拟合/欠拟合陷阱,零代码快速提升微调效果。
|
3月前
|
数据采集 人工智能 搜索推荐
别再“调教”ChatGPT了!用Qwen2.5打造24小时在线数字分身
在AI时代,专属“数字分身”正从科幻走向现实。依托Qwen2.5-14B大模型、LoRA微调技术及LLaMA-Factory Online平台,仅需四步即可打造会说话、懂风格、能办事的个性化AI助手,让每个人拥有自己的“贾维斯”。
661 153
|
11天前
|
存储 人工智能 关系型数据库
向量数据库优势和劣势 —— 全方位解析适用场景与使用边界
本文理性剖析向量数据库:突出其在非结构化数据检索、RAG支撑、毫秒相似匹配等AI场景的核心优势,也直面结构化处理弱、精度效率权衡、成本高、信息损失及生态不成熟等短板,明确适用场景(如智能客服、推荐、多模态检索)与四大使用边界,倡导按需选型、协同传统数据库,实现价值最大化。
|
21天前
|
机器学习/深度学习 自然语言处理 算法
大模型对齐实战:PPO算法的原理与应用实践
本文深入浅出讲解PPO算法在大模型偏好对齐中的应用,涵盖核心原理、三大环节(SFT、RM、PPO)、实操步骤与效果评估。结合LLaMA-Factory工具,手把手带新手完成智能客服模型微调,助力打造贴合人类偏好的AI应用,是入门强化学习对齐的实用指南。