HuatuoGPT-o1:开源的医学推理大模型,通过复杂推理和强化学习提升医学问题解决能力

本文涉及的产品
NLP自然语言处理_高级版,每接口累计50万次
NLP自然语言处理_基础版,每接口每天50万次
NLP 自学习平台,3个模型定制额度 1个月
简介: HuatuoGPT-o1 是香港中文大学与深圳大数据研究院联合推出的医学高级推理大模型,通过复杂推理和强化学习提升医学问题解决能力。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:HuatuoGPT-o1 能够进行复杂的医学推理,识别错误并优化答案。
  2. 技术:采用两阶段训练方法,结合验证器反馈和强化学习提升模型性能。
  3. 应用:广泛应用于医学诊断、治疗方案制定、医学教育等领域。

正文(附运行示例)

HuatuoGPT-o1 是什么

公众号: 蚝油菜花 - HuatuoGPT-o1

HuatuoGPT-o1 是香港中文大学(深圳)和深圳大数据研究院联合推出的医学高级推理大模型。该模型通过复杂的推理能力提升解决医学问题的性能,采用两阶段训练方法:首先,使用医学验证器引导搜索正确的推理路径来微调模型;其次,应用基于验证器反馈的强化学习进一步增强模型的复杂推理能力。

HuatuoGPT-o1 能够生成长链的思考过程,识别错误,并尝试不同的策略精细化答案。实验结果表明,模型在多个医学基准测试中优于通用和特定于医学的基线模型,且从复杂推理和强化学习中显著受益。

HuatuoGPT-o1 的主要功能

  1. 复杂推理:HuatuoGPT-o1 能进行复杂的推理,解决医学领域的复杂问题。
  2. 错误识别与修正:模型能识别其答案中的错误,尝试不同的策略修正和优化答案。
  3. 长链思考:HuatuoGPT-o1 能产生长的思考链(Chain-of-Thought, CoT),展示推理过程。
  4. 自我改进:基于强化学习(Reinforcement Learning, RL),模型能自我改进,进一步提升复杂推理能力。

HuatuoGPT-o1 的技术原理

  1. 两阶段训练方法
    • 第一阶段:学习复杂推理:基于策略搜索引导下的验证器反馈(正确或错误)构建复杂推理轨迹,微调LLM。
    • 第二阶段:通过RL增强复杂推理:在第一阶段获得复杂推理技能后,用基于验证器的稀疏奖励进一步优化模型。
  2. 可验证医学问题:构建40K个可验证的医学问题,问题具有客观的、唯一的正确答案,支持模型验证解决方案的正确性。
  3. 医学验证器:用GPT-4o作为验证器,检查模型生成的答案(CoT和结果)是否与真实答案相符,提供二进制反馈。
  4. 强化学习(RL):用Proximal Policy Optimization(PPO)算法进行RL训练,基于验证器提供的奖励指导模型自我改进,优化复杂推理路径。
  5. 链式思考(CoT):模型生成的CoT包括“内部思考”、“最终结论”和“验证”三个部分,模拟人类解决问题的思维方式。

如何运行 HuatuoGPT-o1

1. 安装依赖

首先,确保你已经安装了 transformers 库:

pip install transformers

2. 加载模型和分词器

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("FreedomIntelligence/HuatuoGPT-o1-8B", torch_dtype="auto", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("FreedomIntelligence/HuatuoGPT-o1-8B")

3. 生成推理结果

input_text = "How to stop a cough?"
messages = [{
   "role": "user", "content": input_text}]

inputs = tokenizer(tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True), return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=2048)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
机器学习/深度学习 人工智能 自然语言处理
人工智能领域中训练、评估和推理概念的了解
人工智能领域中训练、评估和推理概念的了解
858 0
|
27天前
|
机器学习/深度学习 存储 人工智能
【AI系统】感知量化训练 QAT
本文介绍感知量化训练(QAT)流程,旨在减少神经网络从FP32量化至INT8时的精度损失。通过在模型中插入伪量化节点(FakeQuant)模拟量化误差,并在训练中最小化这些误差,使模型适应量化环境。文章还探讨了伪量化节点的作用、正向与反向传播处理、TensorRT中的QAT模型高效推理,以及QAT与PTQ的对比,提供了实践技巧,如从良好校准的PTQ模型开始、采用余弦退火学习率计划等。
77 2
【AI系统】感知量化训练 QAT
|
22天前
|
机器学习/深度学习 数据采集 自然语言处理
《基于 C++的神经机器翻译模型:训练与优化之道》
在全球化背景下,语言障碍的突破至关重要。本文探讨了基于C++的神经机器翻译(NMT)模型的构建与优化。NMT采用编码器-解码器结构,C++以其高效性在模型构建中独具优势。文章详细介绍了数据预处理、模型训练方法(包括优化算法和训练策略)、模型优化(如结构调整和正则化)以及模型评估与部署。通过这些方法,可以构建高效、准确的NMT模型,促进国际交流与合作。
45 12
|
3月前
|
机器学习/深度学习 数据采集 人工智能
深度学习之稳健的模型推理与不确定性建模
基于深度学习的稳健模型推理与不确定性建模,是现代AI系统中至关重要的研究方向。随着深度学习在各类应用中的成功,如何保证模型在面对未知或不确定性输入时仍能做出稳健的推理,并能够量化这种不确定性,成为关键问题。稳健性与不确定性建模可以提高模型的安全性、可靠性,尤其在自动驾驶、医疗诊断等高风险领域。
67 0
|
7月前
|
机器学习/深度学习 人工智能 算法
【机器学习】RLHF:在线方法与离线算法在大模型语言模型校准中的博弈
【机器学习】RLHF:在线方法与离线算法在大模型语言模型校准中的博弈
365 6
|
8月前
|
机器学习/深度学习 数据处理
【机器学习】生成式模型与判别式模型有什么区别?
【5月更文挑战第10天】【机器学习】生成式模型与判别式模型有什么区别?
|
7月前
|
存储 人工智能 数据挖掘
AI大模型量化
AI大模型量化
152 0
|
8月前
|
机器学习/深度学习 人工智能
ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
【2月更文挑战第25天】ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
102 7
ChatGPT检测器——以前所未有的准确性捕捉AI生成的论文
|
8月前
|
机器学习/深度学习 数据采集 传感器
深度学习在图像识别中的应用进展构建高效机器学习模型:从数据预处理到模型优化的洞见
【5月更文挑战第29天】 在人工智能领域,深度学习技术已经成为推动图像识别进步的核心动力。随着卷积神经网络(CNN)的不断发展和优化,以及大数据和计算能力的显著提升,图像识别的准确性和效率得到了极大增强。本文将探讨深度学习技术在图像识别领域的最新应用,分析其关键技术创新点,并讨论未来可能的发展趋势。 【5月更文挑战第29天】 在探索数据科学与机器学习的融合艺术中,本文将引导读者穿越数据处理的迷宫,解锁特征工程的秘密,并最终在模型优化的顶峰俯瞰效率与准确性的壮丽景色。我们将通过一系列经过实战验证的技术感悟,展现如何打造一个既健壮又灵敏的机器学习模型。文章不仅聚焦于技术细节,更注重于概念理解与实
|
8月前
|
机器学习/深度学习 数据采集 人工智能
深度学习中的大模型「幻觉」问题:解析、原因及未来展望
深度学习中的大模型「幻觉」问题:解析、原因及未来展望

热门文章

最新文章