ACL2024 | OceanGPT(沧渊):面向海洋科学任务的大型语言模型初探

简介: 本文提出了为海洋领域打造的大型语言模型OceanGPT,它能够处理面向海洋科学的问答等生成任务。

 

image.gif

我们在去年发布了OceanGPT并初步探索了其在海洋科学问答、内容生成和水下具身智能能力,该工作近期被自然语言处理顶级会议ACL2024(CCF-A类会议)录用为主会论文。近期我们对OceanGPT进行了进一步的优化和升级,并将其中的部分能力以开源形式进行了更新发布,主要能力升级包括:

  1. 在OceanGPT-7b基础上升级发布OceanGPT-14B/2B两个新版本;
  2. 新增基于Qwen2的中文基座的OceanGPT,提供支持中英文双语能力;
  3. 开源了20K规模的海洋大模型指令数据集OceanInstruct;
  4. 新训练OceanGPT-V多模态版本(提供在线演示,即将开源),支持多模态海洋数据(声呐、科学图片等)处理能力。

背景

海洋覆盖了约 71% 的地球表面,它在全球的气候调节、天气模式、生物多样性以及人类的经济发展都扮演着至关重要的角色。海洋科学的研究关注于海洋的自然特性、其变化规律以及与海洋资源开发和利用相关的理论、方法与应用。因此,本文提出了为海洋领域打造的大型语言模型OceanGPT,它能够处理面向海洋科学的问答等生成任务。另外本文还尝试验证大模型模拟操控水下机器人的潜力,初步探索了大模型驱动的水下具身智能的可能实现方法。

OceanGPT的训练(OceanGPT-7B)

image.gif

数据质量是训练海洋领域大模型的关键。为训练OceanGPT,我们收集了海洋科学语料,其包含多个子领域。由于每个子领域和主题都有独特的特征和模式,我们提出了一种名为 DoInstruct的领域指令生成框架,采用多智能体协作的方式来生成海洋科学的指令微调训练数据。这种方式即可以确保数据的专业性和准确性,也能够实现高效并行的数据生成性能。DoInstruct框架利用智能体(如 GPT-3.5-turbo)作为每个海洋主题的专家,主要包含三大类角色:

  • 演化式的数据合成智能体: 具体来说,智能体主要采取两种协同式的策略,一是补充拓展种子样本的背景知识,二是对种子数据包含的知识点进行细化分析增强和改进;
  • 经过微调的文献阅读智能体: 首先对大模型进行微调得到专门用于文献抽取的智能体模型,从而能够使用智能体从海量海洋语料库中提取高质量文本;
  • 确保数据质量的审核智能体: 在这里预定义了特定海洋科学相关的句法和语义规则,通过提示的方式构建该智能体,最后能够过滤数据来确保生成数据的质量。

基于上述得到的指令数据,我们基于开源模型llama2-7b-chat训练得到OceanGPT-7B,其中部分的指令数据已开源到OceanInstructions

image.gif

image.gif

从实验结果可以看到,本文研究的模型在绝大多数任务上优于基线语言模型。与此作为对比,现有的开源大型语言模型并不能够很好地处理一些需要专业知识的海洋任务。另外我们设计的多智能体数据生成框架能够有效地在海洋领域的各个子领域充当专家,这表明OceanGPT在各种海洋领域是更好的专家模型。

image.gif

我们进一步在微调过程融合了一些符号化的机器人控制指令和代码,然后在模拟器中初步验证OceanGPT对于海底机器人控制(比如轨迹规划)的能力,可以为大模型驱动的水下具身智能的实现提供参考。

新升级能力(OceanGPT-14B/2B)

在前述工作基础之上,近期我们对OceanGPT进行了多方面的升级,包括:

1. 对模型基座(基于Qwen和MiniCPM)进行了更新优化并开源发布OceanGPT-14B/7B/2B三个模型,其中2B模型可支持端侧或边缘侧硬件设备部署,以便更好适配海洋环境下端侧或边缘侧的低计算能力设备。

2. 基于Qwen 2.0基座模型,提升模型的中英双语能力。

3. 对海洋指令数据集进行了扩展,覆盖更为广泛海洋领域知识,并基于部分指令数据集开源了海洋指令数据集OceanInstruct(20K)

4. 新训练OceanGPT-V多模态版本(提供在线演示,即将开源),支持多模态海洋数据(声呐、科学图片等)处理能力。

下面以OceanGPT-14B为例,展示模型的部分能力。

如给定中文问题“请生成一份东海海域海底管缆的建设方案”,可以发现OceanGPT具备较好的海洋科学知识问题的回答能力。首先,从生成内容的丰富度而言,OceanGPT从“项目概述”、“建设目标”、“线路规划”、“技术路线”、“环境影响评估与保护”等八个点来阐述问题,比GPT4的逻辑性相对较好,丰富度也更高。其次从细粒度的知识点来说,OceanGPT的回答内容覆盖了相对更多的层次。比如说在问题中提到了“中国东海”,OceanGPT能够结合东海本身的背景来进行分析回答,比如联系到“东海大陆架”、“舟山群岛”以及“日本海盆”等知识概念。与此作为对比,GPT4的生成结果相对模糊,没有结合问题的场景做具体分析。总的来说,OceanGPT具备相对较好的海洋科学知识理解与生成能力。

image.gif

为验证OceanGPT英文生成能力,给定英文输入“请描述东海海域的海底地形地貌特征”。可以看出OceanGPT的描述覆盖了更多的地形地貌类型,如大陆坡、海沟、浅海平原、环礁和珊瑚岛、洋中脊等。而GPT4的描述则相对简单,仅提及了浅海区和深海区。从深度和专业性的角度来看,OceanGPT不仅描述了地形,还提供了具体的深度信息和相关地质特征,如日本海沟的深度和琉球海脊的地质成因,使得描述更加专业和科学。最后,OceanGPT清晰地划分了东海的不同地貌区域,并逐一进行详细描述,使得读者更容易理解东海海域的地形地貌特征。相比之下,GPT4的描述较为笼统且没有区域划分。通过以上对比分析可以看出,OceanGPT生成的描述在细节、全面性、专业性和区域划分上相对较好,能够提供更为准确和深入的海底地形地貌信息。

image.gif

oceangpt -small-original.gif

相关文章
|
3月前
|
自然语言处理 物联网
化学领域的新篇章:大型语言模型的创新应用
【4月更文挑战第20天】LlaSMol项目成功应用大型语言模型(LLMs)于化学研究,创建SMolInstruct数据集,包含14个化学任务和300万个样本。经过微调,LlaSMol模型在多任务上超越GPT-4,展示LLMs在化学领域的潜力。然而,数据准确性和模型泛化性仍是挑战,未来需进一步研究。[论文链接](https://arxiv.org/pdf/2402.09391.pdf)
53 1
|
17天前
|
存储 机器学习/深度学习 测试技术
模型量化技术综述:揭示大型语言模型压缩的前沿技术
在这篇文章中,我将在语言建模的背景下介绍量化,并逐一探讨各个概念,探索各种方法论、用例以及量化背后的原理。
14 0
模型量化技术综述:揭示大型语言模型压缩的前沿技术
|
3月前
|
算法 计算机视觉 网络架构
CVPR 202:擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
【5月更文挑战第10天】在CVPR 2024会议上,清华大学与博世团队推出MagNet,一种针对复杂场景和语言表达的实例分割网络。MagNet通过Mask Grounding辅助任务强化视觉-语言对应,缩小模态差距,并结合跨模态对齐损失与模块,提升RIS任务的准确性。在RefCOCO、RefCOCO+和G-Ref基准上取得显著优势,但对罕见表达和复杂场景的处理仍有待优化。[论文链接](https://arxiv.org/abs/2312.12198)
96 5
|
3月前
|
机器学习/深度学习 自然语言处理 安全
18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述
18LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角【网安AIGC专题11.15】作者汇报 综述
529 0
|
机器学习/深度学习 人工智能 并行计算
全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题
全球首创 :分子之心开源新AI算法,攻克蛋白质侧链预测与序列设计难题
128 0
|
机器学习/深度学习 编解码 人工智能
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(1)
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果
165 0
|
机器学习/深度学习
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果(2)
斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果
149 0
|
机器学习/深度学习 人工智能 自然语言处理
中山大学HCP实验室新突破:用因果范式再升级多模态大模型
中山大学HCP实验室新突破:用因果范式再升级多模态大模型
130 0
|
机器学习/深度学习 人工智能 机器人
一项人工智能、化学和分子机器人的交叉研究,加速创新和药物发现,并简化复杂的化学过程自动化
一项人工智能、化学和分子机器人的交叉研究,加速创新和药物发现,并简化复杂的化学过程自动化
|
机器学习/深度学习 编解码 人工智能
中科院团队新研究:人工智能有助于从空间分辨转录组学中识别组织亚结构
中科院团队新研究:人工智能有助于从空间分辨转录组学中识别组织亚结构
137 0