ACL2024 | OceanGPT（沧渊）：面向海洋科学任务的大型语言模型初探-阿里云开发者社区

ACL2024 | OceanGPT（沧渊）：面向海洋科学任务的大型语言模型初探

2024-07-10 596

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文提出了为海洋领域打造的大型语言模型OceanGPT，它能够处理面向海洋科学的问答等生成任务。

我们在去年发布了OceanGPT并初步探索了其在海洋科学问答、内容生成和水下具身智能能力，该工作近期被自然语言处理顶级会议ACL2024（CCF-A类会议）录用为主会论文。近期我们对OceanGPT进行了进一步的优化和升级，并将其中的部分能力以开源形式进行了更新发布，主要能力升级包括：

在OceanGPT-7b基础上升级发布OceanGPT-14B/2B两个新版本；
新增基于Qwen2的中文基座的OceanGPT，提供支持中英文双语能力；
开源了20K规模的海洋大模型指令数据集OceanInstruct；
新训练OceanGPT-V多模态版本（提供在线演示，即将开源），支持多模态海洋数据（声呐、科学图片等）处理能力。

背景

海洋覆盖了约 71% 的地球表面，它在全球的气候调节、天气模式、生物多样性以及人类的经济发展都扮演着至关重要的角色。海洋科学的研究关注于海洋的自然特性、其变化规律以及与海洋资源开发和利用相关的理论、方法与应用。因此，本文提出了为海洋领域打造的大型语言模型OceanGPT，它能够处理面向海洋科学的问答等生成任务。另外本文还尝试验证大模型模拟操控水下机器人的潜力，初步探索了大模型驱动的水下具身智能的可能实现方法。

OceanGPT的训练（OceanGPT-7B）

数据质量是训练海洋领域大模型的关键。为训练OceanGPT，我们收集了海洋科学语料，其包含多个子领域。由于每个子领域和主题都有独特的特征和模式，我们提出了一种名为 DoInstruct的领域指令生成框架，采用多智能体协作的方式来生成海洋科学的指令微调训练数据。这种方式即可以确保数据的专业性和准确性，也能够实现高效并行的数据生成性能。DoInstruct框架利用智能体（如 GPT-3.5-turbo）作为每个海洋主题的专家，主要包含三大类角色：

演化式的数据合成智能体：具体来说，智能体主要采取两种协同式的策略，一是补充拓展种子样本的背景知识，二是对种子数据包含的知识点进行细化分析增强和改进；
经过微调的文献阅读智能体：首先对大模型进行微调得到专门用于文献抽取的智能体模型，从而能够使用智能体从海量海洋语料库中提取高质量文本；
确保数据质量的审核智能体：在这里预定义了特定海洋科学相关的句法和语义规则，通过提示的方式构建该智能体，最后能够过滤数据来确保生成数据的质量。

基于上述得到的指令数据，我们基于开源模型llama2-7b-chat训练得到OceanGPT-7B，其中部分的指令数据已开源到OceanInstructions

从实验结果可以看到，本文研究的模型在绝大多数任务上优于基线语言模型。与此作为对比，现有的开源大型语言模型并不能够很好地处理一些需要专业知识的海洋任务。另外我们设计的多智能体数据生成框架能够有效地在海洋领域的各个子领域充当专家，这表明OceanGPT在各种海洋领域是更好的专家模型。

我们进一步在微调过程融合了一些符号化的机器人控制指令和代码，然后在模拟器中初步验证OceanGPT对于海底机器人控制（比如轨迹规划）的能力，可以为大模型驱动的水下具身智能的实现提供参考。

新升级能力（OceanGPT-14B/2B）

在前述工作基础之上，近期我们对OceanGPT进行了多方面的升级，包括：

1. 对模型基座（基于Qwen和MiniCPM）进行了更新优化并开源发布OceanGPT-14B/7B/2B三个模型，其中2B模型可支持端侧或边缘侧硬件设备部署，以便更好适配海洋环境下端侧或边缘侧的低计算能力设备。

2. 基于Qwen 2.0基座模型，提升模型的中英双语能力。

3. 对海洋指令数据集进行了扩展，覆盖更为广泛海洋领域知识，并基于部分指令数据集开源了海洋指令数据集OceanInstruct（20K）

4. 新训练OceanGPT-V多模态版本（提供在线演示，即将开源），支持多模态海洋数据（声呐、科学图片等）处理能力。

下面以OceanGPT-14B为例，展示模型的部分能力。

如给定中文问题“请生成一份东海海域海底管缆的建设方案”，可以发现OceanGPT具备较好的海洋科学知识问题的回答能力。首先，从生成内容的丰富度而言，OceanGPT从“项目概述”、“建设目标”、“线路规划”、“技术路线”、“环境影响评估与保护”等八个点来阐述问题，比GPT4的逻辑性相对较好，丰富度也更高。其次从细粒度的知识点来说，OceanGPT的回答内容覆盖了相对更多的层次。比如说在问题中提到了“中国东海”，OceanGPT能够结合东海本身的背景来进行分析回答，比如联系到“东海大陆架”、“舟山群岛”以及“日本海盆”等知识概念。与此作为对比，GPT4的生成结果相对模糊，没有结合问题的场景做具体分析。总的来说，OceanGPT具备相对较好的海洋科学知识理解与生成能力。

为验证OceanGPT英文生成能力，给定英文输入“请描述东海海域的海底地形地貌特征”。可以看出OceanGPT的描述覆盖了更多的地形地貌类型，如大陆坡、海沟、浅海平原、环礁和珊瑚岛、洋中脊等。而GPT4的描述则相对简单，仅提及了浅海区和深海区。从深度和专业性的角度来看，OceanGPT不仅描述了地形，还提供了具体的深度信息和相关地质特征，如日本海沟的深度和琉球海脊的地质成因，使得描述更加专业和科学。最后，OceanGPT清晰地划分了东海的不同地貌区域，并逐一进行详细描述，使得读者更容易理解东海海域的地形地貌特征。相比之下，GPT4的描述较为笼统且没有区域划分。通过以上对比分析可以看出，OceanGPT生成的描述在细节、全面性、专业性和区域划分上相对较好，能够提供更为准确和深入的海底地形地貌信息。

oceangpt -small-original.gif

ACL2024 | OceanGPT（沧渊）：面向海洋科学任务的大型语言模型初探

背景

OceanGPT的训练（OceanGPT-7B）

新升级能力（OceanGPT-14B/2B）

热门文章

最新文章

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

ACL2024 | OceanGPT（沧渊）：面向海洋科学任务的大型语言模型初探

背景

OceanGPT的训练（OceanGPT-7B）

新升级能力（OceanGPT-14B/2B）

热门文章

最新文章

相关电子书