万米地下打响“计算战”,HPC与大模型解放石油人的“铁脚板”

简介: 本文揭秘戈壁滩上的能源革命:面对万米深地勘探难题,中国石油专家龚仁彬亲述如何以“HPC+AI”双引擎破局——高性能计算清洗PB级地震数据,垂直大模型实现“云端算油”,效率提升9倍以上。强调落地关键不在堆参数,而在业务与技术的深度“双向奔赴”。

文章配图-1
许多人在讨论“养虾”时,在荒凉的戈壁滩上,一场关乎能源命脉的技术革命正在悄然发生。

当地表浅层“容易获取”的油气资源被消耗殆尽,用脚步丈量大地的“找油人”,将目光瞄向了上万米的地底深处,要在上千米的地层中找到仅有几米适合开采的油层。传统靠经验“开盲盒”式的勘探手段已经失效,取而代之的是看不见硝烟的“计算战”。

为了拨开硬核技术的面纱,我们与中国石油勘探开发研究院原首席专家龚仁彬进行了一场对话,透过有着40年经验的“石油IT老将”的视角,理解计算怎么重塑人类寻找“黑金”的方式。

01 数据量指数级增长的计算“压力”
1986年大学毕业后,龚仁彬就投身于石油IT系统的建设,亲历了中国油气行业从信息化到数字化再到智能化的跨越。

“老一代石油人找油,靠的是一双铁脚板和长期积累的经验。”龚仁彬在对话中向我们描绘了传统石油勘探的画面,地质学家们跋山涉水,通过有限的地表采样和肉眼观察,再结合毕生积累的知识与经验,在大脑中构建出地下可能存在的油气构造。

文章配图-1

高度依赖人类大脑和体力的模式,已经逼近认知的极限,横亘在现代勘探面前,是两个跳不过的现实挑战。

第一个挑战是数据量的指数级甚至是“核爆级”增长。

“我刚参加工作的时候,在地面上放一炮,接收深度1000米,最多能到1500米。”龚仁彬回忆道。那时的勘探更像是在浅水区摸石头,而现在勘探的深度,已经达到了惊人的1.5万米乃至2万米。

不只是勘探深度的倍增,数据采集的维度也在几何级膨胀。过去放一炮,地面部署的接收传感器只有120个;现在放一炮,有几万个传感器同时在接收微弱的回波信号,采集到的数据呈现出了指数级增长。

“过去一个数据体可能只有几百兆,后来是几百个G,现在随便一个普通的地震勘探工区,都是几百个TB,有些能达到数十个PB级的数据量。”龚仁彬还讲述了自己亲历的一个“极端例子”,“为了拷取一个150TB的单体原始数据,光是物理拷贝的过程,就耗费了近一个月的时间。”

第二个挑战是海量庞杂数据对高性能计算(HPC)的“压力”。

油气勘探可以比作是给地球做CT,采集的数据越多、处理得越精细,对地下地质结构的了解就越准确,找到油的可能性就越大。如果不进行去噪、反褶积、叠加等处理,PB级的数据几乎没有价值。

地震资料处理的一个完整流程多达几十步,涵盖数百个软件模块,涉及大量计算量大的并行作业,对计算精度、时效的要求,远非普通计算机可以满足的。从我国自主研发的“银河二代”巨型计算机开始,高性能计算就成了处理物探数据的“底座”。

时间来到2026年,油气勘探和油藏模拟已经是鲲鹏HPC最大的应用和创新场景之一。为了解决多任务、同数据体并行的海量运算需求,基于鲲鹏架构和全分布式存储构建的高性能计算平台,能够大幅降低I/O等待时间,以满足油气行业对运行速度、并行计算能力的严苛要求。

由此出现了一个“反常识”的现象:过去几年时间里,智能计算、大模型等概念占据了舆论焦点,但在AI for Science领域,智能计算应用总体仅占30%,大多数任务离不开HPC的精确计算能力。

就像在油气勘探的场景中,只有将HPC将数据彻底清洗干净,AI大模型才具备深度介入、寻找规律的基础。

02 工业级的大模型是怎样“炼”成的?
有了HPC清洗出的高质量数据,大模型的落地应用就有了土壤。但AI在油气行业的尝试,并不像想象中一帆风顺。

龚仁彬在对话中提到:早在1984年的时候,中文期刊文献里就提到了“人工智能”在地震资料处理中的应用。但随后的三十多年里,找油人绝大多数时间还是要靠“铁脚板”。一位经验丰富的专家通常需要1-2天才能识别一口新井,而一个油田每年就要完钻数千口井,工作强度可想而知。

原因并不难解释。传统模型过分把精力放在了各种算法的研究上,忽略了海量数据的投喂。

“我曾经看到过一篇文章,用34口井的数据跑出一个模型,就想做测井解释。好比一个赤脚医生,在村里治过34个人,就能在天下行医吗?”龚仁彬用一个生动的比喻,揭示了传统模型泛化能力差的缺陷。

转折点发生在2021年末。

龚仁彬在华为杭州研究院调研时,被盘古气象大模型的成功深深启发:既然可以利用海量的气象数据跑出一个显著提升预测能力的模型,为什么不能用海量的地震数据,跑一个用于油气勘探的“地震解释大模型”?

厘清了思路的龚仁彬,带领中国石油勘探开发研究院的团队,联合华为、中国移动等合作伙伴,开始了工业级大模型的“炼丹”。

文章配图-1

为了保证投喂给大模型的“养料”绝对纯净,团队收集了鄂尔多斯、塔里木、四川等七大盆地共计6万平方公里、约200TB的真实业务数据。在前期的数据整理阶段,通过HPC与人工结合的方式,进行了“宁可错杀”的数据清洗——只要发现数据中掺杂了不合适的人工地质解释信息,就坚决切除,绝不让劣质数据把大模型“带偏”。

经过93天日夜不停地训练,“炼”出了一个80亿参数的垂直大模型,并迅速在业务一线进行了“实战”。

在四川南充地区,面对25600平方公里的超大数据体,传统的交叉项识别方法费时耗力,大模型介入后,只用10天时间就完成了识别任务,精度接近90%、效率提升了9倍;

在长庆油田的非常规致密气预测中,在没有依托探井数据的情况下,一周时间就跑出了传统方法需要三个多月的结果;

以往需要半年完成的解释工作,大模型最多两周就能出结果,工作效率提高了9到12倍……

让龚仁彬印象最为深刻的,是大模型涌现出的“反直觉”寻油能力。

传统勘探高度依赖专家的主观经验,过去是找油的法宝,现在却可能形成思维盲区。而大模型是纯粹的“唯物主义者”,擅长从海量数据中“掘金”,可以在被专家经验漏掉的数据中,精准捕捉到符合油藏特征的信号。

从“经验主导”向“数据驱动”的跨越,标志着在高性能计算、高质量数据的浇灌下,AI的种子终于在万米地下“生了根”,等待油气勘探行业的,将是从“地里找油”到“云端算油”的新纪元。

03 如何填补大模型落地时的“深坑”?
算力可以花钱买,模型可以联合攻坚,智能化道路上最难跨越的深坑却是——懂业务的不懂AI,懂AI的不懂油田。

在对话中,龚仁彬道出了传统能源行业最真实、也最无奈的痛点:“说实话,我们油气行业的工资待遇,是没办法招到真正的顶尖AI人才的”,并提出了极具实用主义色彩的“三层人才金字塔”破局策略。

第一层是懂业务的“提灯人”。

在内部筛选对AI感兴趣的资深业务人员,可能不会写代码,但对油气勘探有深刻的理解,能够准确定义问题并提出核心需求。

第二层是内部转化的“调参侠”。

即使招不到AI大牛,还可以从内部寻找数学、物理、物探基础好的年轻人,经过系统的AI培训后,承担开源算法的调试、常规模型的微调和训练工作,一步步成为AI落地的中坚力量。

第三层是外部借脑的“联合战队”。

在涉及底层创新、架构研发时,选择与华为、阿里爸爸、科大讯飞等科技企业,以及清华、北大等高校进行深度合作,让外部的通用AI技术,与内部深厚的行业know-how进行“碰撞”。

文章配图-1

除了解决人才断层的系统性方案,龚仁彬还对盲目跟风大模型的行业乱象提出了“警告”。

作为操盘了多个国家级油气信息化工程的老将,龚仁彬总结了当前智能化转型中最容易踩的四个“坑”,即为了智慧而智慧,脱离生产实际;盲目搞大模型;重技术轻业务;重复建设严重。

其中“盲目搞大模型”是龚仁彬特别强调的问题,“既没有明确需求,也没有高质量数据支撑,想都没想干大模型目的是什么,就盲目上马。”如果数据基础不夯实,只会把模型“带进沟里”。

龚仁彬的观点,和中国工程院院士郑纬民不谋而合。

几个月前的一场行业会议上,中国工程院院士郑纬民在报告中明确提出了“HPC+AI for Science”的概念,并以石油勘探为例解释了高性能计算与人工智能协同催生的科研新范式:数据预处理仍由HPC完成,判断地下是否有石油的预测环节使用大模型。

隐藏在理性思考背后的,是千行百业数智化转型的新态势:纯粹的概念炒作正在退潮,取而代之的是深度的融合创新。

比如HPC与AI底座的深度融合计算,前端利用鲲鹏HPC的高吞吐清洗数据,后端利用大模型进行智能预测,形成完美的算力闭环;再比如产学研联动的复合型人才培养,正在打破以往理论研究与生产实际相脱节的壁垒,培养更多既懂行业也懂AI的年轻人……

有理由相信,当懂业务的“提灯人”照亮了前行的方向,“调参侠”与“联合战队”拉齐了技术水位,“HPC+AI”的算力底座夯实了路基,曾经横亘在AI与千行百业间的鸿沟,将被彻底“踏平”。

04 写在最后
万米地下的“计算战”,给当下狂热的“AI乱象”浇了一盆冷水,也为千行百业指明了一条更清晰的路径。

大模型从来都不是“即插即用”的产品,更不是包治百病的灵丹妙药。想要大模型在业务一线释放出应有的“魔法”,需要高性能计算清洗PB级的混沌数据、需要业务专家们梳理出明确的需求、需要在组织体系上承接“从数据到决策”的工程化链路。

正如龚仁彬在对话中的一句话:落地靠的是“双向奔赴”,不是单向技术推动,不是更大的模型,而是更深的融合。

相关文章
|
4天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
8516 37
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
3天前
|
缓存 测试技术 API
Qwen 3.7 Plus 与 Max 实测:性价比与多模态能力差异解析(2026)
2026 年 6 月 1 日,阿里悄无声息地发布了 Qwen 3.7 Plus,距 Qwen 3.7 Max 上线刚好 11 天。同样的 1M 上下文,同样的 35 小时自治上限。但价格才是头条:Plus 是 0.40/M输入,Max是 2.50/M——便宜约 6 倍——并且还能看图、看视频。Vision Arena 上 Plus 已经排到 #16。所以这周真正值得讨论的问题不是”要不要为视觉能力买单”,而是”Max 凭什么用 6 倍价格换来 2 个百分点的 benchmark 领先”。
|
4天前
|
JavaScript 定位技术 API
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
CodeGraph 是一款爆火的本地代码智能工具,通过 tree-sitter 解析 AST 构建结构化知识图谱(存于 SQLite),为编程 Agent 提前生成“代码地图”。它显著降低 Agent 在中大型项目中的探索成本——实测工具调用减少71%、Token 降57%、速度提升46%,支持19+语言及主流框架路由识别,完全离线、无需 API Key。
617 3
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
|
4天前
|
人工智能 运维 JavaScript
阿里云Qoder CN(原通义灵码)全解析 产品形态、版本划分与技术适配说明
在AI辅助开发与智能办公工具持续普及的当下,阿里云旗下原通义灵码正式更名为Qoder CN,同时延伸出QoderWork CN、Qoder CN CLI、Qoder CN Mobile等多款配套产品,形成覆盖代码开发、日常办公、终端交互、移动端使用的完整工具矩阵。Qoder CN核心定位为AI智能编码助手,深度适配主流代码编辑器、集成开发环境以及终端场景;QoderWork CN则偏向桌面端综合办公辅助,二者面向不同使用场景,划分了多个版本档位,搭配差异化资源配额、功能权限与计费规则,同时兼容多款主流大模型。
620 4
|
4天前
|
数据采集 人工智能 前端开发
让 Coding Agent 从黑盒到透明:阿里云 Agent 观测审计数据采集实践
AI Agent 规模化落地带来执行黑盒、行为难追溯、成本难度量三大难题。阿里云基于 OTel 标准,面向 Coding Agent、个人通用助理和框架型 Agent,推出 LoongSuite Pilot、插件及探针等无侵入采集方案,让 Agent 实现可看见、可分析、可审计、可治理。
709 148
|
4天前
|
人工智能 缓存 自然语言处理
阿里Qwen3.7-Max评测:Agent能力显著提升,耗时与调用成本大幅下降
阿里云百炼推出面向智能体的旗舰大模型Qwen3.7-Max,具备长周期自主执行能力,显著提升编程、办公自动化等复杂任务处理水平;支持MCP集成与多框架兼容,并以限时5折+100万Tokens免费试用大幅降低使用门槛,助力企业高效落地AI应用。在阿里云百炼平台快速体验:https://t.aliyun.com/U/fPVHqY
1949 10
|
4天前
|
存储 安全 Java
AgentScope Java 2.0:打造分布式、企业级智能体底座
AgentScope 2.0 面向分布式部署、稳定运行、权限安全等企业级需求全面升级,打造支持多租户隔离与长期稳定运行的企业级智能体底座。
|
4天前
|
人工智能 运维 API
2026年阿里云百炼通义千问Qwen3.7-plus深度介绍 功能特性、使用优势及618大促订阅方案指南
大模型技术的普及,让AI能力逐步融入个人办公、内容创作、代码编写、企业运营、教育培训等各类场景。不同定位的模型对应不同使用需求,旗舰级模型性能强劲但使用成本偏高,轻量化模型价格低廉却难以胜任复杂任务,而介于两者之间的中端主力模型,凭借均衡的能力、亲民的定价、广泛的场景适配性,成为绝大多数个人用户、小型团队、中小企业的首选。
742 1
|
4天前
|
人工智能 安全 定位技术
CodeGraph深度解析 让Claude Code工具调用直降七成的核心原理与实操教程
如今以Claude Code为代表的AI编程智能体已经成为开发者日常编码、项目重构、漏洞修复的必备工具。但在长期使用过程中,几乎所有开发者都会遇到同一个明显痛点:AI虽然具备强大的代码生成与分析能力,却常常陷入盲目探索的循环中。
1347 2
|
4天前
|
人工智能 运维 自然语言处理
阿里云百炼Qwen3.7-Max模型详解:综合能力、核心优势与订阅计划参考指南
2026年,大模型技术持续向通用化、高性能、场景化方向迭代,阿里云百炼作为一站式大模型服务平台,持续推出迭代升级的模型产品,Qwen3.7-Max便是当前主力旗舰级大模型之一。该模型依托深度优化的底层架构与大规模训练数据,在文本理解、逻辑推理、多模态交互、代码生成、长文本处理等多个维度实现能力升级,同时搭配灵活的订阅计划体系,能够适配个人开发者、中小企业、大型企业、政企机构等不同类型用户的使用需求。
545 2