科研人员变身数据科学家 大数据成天津大港油田“找油利器”

简介:

ZDNet至顶网软件频道消息:在一般人的印象中,油田与科研之间似乎划不上等号,再把油田与1000名科研人员联系在一起,很多人会问:这些科研人员在油田中的作用是什么?作为一名对油田不太了解的IT记者,我也有这样的疑问。为此,ZDNet记者近日专门采访了天津大港油田信息中心数据管理部主任范德军。

1000这个数字,是天津大港油田科研人员的规模。在范德军看来,与公司3、4万名职工数相比,科研人员比例并不高,但是他们的作用却非常大。大港油田信息中心负责整个油田信息化建设,而为科研生产提供好的信息化支持,是超脱管理之上的重要业务职能,因为勘探开发永远是油田的核心任务。在当今大数据、云计算时代,这些新技术同样可以变为油田科研人员手中的“找油利器”,让他们成为出色的数据科学家。因为数据对于油田的重要性之高,超乎我们的想象;而数据科学家能够给油田勘探、生产带来的价值,可能会在很短时间内呈现几何级数增长。为了让这一切成为现实,天津大港油田采用IBM Platform Computing,为石油行业走出一条构建在云管理平台之上的大数据应用之路进行探索。

科研人员变身数据科学家 大数据成天津大港油田找油利器

天津大港油田信息中心数据管理部主任范德军

传统石油勘探数据的获取耗时耗力
对于石油行业来说,石油勘探开发中的科研工作是一项多学科协作的智慧集结。石油勘探开发流程包含很多步骤:第一步是地震处理,也就是收集地震波信息;第二步是地震解释,用于了解地层底部结构;第三步是测井评价和地质建模,也就是根据地震波了解到的地层情况构建模型;第四步是制定数据模拟开发方案。在石油勘探开发整个过程中,有了采集到的数据,只有通过石油行业专业软件,再综合人的经验和对地层的认识,才能最终找到原油并决定在哪里打井。

科研人员变身数据科学家 大数据成天津大港油田找油利器

天津大港油田信息中心有两个主要机房,第一机房服务于勘探科研生产,第二机房部署管理类系统。机房位于这个大楼中。

在这一整套流程中,数据的采集、获取、建模的最终目的,是让科研人员正确找到井位,并且还能估计出井的产能。但是范德军告诉记者,有时候一个油藏描述项目却要用三到四个月的时间来准备数据。“以我港东油田某区块为例,我们初步计划先打五口井,相应就需要研究这个油田是否满足打井条件。这时候收集地震处理、地震检测、测井数据以及井名、井深和井坐标就得花费三到四个月的时间;而如果再要把这些数据整理并录入到软件里,还需要一个科室人员的投入,而单单整理数据就占用了科研生产三分之一左右的时间。”

传统的数据收集整理方法不仅仅耗时耗力,而且石油行业软件都是大型专业软件,架构庞大、技术复杂,一般部署在Unix或者Linux操作系统上,底层采用Oracle数据库。对于科研人员来说,学会使用这些软件难度就非常大,日常维护管理更是难于上青天,毕竟他们不是IT人员,更不懂IT技术,而且单机运行会出现数据无法共享和数据丢失现象,迫切需要考虑一套行之有效的方法。

IBM Platform Computing提高30%科研生产效率
为此,天津大港油田从两年前开始尝试采用IBM Platform Computing搭建一个支撑油田勘探开发科研工作的云管理平台。这个平台是一个面向科研人员的平台,也就是真正把这些科研人员变成数据科学家,让他们通过这个平台寻找和定位井位。

Platform一如它的名字——平台,核心任务是负责对资源进行整合、调度,确保上层应用能够访问底层资源。作为一个平台,Platform Computing实际上跨越了好几个环节,包括数据的整理、数据的存储以及在这之上的大数据运算。在这之中,Platform Computing要充当管理职能,为这些系统提供快速响应以及合理、高效的应用。

就Platform Computing在天津大港油田的运用来看,据范德军介绍,今年天津大港油田计划通过Platform Computing收集、分析数据,从而支持开采100口井,从而支持油田每年500万吨油气当量的产能。为了支持庞大的数据管理、存储和分析,其实Platform Computing构建了一个云管理平台,云的特点包括灵活、可扩展和高效,这些特点被Platform Computing发挥到最大。

信息中心拥有既懂信息技术又懂专业技术的专门人才,依托Platform Computing的云管理平台,把石油勘探开发的研究人员从计算、硬件、存储、软件等繁琐并且不擅长的IT问题中解放出来,专攻科技。科研人员只要明确提出需要在哪个区块进行研究工作,信息中心就可以马上为该科研人员提供工具,做到协同研究环境中的统一管理。这样一组数据可能更有说服力,据范德军介绍, Platform Computing投入生产运行之后,科研生产效率提高30%左右;鉴于油田勘探开发生产涉及的专业特别多,实际上个别专业科研生产效率提升了10倍。

而具体到数据分析业务,哈里伯顿(Halliburton Company)、斯伦贝谢(Schlumberger)等行业软件基本上占领了石油行业软件市场,这些软件虽然本身带有数据分析功能,但是应用复杂并且信息无法共享,而Platform Computing提供了一个硬件资源、软件资源和数据资源集结的高性能计算平台,也让石油行业的数据分析业务取得质的飞跃。

成石油行业第一个协同研究云“尝鲜者”
天津大港油田信息中心目前拥有500人,具体从事信息化工作的人员数量在220人左右。信息中心有两个主要机房,第一机房服务于勘探科研生产,第二机房部署管理类系统。服务器节点达到近500台,总存储空间3个PB,机房面积在2000平米左右。单从人员数量和机房规模来看,天津大港油田信息中心并没有“豪华”配置,但是在石油行业,它却是第一家将协同研究云用于勘探科研生产的单位。

科研人员变身数据科学家 大数据成天津大港油田找油利器

天津大港油田信息中心机房服务器节点达到近500台,总存储空间3个PB,机房面积在2000平米左右。

从2008年开始,天津大港油田着手从虚拟化开始建立云平台,目前搭载了三个云:一个是以虚拟化为基础的基础设施云,目前可以提供200多套业务应用系统;第二个是桌面云,应用于机关部门人事、财务和党群员工的电脑桌面;第三个云,称为协同研究云,其重点在于支撑勘探科研生产工作。

协同研究云的最主要目的就是勘探科研生产工作,通过云管理平台的搭建,更好地把硬件资源集中起来。而勘探开发研究的专业软件调用的数据量特别大,建立模型非常复杂,运行速度会比较慢。云管理平台的工作原理在于,对硬件资源进行集中管理,根据不同业务需要来高效合理地分配资源,整个后台是一个统一集群,其上的硬件资源是浮动的,通过灵活的资源调度来支持扩展的应用。

提及对Platform Computing的选择,在范德军的介绍中记者得知,也经历了一个考验期。天津大港油田对开源产品一直报以非常开明的态度,在高性能计算方面,先后对Cluster Resources的Moab、Sun Grid进行了详细测试,而最终决定采用Platform Computing 的原因,还是基于Platform Computing作为成熟商业产品的优势:开源系统二次开放成本会比较高,而且需要一个持续较长时间的开发周期,而天津大港油田偏向于选择能够即刻投入到实际工作中去的产品,而且不需要投入精力进行漫长的开发。

在IBM收购Platform之后,其实已经改变了Platform Computing单纯作为一个软件产品的产业形态,IBM把Platform Computing并入硬件部门,这也就意味着Platform Computing在软硬件优化方面有着极大的优势,也被赋予重大的责任。Platform Computing并不是一个单一软件,称其为家族产品可能更合适,共包括上中下三层,三层实现协同。下层是基础设施层,由云管理平台来统一管理物理机和虚拟机共存的云环境,这是Platform的优势;中间层是应用调用层,IBM在这里做中间件的管理,负责整个作业的派发、调度、资源管理;再上一层就是最上层的应用层,各式各样的应用软件与中间层形成一个集成,使用底层由云平台提供的计算资源。

在记者看来,Platform Computing有三大优势:首先,完整性,整个大数据平台从设计开始是一套完整的系统,是集成化的;其次,性能。IBM的大数据平台在实时响应、快速处理等方面有严苛的要求;最后,是容易被大家所忽略的,那就是整个系统的开放性和兼容性。Platform Computing的设计理念就是一个跨平台的、面向不同应用的产品,众多应用场景、分析软件都跑在Platform Computing平台上,系统的开放性、兼容性非常好。

结束语
其实在很多时候,IT厂商所提供的产品或者解决方案必须要兼顾客户的成长,一成不变也就意味着保守和缺乏创新。在采访最后范德军表示,虽然选择Platform Computing的原因在于其比开源产品更加成熟以及稳定,但是这并不意味着开源就不好。天津大港油田IT专业人员的技术水平越来越高,而石油行业需要的支撑本行业的专业软件也非常多。Platform Computing在开放接口方面能否更加open甚至做到开源,给予石油行业用户更多基于Platform Computing进行二次开发的机会?这或许是成长中的客户,给予Platform Computing在未来的挑战。

原文发布时间为:2014年09月24日
本文作者:张晓楠
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
机器学习/深度学习 数据可视化 大数据
深度解析数据分析、大数据工程师和数据科学家的区别
数据越来越多的影响并塑造着那些我们每天都要交互的系统。不管是你使用Siri,google搜索,还是浏览facebook的好友动态,你都在消费者数据分析的结果。我们赋予了数据如此大的转变的能力,也难怪近几年越来越多的数据相关的角色被创造出来。
2168 0
|
算法 大数据 数据库
数据分析师、数据科学家、大数据专家三个职位的区别
版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。 https://blog.csdn.net/chszs/article/details/80658582 数据分析师、数据科学家、大数据专家三个职位的区别 2018.6.11 版权声明:本文为博主chszs的原创文章,未经博主允许不得转载。
1156 0
|
机器学习/深度学习 数据可视化 大数据