大数据时代的“找油利器”

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介:

能源行业迈入大数据时代

随着数据总量的持续增长和急速膨胀,大数据时代已经来临,石油、电力等能源细分行业纷纷拉开了大数据开发应用的序幕。如何从海量数据中高效获取信息,有效地深加工并最终得到有用数据是能源企业涉足大数据的目的。

对石油行业来说,众多企业正在把更多的新技术应用于战略决策、科技研发、生产经营和安全环保等各个领域,目的是为了从大数据资源中挖掘更多的财富和价值。大数据应用是石油行业信息化深入、IT与业务深度融合的必然趋势,在我国石油石化行业应用的前景将越来越广阔。随着石油储备的逐步减少,石油石化行业产业链中的勘探、开发难度日益增大, 信息化的成熟度已经成为影响行业增长幅度的首要因素。精准、快速的地质勘测成为世界能源巨头们倚重的核心竞争力之一,其中高性能计算技术和大数据技术的应用是关键因素。

油气勘探海量数据处理需要高性能计算   

目前在石油勘探中最常用的是地球物理方法。地球物理方法是使用现代物理方法进行地质勘探的方法,包括电法、磁法、重力法、放射性法、地震波法等,其中以地震波法最为重要。为了了解和模拟出地下数千米的地质构造,通过地震波反射方式来收集海量数据,一般二维数据可达1~2TB,三维数据可高达几百TB甚至PB级, 然后进行大量的密集计算和模拟,计算结果出来后还要转换成直观的可视画面,方便专家对数据进行解释,为油气钻井定位提供参考。因此,这些海量数据的处理只有借助高性能计算才能实现最佳的勘探效益,这也是在石油勘探领域高性能计算需求的主因。

由于石油勘探行业的特殊性和复杂性,石油勘探对高性能计算提出了非常苛刻的要求。过去十年中,石油勘探计算处理多采用大型机或高性能计算机,但目前高性能计算机系统在计算性能、系统建设与运行成本等方面已经面临着许多问题。让石油勘探企业感到颇为头痛的问题主要集中在三大困境:一是计算能力需求和CPU处理器性能落差越来越大,目前通过不断提高CPU处理器的工作频率来提高计算性能的技术路线已经逐步走向其极限;二是石油勘探高速增长的数据和存储扩容越来越不匹配;三是能耗制约越来越严重,高性能计算机的体积大、耗电多等弱点以及对庞大的计算机房空间需求、空调需求和用电量等已经成为石油勘探数据处理的一大挑战。

地震资料数据的大数据特征

BGP(中国石油集团东方地球物理公司)是中国石油天然气集团公司独资的地球物理专业化技术服务公司,主要从事陆地、浅海地震勘探采集、处理、解释及物探装备和软件研发,业务分布在全球34个国家,陆上地震勘探市场份额居全球第一位。现拥有2.6万员工,3000多IT人员和300多软件开发人员,在全球有23个处理中心,约9万CPU核和80万GPU核,运算能力约2PFlops,存储容量超过25PB。

中国石油集团东方地球物理公司研究院的总工程师赖能和先生曾在华为云计算大会2013上做了《大数据技术在石油勘探领域的应用》的主题演讲,对地震海量数据的采集与处理过程做了详细阐释。

石油勘探过程产生的大数据有自己独特的“4V”特征:

1、     数据海量:以BGP为例,每天会产生大于7TB的生产数据,在地震资料处理过程中还会产生大量的中间过程数据。

2、     数据来源单一:地震资料数据是由人工模拟地震波激发,由定点采集仪器接收和采集到的,数据来源和数据格式都比较单一。

3、     计算量大:以BGP为例,54TB的原始数据通过4000个CPU 的计算集群处理,需要50多天时间。

4、     处理流程复杂:地震资料处理过程涉及到频繁的IO和数据库,操作复杂。

地震数据的快速增长对于存储提出了巨大需求,也对传统的HPC软硬件架构提出了新的挑战。

华为石油勘探HPC解决方案实现高计算、大存储能力

针对石油行业的特点和需求,华为提出了石油勘探HPC解决方案,包含以下几个部分:

大数据时代的“找油利器”

1、计算集群系统

计算节点和胖节点采用华为刀片服务器,提供强大的计算能力,特别是浮点计算能力,以完成地震资料处理中巨大的计算任务。

2、存储系统

存储部分采用华为OceanStor 9000大数据存储系统(简称OceanStor 9000)。

与传统的NFS和lustre方案不同,OceanStor 9000采用全对称分布式架构,每个节点都可以提供IO和存储单元,提供业务访问、数据处理和存储的能力,因此可以轻松完成节点扩容,实现系统性能和容量的线性扩展。

其全对称Scale-out架构,通过集群模式、自动负载均衡、全局缓存等技术来整合和管理系统资源,有效提升存储系统性能,缩短地震资料处理的作业周期。OceanStor 9000还具备高可靠性和硬件容错能力,保障作业正常运行。它还能提供灵活的组网方式,前后端网络均支持Infiniband或者10GE以太网高速互联,能有效满足石油勘探HPC场景的高带宽、低时延需求

3、网络互联

采用计算网络、存储网络和管理网络分离的方式。计算网络采用万兆以太网,承担并行计算时的数据通讯。管理网络采用千兆以太网,用于HPC集群系统的管理和监控。存储网络采用10GE以太网或40GE的Infiniband网络,为主机访问数据文件提供高速的网络互联。

原文发布时间为:2014年04月15日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
存储 分布式计算 数据可视化
大数据常用技术与工具
【10月更文挑战第16天】
121 4
|
5月前
|
机器学习/深度学习 存储 分布式计算
驾驭数据洪流:大数据处理的技术与应用
大数据处理不仅是信息技术领域的一个热门话题,也是推动各行各业创新和发展的重要力量。随着技术的进步和社会需求的变化,大数据处理将继续发挥其核心作用,为企业创造更多的商业价值和社会贡献。未来,大数据处理将更加注重智能化、实时性和安全性,以应对不断增长的数据挑战。
|
7月前
|
存储 分布式计算 算法
大数据处理:挖掘价值之道
大数据处理:挖掘价值之道
|
监控 Java Apache
开源大数据利器汇总
类别 名称 官网 备注 查询引擎 Phoenix http://phoenix.
1559 0
|
大数据 Linux Apache
大数据从业者应该知道的开源工具(全)
前言 想要成为大数据工程师这些开源工具你要有所了解 一、Hadoop相关工具 1. Hadoop Apache的Hadoop项目已几乎与大数据划上了等号。
1103 0