浅析基于SQL Server PDW大数据解决方案-阿里云开发者社区

浅析基于SQL Server PDW大数据解决方案

2017-09-01 2561

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

文章讲的是 浅析基于SQL Server PDW大数据解决方案，随着越来越多的组织的数据从GB、TB级迈向PB级，标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代。对海量数据的处理、分析能力，日益成为组织在这个时代决胜未来的关键因素，而基于大数据的应用，也在潜移默化地渗透到社会的方方面面，影响到每一个人的日常生活，人们日常生活中看到的电视节目、浏览的网页、接收到的广告，都将是基于大数据分析之后提供的有针对性的内容。

　　微软在大数据领域的战略重点，在于更好地帮助客户“消费”大数据，让所有的用户都能够从几乎任何规模任何类型的任何数据当中获得可以转化为业务执行的洞察力。基于这一战略，微软发布了新一代并行数据仓库一体机SQL Server Parallel Data Warehouse(简称PDW)，提供大规模并行处理并具备灵活线性横向扩展能力的数据仓库平台，其主要新特性主要体现在以下3个方面：

　　为大数据而建：通过Polybase这一数据处理的突破性技术统一查询结构化、半结构划和非结构化数据，帮助用户使用最熟悉的标准SQL语言即可轻松实现Hadoop表和关系型数据库表的关联查询。同时，由于目前大部分常用的商业智能分析工具都无法直接查询Hadoop，而Polybase技术通过从数据库平台层面对Hadoop的集成，使用户可以采用熟悉的现有商业智能工具即可实现对大数据的灵活分析和展现。例如，用户可以利用熟悉的Microsoft Excel在同一表格中分析结构化和非结构化的数据。

　　新一代性能与规模：采用可更新的 xVelocity 聚集列存储技术，实现高至50倍的性能提升。基于大规模并行处理引擎技术，提供从几个TB到PB级数据的线性横向扩展能力。

　　最优化的软硬件价值：SQL Server 并行数据仓库一体机具备预装的硬件和软件，集成了目前微软最新一代的软件创新技术如xVelocity 列存储、Polybase、Windows Server 2012 Hyper-V虚拟化技术，Storage Spaces存储技术等驱动精简高效的硬件架构，提供性价比优势。

　　本文将深入介绍SQL Server 2012 Parallel Data Warehouse的Polybase技术，并结合具体业务场景示例讲解Polybase技术如何为业务人员提供简单易用的大数据解决方案。

　　Polybase技术

　　总体来讲，Polybase技术包含以下具体功能：

　　用一个外部表来定义Hadoop中数据的结构。

　　通过运行SQL语句实现对Hadoop数据的查询。

　　通过PDW可关联查询Hadoop数据与关系型数据库PDW中的表，实现Hadoop与PDW数据的整合。

　　通过运行SQL命令来查询Hadoop并将结果集保存到PDW的表中，轻松实现将Hadoop数据导入到PDW。

　　Hadoop也可以作为PDW的一个在线数据归档系统，通过运行简单SQL命令即可将PDW中的数据导出到Hadoop，并随时通过PDW对归档在Hadoop中的数据进行在线查询。

　　下面我们通过一个示例来进一步说明上述Polybase技术的应用场景及使用方法，在这个示例当中我们将基于与美国Sandy飓风相关的一些数据，通过对这些数据的分析来协助决策派往美国各州救援资源的调配计划。

　　首先，在PDW关系型数据库中可以创建一张表[dbo].[nws_ffg7]，存储来自于美国海洋气象局National Oceanic and Atmospheric Administration(简称NOAA)的数据。与SQL Server 2012的体验相同，我们可以通过标准的SQL Server Data Tools工具来连接PDW，如下图所示。基于[dbo].[nws_ffg7]表可以创建一个视图CREATE VIEW flashflood AS SELECT * FROM [dbo].[nws_ffg7]。通过查询flashflood视图返回的结果集可以看到，这张表里面主要存储美国各个州的名称、地理属性信息如经度、纬度，以及各州在未来多个时间段的降雨量预测信息，如未来1小时(HR1列)、3小时(HR3列)、6小时(HR6列)等等。

　　然后在Hadoop环境当中，我们将来自于另外一个数据源 – 美国人口调查局US Census Bureau的数据导入到Hadoop环境中，这个数据主要包括美国各州的具体人口分布信息。

作者: 徐志远

来源：IT168

原文链接：浅析基于SQL Server PDW大数据解决方案

浅析基于SQL Server PDW大数据解决方案

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

浅析基于SQL Server PDW大数据解决方案

热门文章

最新文章

相关课程

相关电子书