开发者社区> 青衫无名> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

浅析基于SQL Server PDW大数据解决方案

简介:
+关注继续查看
文章讲的是浅析基于SQL Server PDW大数据解决方案随着越来越多的组织的数据从GB、TB级迈向PB级,标志着整个社会的信息化水平正在迈入新的时代 – 大数据时代。对海量数据的处理、分析能力,日益成为组织在这个时代决胜未来的关键因素,而基于大数据的应用,也在潜移默化地渗透到社会的方方面面,影响到每一个人的日常生活,人们日常生活中看到的电视节目、浏览的网页、接收到的广告,都将是基于大数据分析之后提供的有针对性的内容。

  微软在大数据领域的战略重点,在于更好地帮助客户“消费”大数据,让所有的用户都能够从几乎任何规模任何类型的任何数据当中获得可以转化为业务执行的洞察力。基于这一战略,微软发布了新一代并行数据仓库一体机SQL Server Parallel Data Warehouse(简称PDW),提供大规模并行处理并具备灵活线性横向扩展能力的数据仓库平台,其主要新特性主要体现在以下3个方面:

  为大数据而建: 通过Polybase这一数据处理的突破性技术统一查询结构化、半结构划和非结构化数据,帮助用户使用最熟悉的标准SQL语言即可轻松实现Hadoop表和关系型数据库表的关联查询。同时,由于目前大部分常用的商业智能分析工具都无法直接查询Hadoop, 而Polybase技术通过从数据库平台层面对Hadoop的集成,使用户可以采用熟悉的现有商业智能工具即可实现对大数据的灵活分析和展现。例如,用户可以利用熟悉的Microsoft Excel在同一表格中分析结构化和非结构化的数据。

  新一代性能与规模:采用可更新的 xVelocity 聚集列存储技术,实现高至50倍的性能提升。基于大规模并行处理引擎技术,提供从几个TB到PB级数据的线性横向扩展能力。

  最优化的软硬件价值:SQL Server 并行数据仓库一体机具备预装的硬件和软件,集成了目前微软最新一代的软件创新技术如xVelocity 列存储、Polybase、Windows Server 2012 Hyper-V虚拟化技术,Storage Spaces存储技术等驱动精简高效的硬件架构,提供性价比优势。

  本文将深入介绍SQL Server 2012 Parallel Data Warehouse的Polybase技术,并结合具体业务场景示例讲解Polybase技术如何为业务人员提供简单易用的大数据解决方案。

  Polybase技术

  总体来讲,Polybase技术包含以下具体功能:

  用一个外部表来定义Hadoop中数据的结构。

  通过运行SQL语句实现对Hadoop数据的查询。

  通过PDW可关联查询Hadoop数据与关系型数据库PDW中的表,实现Hadoop与PDW数据的整合。

  通过运行SQL命令来查询Hadoop并将结果集保存到PDW的表中,轻松实现将Hadoop数据导入到PDW。

  Hadoop也可以作为PDW的一个在线数据归档系统,通过运行简单SQL命令即可将PDW中的数据导出到Hadoop,并随时通过PDW对归档在Hadoop中的数据进行在线查询。

  下面我们通过一个示例来进一步说明上述Polybase技术的应用场景及使用方法,在这个示例当中我们将基于与美国Sandy飓风相关的一些数据,通过对这些数据的分析来协助决策派往美国各州救援资源的调配计划。

  首先,在PDW关系型数据库中可以创建一张表[dbo].[nws_ffg7],存储来自于美国海洋气象局National Oceanic and Atmospheric Administration(简称NOAA)的数据。与SQL Server 2012的体验相同,我们可以通过标准的SQL Server Data Tools工具来连接PDW,如下图所示。基于[dbo].[nws_ffg7]表可以创建一个视图CREATE VIEW flashflood AS SELECT * FROM [dbo].[nws_ffg7]。通过查询flashflood视图返回的结果集可以看到,这张表里面主要存储美国各个州的名称、地理属性信息如经度、纬度,以及各州在未来多个时间段的降雨量预测信息,如未来1小时(HR1列)、3小时(HR3列)、6小时(HR6列)等等。

浅析基于SQL Server PDW大数据解决方案

  然后在Hadoop环境当中,我们将来自于另外一个数据源 – 美国人口调查局US Census Bureau的数据导入到Hadoop环境中,这个数据主要包括美国各州的具体人口分布信息。


作者:  徐志远

来源:IT168

原文链接:浅析基于SQL Server PDW大数据解决方案


版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
RDS SQL Server 自带证书开启TDE的解决方案
RDS SQL Server 自带证书开启TDE的解决方案
0 0
RDS SQL Server 通过链接服务器访问公网的解决方案
RDS SQL Server 开放了 Linked Server功能,但是默认只能在RDS之间,或者同VPC 下的ECS 自建SQL Server,实现Linkded Server 功能。本文将介绍,利用VPC SNAT 功能,实现RDS Linked Server 访问公网数据库的能力。
0 0
第十一篇:数据层解决方案 SQL NoSQL
第十一篇:数据层解决方案 SQL NoSQL
0 0
MySQL执行SQL文件出现【Unknown collation ‘utf8mb4_0900_ai_ci‘】的解决方案
MySQL执行SQL文件出现【Unknown collation ‘utf8mb4_0900_ai_ci‘】的解决方案
0 0
解决:为何Java执行插入sql,保存进数据库的中文内容会自动变成问号??【解决方案】
解决:为何Java执行插入sql,保存进数据库的中文内容会自动变成问号??【解决方案】
0 0
Java 执行 Postgresql Jdbc 类型异常时,复杂sql难定位的解决方案
Java 执行 Postgresql Jdbc 类型异常时,复杂sql难定位的解决方案
0 0
详解程序员常用的3大Web安全漏洞防御解决方案:XSS、CSRF及SQL注入
随着互联网的普及,网络安全变得越来越重要,程序员需要掌握最基本的web安全防范,在项目研发过程中才能防患于未然,下面列举一些常见的安全漏洞和对应的防御措施。
2577 0
捷信达温泉管理软件消费区域序号只能是一位数不完美解决方案SQL
捷信达温泉管理软件消费区域序号只能是一位数不完美解决方案SQL,反编译不了软件,只能修改数据层。 snWsPara --工作站参数维护snArea --消费区snAreaItemType --消费区、消费项目类型snItemType --消费类别设置以上数据表areaNO varchar(2) 修改成两位捷信达资料维护模块存在PB代码进行数据校验,所以后续添加消费区域,需要在数据库进行维护。
760 0
Pyhton连接SQL Server数据库解决方案
为了提高工作效率及便利性,拟自主开发一款一键自动化运维小工具;其中主要一项功能用于与SQL Server数据库进行交互,程序可以根据数据库中数据情况,调用对应函数逻辑,做出相应的操作,以达到自动化运维的效果;
1721 0
+关注
文章
问答
文章排行榜
最热
最新
相关电子书
更多
SQL Server云化思考与实践
立即下载
SQL Server在电子商务中的应用与实践
立即下载
用SQL做数据分析
立即下载