SQL Server+Hadoop 变身大数据解决方案

简介:
文章讲的是 SQL Server+Hadoop 变身大数据解决方案在数据库市场中,微软的SQL Server是最受关注的产品之一。在数据库知识网站DB-Engines每月公布的数据库流行度排行榜中,SQL Server几乎稳占第二名的位置。但从这个榜单每月的变化中也可以看出,大量NoSQL数据库的排名不断上升,已经开始威胁到传统数据库的地位。

  “以不变应万变”不再是大数据时代应有的策略,老牌数据库厂商在保持传统市场领先的基础上,不断拓展新市场,微软就是其中的一个代表。微软的改变最早是为了向Bing提供高质量的搜索结果,这与Google的情况类似,互联网行业总是最早面临大数据挑战的。

SQL Server+Hadoop 变身大数据解决方案

  微软端到端的大数据解决方案可以总结为SQL Server、Windows Azure和Hadoop,用微软自己的话说就是数据管理、数据扩充和洞察力。下面笔者将按照自下而上的顺序盘点微软大数据解决方案的具体内容:

  一、数据管理

  在微软的大数据解决方案中,数据管理是最底层和最基础的一环。灵活的数据管理层,可以支持所有数据类型,包括结构化、半结构化和非结构化的静态或动态数据。在数据管理层中主要包括三款产品:SQL Server、SQL Server并行数据仓库和Hadoop on Windows。

  针对不同的数据类型,微软提供了不同的解决方案。具体来说,针对结构化数据可以使用SQL Server和SQL Server并行数据仓库处理;非结构化数据可以使用Windows Azure和Windows Server上基于Hadoop的发行版本处理;而流数据可以使用SQL Server StreamInsight管理,并提供接近实时的分析。

SQL Server+Hadoop 变身大数据解决方案

  1、SQL Server。去年发布的SQL Server 2012针对大数据做了很多改进,其中最重要的就是全面支持Hadoop,这也是SQL Server 2012与SQL Server 2008最重要的区别之一。今年年底即将正式发布的SQL Server 2014中,SQL Server进一步针对大数据加入内存数据库功能,从硬件角度加速数据的处理,也被看为是针对大数据的改进。

  2、SQL Server并行数据仓库。并行数据仓库(Parallel Data Warehouse Appliance,简称PDW)是在SQL Server 2008 R2中推出的新产品,目前已经成为微软主要的数据仓库产品,并将于今年发布基于SQL Server 2012的新款并行数据仓库一体机。SQL Server并行数据仓库采取的是大规模并行处理(MPP)架构,与传统的单机版SQL Server存在着根本上的不同,它将多种先进的数据存储与处理技术结合为一体,是微软大数据战略的重要组成部分。

  3、Hadoop on Windows。微软同时在Windows Azure平台和Windows Server上提供Hadoop,把Hadoop的高性能、高可扩展与微软产品易用、易部署的传统优势融合到一起,形成完整的大数据解决方案。微软大数据解决方案还通过简单的部署以及与Active Directory和System Center等组件的集成,为Hadoop提供了Windows的易用性和可管理性。凭借Windows Azure上基于Hadoop的服务,微软为其大数据解决方案在云端提供了灵活性。

  二、数据扩充

  社交媒体的兴起给企业带来独特的计划,以获取更多商业价值,最终实现竞争优势。微软大数据解决方案将数据和模型与公用的数据和服务(包括Twitter、Facebook和LinkedIn等社交媒体网站)相结合,从而能够实现突破性的发现。在数据扩充层,微软提供的最重要的平台是Windows Azure Marketplace。

  Windows Azure Marketplace是一个在线市场,用于购买和销售完成的软件即服务(SaaS)应用程序和高级数据集。Windows Azure Marketplace可以帮助将寻求基于云的创新解决方案的公司与开发了准备使用的解决方案的合作伙伴连接到一起,使客户能够使用Windows Azure Marketplace上的应用程序和挖掘算法来发现隐藏的模式。

SQL Server+Hadoop 变身大数据解决方案

  ·通过Windows Azure Marketplace进行共享和协作:微软大数据解决方案可让客户通过Windows Azure Marketplace共享数据并发现新的洞察力,Windows Azure Marketplace可通过开放数据协议(OData)展露数百种来自微软和第三方的应用程序和数据挖掘算法。

  ·与社交媒体集成:微软大数据解决方案可让客户通过来自社交媒体网站(例如Twitter和Facebook)的公用数据来扩展他们的分析。微软的一款代号为“Social Analytics”的基于云的项目允许企业将社交媒体信息与业务应用程序相集成。

  ·借助Hadoop执行高级分析:微软大数据解决方案支持传统的BI以及高级分析(例如数据挖掘和图形挖掘),从而可让客户从他们所有的数据中发现新价值。Hive ODBC Driver可让客户使用SQL Server数据挖掘工具执行预测分析。微软还将支持Mahout等其他高级分析工具,以及使用C++、C#、Python、Ruby和Pearl编写的挖掘算法。

  三、洞察力

  企业收集、存储和处理数据,最终目的还是要获得洞察力。企业需要能够轻松处理和分析PB 级的新数据,而不用担心建立复杂的分布式存储和计算集群,并且要能够随着需求的增加实现缩放。微软大数据解决方案可让客户用熟悉的BI工具从他们的结构化和非结构化数据中获得可执行的洞察力。

  从洞察力的层面,微软提供了两款主要的产品,分别是Office Powerpivot和SharePoint Power View。PowerPivot和Power View工具,能够帮助企业快速的从数据中发现信息,从而解决业务问题。其中,PowerPivot可以用来设计数据模型,Power View可以用来设计可视化报表,报表还可以发布到SharePoint平台上。最终用户能够根据自己业务视角及要求设计数据模型并展示出来,充分利用数据和前台界面的力量,满足业务需求。

SQL Server+Hadoop 变身大数据解决方案

  ·使用熟悉的工具分析Hadoop数据:微软可让用户利用Excel的Hive组件在熟悉的Excel环境中与Hadoop中的非结构化数据进行交互并加以分析。

  ·通过任何数据获得深入的洞察力:企业可以用熟悉的BI工具(例如Microsoft SQL Server Analysis Services (SSAS)、PowerPivot和Power View)通过Hive Open Database Connectivity (ODBC) Driver来分析Hadoop中的非结构化数据。企业还可以用SQL Server 2012上的PowerPivot和Power View对关系型数据采用自助服务的 BI 产品。

  ·通过简化的编程驱动洞察力:微软通过与.NET和新的JavaScript库集成简化了Hadoop的编程。开发人员可以在JavaScript中使用新的JavaScript库来轻松编写MapReduce程序,然后通过简单的浏览器来部署他们的JavaScript代码。

  小结

  微软的大数据解决方案从本质上看还是原有SQL Server和Office产品的升级,最大的亮点是在SQL Server、Windows Server和Windows Azure中都集成了Hadoop功能,使Hadoop成为连接这三者之间的桥梁。微软的大数据解决方案产品丰富、功能齐全,但相对缺乏创新。在用户看来,微软最大的特色就是产品的易用性和界面的友好性,这也是用户选择微软的主要原因。

相关实践学习
如何快速连接云数据库RDS MySQL
本场景介绍如何通过阿里云数据管理服务DMS快速连接云数据库RDS MySQL,然后进行数据表的CRUD操作。
相关文章
|
3月前
|
SQL 存储 分布式计算
【万字长文,建议收藏】《高性能ODPS SQL章法》——用古人智慧驾驭大数据战场
本文旨在帮助非专业数据研发但是有高频ODPS使用需求的同学们(如数分、算法、产品等)能够快速上手ODPS查询优化,实现高性能查数看数,避免日常工作中因SQL任务卡壳、失败等情况造成的工作产出delay甚至集群资源稳定性问题。
1082 36
【万字长文,建议收藏】《高性能ODPS SQL章法》——用古人智慧驾驭大数据战场
|
5月前
|
数据采集 人工智能 大数据
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
588 0
|
4月前
|
SQL 分布式计算 大数据
SparkSQL 入门指南:小白也能懂的大数据 SQL 处理神器
在大数据处理的领域,SparkSQL 是一种非常强大的工具,它可以让开发人员以 SQL 的方式处理和查询大规模数据集。SparkSQL 集成了 SQL 查询引擎和 Spark 的分布式计算引擎,使得我们可以在分布式环境下执行 SQL 查询,并能利用 Spark 的强大计算能力进行数据分析。
|
5月前
|
存储 SQL 分布式计算
MaxCompute x 聚水潭:基于近实时数仓解决方案构建统一增全量一体化数据链路
聚水潭作为中国领先的电商SaaS ERP服务商,致力于为88,400+客户提供全链路数字化解决方案。其核心ERP产品助力企业实现数据驱动的智能决策。为应对业务扩展带来的数据处理挑战,聚水潭采用MaxCompute近实时数仓Delta Table方案,有效提升数据新鲜度和计算效率,提效比例超200%,资源消耗显著降低。未来,聚水潭将进一步优化数据链路,结合MaxQA实现实时分析,赋能商家快速响应市场变化。
257 0
|
6月前
|
SQL 人工智能 分布式计算
别再只会写SQL了!这五个大数据趋势正在悄悄改变行业格局
别再只会写SQL了!这五个大数据趋势正在悄悄改变行业格局
129 0
|
8月前
|
负载均衡 算法 关系型数据库
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL集群架构负载均衡故障排除与解决方案
本文深入探讨 MySQL 集群架构负载均衡的常见故障及排除方法。涵盖请求分配不均、节点无法响应、负载均衡器故障等现象,介绍多种负载均衡算法及故障排除步骤,包括检查负载均衡器状态、调整算法、诊断修复节点故障等。还阐述了预防措施与确保系统稳定性的方法,如定期监控维护、备份恢复策略、团队协作与知识管理等。为确保 MySQL 数据库系统高可用性提供全面指导。
|
8月前
|
SQL 关系型数据库 MySQL
大数据新视界--大数据大厂之MySQL数据库课程设计:MySQL 数据库 SQL 语句调优方法详解(2-1)
本文深入介绍 MySQL 数据库 SQL 语句调优方法。涵盖分析查询执行计划,如使用 EXPLAIN 命令及理解关键指标;优化查询语句结构,包括避免子查询、减少函数使用、合理用索引列及避免 “OR”。还介绍了索引类型知识,如 B 树索引、哈希索引等。结合与 MySQL 数据库课程设计相关文章,强调 SQL 语句调优重要性。为提升数据库性能提供实用方法,适合数据库管理员和开发人员。
|
8月前
|
关系型数据库 MySQL 大数据
大数据新视界--大数据大厂之MySQL 数据库课程设计:MySQL 数据库 SQL 语句调优的进阶策略与实际案例(2-2)
本文延续前篇,深入探讨 MySQL 数据库 SQL 语句调优进阶策略。包括优化索引使用,介绍多种索引类型及避免索引失效等;调整数据库参数,如缓冲池、连接数和日志参数;还有分区表、垂直拆分等其他优化方法。通过实际案例分析展示调优效果。回顾与数据库课程设计相关文章,强调全面认识 MySQL 数据库重要性。为读者提供综合调优指导,确保数据库高效运行。
|
3月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
286 14