2013 Bossie评选:最佳开源大数据工具

简介: MapReduce的出现是为了突破数据库的局限。Giraph、Hama以及Impala等工具的出现则是为了突破MapReduce的局限。虽然上述方案的运行都需要以Hadoop为基础,但图形、文档、列式以及其它NoSQL数据库也是大数据当中不可或缺的组成部分。

MapReduce的出现是为了突破数据库的局限。Giraph、Hama以及Impala等工具的出现则是为了突破MapReduce的局限。虽然上述方案的运行都需要以Hadoop为基础,但图形、文档、列式以及其它NoSQL数据库也是大数据当中不可或缺的组成部分。


  哪款大数据工具能够满足您的需求?这个问题在如今解决方案数量迅速增长的背景之下,确实不容易回答。


  Apache Hadoop

  当人们说起“大数据”或者“数据科学”时,他们指的往往是Hadoop项目。总体而言,Hadoop借用了MapReduce的框架,但该项目同时包含大量与数据存储及处理密切相关的重要工具。与MapReduce 2.0相似,全新YARN框架的出现标志着Hadoop迈出了发展道路上的关键步伐。大家可以期待着这一轮大数据浪潮很快出现在各位的业务环境当中。

  目前还没有任何一家重量级新兴企业依靠Apache项目的支持,但Hadoop在这方面的人气则更高一些。分析人士预计,Hadoop将最终构建起年市值高达数百亿美元的巨大市场。大家千万别因为预算紧张而错过了这一波发展良机。

  -- Andrew C. Oliver

  官方网站:http://hadoop.apache.org/


  Apache Sqoop

  说起大数据处理,大家最先想到的肯定是Hadoop;但这并不代表传统数据库就无法胜任这项工作。事实上,多数情况下我们仍然需要从传统数据库中提取分析所需的数据,而这正是Apache Sqoop的长项。

  Sqoop能够有效提高传统数据库系统与Hadoop之间的数据转换效率,这是因为它采用了并发连接、可定制数据类型映射以及元数据传播等一系列技术。大家可以将数据(例如纯新数据)导入至HDFS、Hive以及HBase当中,也能够将分析结果返回到传统数据库端。Sqoop还可以管理数据连接器带来的内存复杂性以及存在匹配失误的数据格式。

  -- James R. Borck

  官方网站:http://sqoop.apache.org/


  Talend Open Studio for Big Data

  Talend Open Studio for Big Data允许大家直接向Hadoop中载入文件(通过HDFS、Hive以及Sqoop等),而且无需进行手动编码。其图形化IDE所生成的原生Hadoop代码(支持YARN/MapReduce 2)能够利用Hadoop分布式环境实现大规模数据转换。

  Talend的虚拟映射工具允许用户创建数据流并在无需涉及Pig的前提下加以测试。此外,项目进度安排与工作优化工具也进一步增强的工具包的功能阵容。

  着手对大量数据进行整理分析的第一步,是将数据从多种来源处汇聚到Hadoop当中,而后再由Hadoop转移至其它平台。Talend Open Studio帮助大家在处理迁移流程时随心所欲,完全不必为担任复杂性而担忧。

  -- James R. Borck

  官方网站:http://www.talend.com/products/big-data


  Apache Giraph

  Apache Giraph是一套图形处理系统,专为高扩展性及高可用性需求所打造。作为谷歌Pregel的开源替代方案,Giraph已经被Facebook公司用于分析用户社交图谱及其彼此关联。这套系统采用了来自Pregel的高效整体同步并行处理模式,从而避免了MapReduce在处理图形内容时存在的固有问题。好消息是:Giraph计算进程可在大家的现有Hadoop基础设施中作为Hadoop任务运行。只要同时运行其它一些同类工具,大家就相当于获得了分布式图形处理能力。

  -- Indika Kotakadeniya

  官方网站:http://giraph.apache.org/


  Apache Hama

  与Giraph类似,Apache Hama同样将整体同步并行处理机制引入Hadoop生态系统当中,而且以Hadoop分布式文件系统作为运行基础。不过与专注于图形处理任务的Giraph不同,Hama是一套更具通行特性的框架,旨在执行大量模型与图像计算任务。它将Hadoop的良好兼容性与更为灵活的编程模式结合起来,为数据密集型科学应用提供出色的运行基础。

  -- Indika Kotakadeniya

  http://hama.apache.org/


  Cloudera Impala

  Cloudera Impala在实时SQL查询中的意义,可以等同于MapReduce在批量处理领域的重要作用。Impala引擎位于Hadoop集群的每一个数据节点当中,从而灵活地侦听查询请求。经过对查询的分析之后,它会通过优化生成一套执行规划,并在集群中的计算节点之间负责并行处理的协调工作。通过上述努力,Impala为用户在Haoop环境下带来更低的SQL查询延迟,并以接近实时的状态对大数据加以理解。

  由于Impala也能直接使用大家的原生Hadoop基础设施(例如HDFS、HBase以及Hive元数据),多方配合将构成一整统一平台,用户可以在不涉及连接器复杂性、ETL或者昂贵数据仓库等机制的前提下实现全面数据分析。此外,Impala可以从任何ODBC/JDBC源处轻松获取,所以能够成为Pentaho等商务智能工具包中的理想组件。

  -- James R. Borck

  官方网站:http://www.cloudera.com/content/cloudera/en/home.html


  Serengeti

  作为VMware将虚拟化带入大数据处理领域的重要项目,Serengeti允许大家将Hadoop集群以动态方式运行在共享式服务器基础设施当中。该项目利用Apache Hadoop虚拟化扩展——由VMware开发并贡献——从而使Hadoop成功步入虚拟化环境。

  在Serengeti的帮助下,我们可以在几分钟之内完成Hadoop集群环境部署,且不必涉及节点布局、HA状态或者作业调度等令人头痛的配置选项。进一步讲,通过在每台主机内的多套虚拟机系统中部署Hadoop,Serengeti能够将数据及计算功能加以划分,并在维护本地数据存储的同时改进计算规模。

  -- James R. Borck

  官方网站:http://projectserengeti.org/


  Apache Drill

  Apache Drill的设计灵感源自谷歌Dremel系统,旨在为大规模数据集带来极低的交互分析延迟。Drill支持多种数据来源,包括HBase、Cassandra、MongoDB以及传统关系数据库。Hadoop虽然能为我们带来可观的数据吞吐能力,但分析其中的内容则要花费数分钟甚至数小时时间。在Drill的帮助下,大家将拥有理想的响应速度,从而实现交互式操作;这样一来,快速分析并获取有价值结论将变得轻松而愉快。

  -- Steven Nu?ez

  官方网站:http://incubator.apache.org/drill/


  Gephi

  图形理论已经全面延伸到应用程序的各个领域。我们可以利用链式分析调查相关贸易商与员工,从而揪出可疑的交易活动。一旦明晰系统内关键性连接点的状况,我们就能以直观方式审视复杂的IT环境。在多位专家、企业联合组织的开发活动中,Gephi作为一款可视性发现工具,能够支持多种图形类型以及高达百万级别的网络节点规模。大家可以从维基、论坛以及各类教学网站上找到丰富的指导性资料,活跃的技术社区也为我们带来层出不穷的插件选项——总而言之,大家在使用Gephi的过程中很可能无需从零做起。

  -- Steven Nu?ez


  Neo4j

  作为一款具备敏捷性且速度极为出众的图形数据库,Neo4j能够以多种方式为用户提供帮助,包括社交应用、推荐引擎、欺诈活动检测、资源验证以及数据中心网络管理等等。Neo4j目前在性能提升(查询结果流处理速度)及集群化/HA支持表现方面仍然处于稳步发展当中。

  -- Michael Scarlett

  官方网站:http://www.neo4j.org/


  MongoDB

  在众多NoSQL数据库当中,最具人气的也许要数MongDB。它采用二元形式JSON文档实现数据存储,从而支持多种多样的文档形式、帮助开发人员获得远超过传统关系数据库的自由发挥空间——后者强制要求我们在众多列表之间使用严格的平面开发模式。除此之外,MongoDB还提供开发人员需要从关系数据库中获得的全部功能。

  2013年对于MongoDB发展史来说相当重要,今年我们迎来了两款新版本外加一系列新功能,其中包括文本搜索以及地理空间支持。新版本在性能改进方面也表现出色,例如采用并发式索引机制以及速度更快的JavaScript引擎(V8)。

  -- Michael Scarlett

  官方网站:http://www.mongodb.com/


  Couchbase Server

  与其它NoSQL数据库类似且与大部分关系数据库不同,Couchbase Server并不要求用户在插入数据之前首先创建什么架构。Couchbase Server的特性之一在于其内存缓存库。这项功能允许开发人员以无缝化方式由内存缓存环境向其它体系过渡,数据复制效果与而用性都令人满意,而且不会给应用程序造成停机。其2.0版本还增加了文档数据库功能。2.1版本在此基础上纳入跨数据中心复制与更为强大的存储性能。

  -- Michael Scarlett

  官方网站:http://www.couchbase.com/why-nosql/nosql-database


  Paradigm4 SciDB

  SciDB是一套分布式数据库系统,利用并行处理对数据流进行实时分析。该系统的全部关注重点都放在大量科学数据集的支持效果上。它回避了关系数据库中常见的行、列模式,转而使用更适合有序数据集——例如时间序列及位置数据——的原生数列结构。与关系数据库或者MaoReduce不同,SciDB提供一套统一解决方案,能够在不涉及Hadoop多层基础设施与数据信息内容的前提下实现跨集群扩展。

  -- James R. Borck

  官方网站:http://scidb.org/


原文发布时间为:2013-10-03


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
9月前
|
SQL 人工智能 分布式计算
拥抱数据洪流:ODPS,从工具到智能基石的认知跃迁
ODPS正从计算工具进化为智能基石,重塑数据价值链条。它不仅是效率引擎,更是决策资产、信任桥梁与预见系统。其创新架构支持存算分离、AI融合计算与隐私保护,助力企业迎接AI革命。未来,ODPS将推动绿色智能,成为组织数字化转型的核心支撑平台。
256 3
|
存储 分布式计算 数据可视化
大数据常用技术与工具
【10月更文挑战第16天】
867 4
|
分布式计算 大数据 数据处理
从Excel到大数据:别让工具限制你的思维!
从Excel到大数据:别让工具限制你的思维!
548 85
|
11月前
|
人工智能 算法 自动驾驶
AI和大数据:是工具,还是操控人心的“隐形之手”?
AI和大数据:是工具,还是操控人心的“隐形之手”?
239 1
|
分布式计算 DataWorks 关系型数据库
MaxCompute 生态系统中的数据集成工具
【8月更文第31天】在大数据时代,数据集成对于构建高效的数据处理流水线至关重要。阿里云的 MaxCompute 是一个用于处理大规模数据集的服务平台,它提供了强大的计算能力和丰富的生态系统工具来帮助用户管理和处理数据。本文将详细介绍如何使用 DataWorks 这样的工具将 MaxCompute 整合到整个数据处理流程中,以便更有效地管理数据生命周期。
485 0
|
数据可视化 大数据 定位技术
GIS:开源webgl大数据地图类库整理
GIS:开源webgl大数据地图类库整理
761 0
|
分布式计算 大数据 流计算
玩转数据:初学者的大数据处理工具指南
玩转数据:初学者的大数据处理工具指南
418 14
|
JSON 分布式计算 DataX
【YashanDB知识库】使用DataX工具迁移yashan数据到maxcompute
本文介绍使用崖山适配的DataX工具进行数据库迁移的方法,包括单表迁移和批量表迁移。单表迁移需配置json文件并执行同步命令;批量迁移则通过脚本自动化生成json配置文件并完成数据迁移,最后提供数据比对功能验证迁移结果。具体步骤涵盖连接信息配置、表清单获取、json文件生成、数据迁移执行及日志记录,确保数据一致性。相关工具和脚本简化了复杂迁移过程,提升效率。
|
分布式计算 大数据 Serverless
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
在2024云栖大会开源大数据专场上,阿里云宣布推出实时计算Flink产品的新一代向量化流计算引擎Flash,该引擎100%兼容Apache Flink标准,性能提升5-10倍,助力企业降本增效。此外,EMR Serverless Spark产品启动商业化,提供全托管Serverless服务,性能提升300%,并支持弹性伸缩与按量付费。七猫免费小说也分享了其在云上数据仓库治理的成功实践。其次 Flink Forward Asia 2024 将于11月在上海举行,欢迎报名参加。
960 6
云栖实录 | 开源大数据全面升级:Native 核心引擎、Serverless 化、湖仓架构引领云上大数据发展
|
关系型数据库 分布式数据库 数据库
PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具
在数字化时代,企业面对海量数据的挑战,PolarDB 以其出色的性能和可扩展性,成为大数据分析的重要工具。它不仅支持高速数据读写,还通过数据分区、索引优化等策略提升分析效率,适用于电商、金融等多个行业,助力企业精准决策。
354 4
下一篇
开通oss服务