能够简化数据科学的6种工具

简介: 新的工具捆绑了数据清理,拖放式编程以及云计算,可以帮助任何熟悉电子表格的人充分利用数据科学的力量。

数据科学可能从来都不是那么容易的,但它正变得越来越容易深入。像“机器学习”、“回归”和“降维”这样的术语虽然依然和以往一样难以理解,但是人们正普遍希望能够从这些技术中获得好处,这导致产生了一些很好的工具,它们可以方便的为数据创建生产线,为我们想要寻找的答案提供支持。


这个秘密就类似于制造业的革命。正如标准化的部件帮助启动了工业革命一样,各种工具供应商的数据科学家已经开发了一系列非常强大、拥有广泛适应性的分析例程。他们标准化了接口,使得使用这些可互换的数据科学工具来构建自定义管道变得更加简单了。


数据科学家过去常常需要绞尽脑汁,因为80%的工作都是通过用Python,Java或他们喜欢的语言来制作自定义例程并准备分析数据的,所以R或SASS中那些复杂的统计工具都可以完成它们的工作。而现在市场上充斥着各种复杂的工具,它们将数百个经过良好设计的例程捆绑到了一个包中,以便为你完成大量重复且令人不快的数据清理和标准化工作。


这些新工具也为熟悉电子表格的人提供了机会。它们不会让所有的准备工作都消失,但它们会让事情变得更加容易。无需对数据格式大惊小怪,因为这些工具足够聪明,可以做正确的事情。通常你只要打开文件就可以开始学习了。


这些工具还为云计算节省了大量成本。过去,数据科学家往往需要更强大的计算机来处理大数据集。而现在我们可以在云中租用更大、更快的机器,在提高处理速度的同时在每月报表完成时将硬件返回到池中,从而节省成本。


对于只需要训练算法来预测明年趋势的核心数据科学家和数据分析师来说,这些工具都是一个福音。所有用户都可以享受使用复杂工具来正确处理数据的乐趣。不过,标准化也为全新的研究团队深入研究数据科学提供了可能。现在,你不需要掌握R语言或Python编程就可以开始了。


当然,我们仍然需要深入思考统计学和机器学习。这些工具虽然还不能回答关于什么情况下使用神经网络或聚类算法能够获得更好结果的策略性问题,但是它们可以使获取所有数据变得简单,并快速尝试这两种方法。当每个人能够更容易的参与工业革命时,正如标准化消除了长期学徒和熟练工匠的需求一样,这些数据工具也释放出了越来越多的企业人员转向复杂的数据分析以寻求进一步指导的潜力。


以下是有助于使数据科学实现民主化的六种工具。


Alteryx


Alteryx平台的核心是它的设计工具,一个可视化编程IDE,允许用户拖放图标,而不是输入文本程序。Alteryx平台的目标用户既包括数据科学家,也包括了普通的“公民用户”,很好的迎合了那些不想在清理数据和修改数据以进行分析的细节方面遇到麻烦的人。该平台试图通过使用其可视化的编程模型来简化准备工作以“颠覆数据准备中的80/20法则”。你只要将图标拖放到数据管道中的正确位置,它就可以应用许多标准化的任务,比如按客户编号来实现分组或连接两个文件。


Alteryx还提供了许多用于分析数据和绘图推断的预定义预测模型。这些看起来像是用于数据处理的图标,实际上都是相应的R或Python程序,Alteryx为你省去了处理它们的复杂性和基于文本编码的麻烦。在设计工具中,数据会自己沿着图标之间的直线流动,你不需要担心逗号、方括号或其他的编码问题。


现在,Alteryx平台正朝着一个更多的以服务器驱动的模式发展,在这个模型中,你构建的代码将驻留在一个可以扩展到更大数据集的服务器上。如果你的数据需要增强,Alteryx也已经从Dun & Bradstreet或DigitalGlob等公司获得了商业数据集授权,可以帮你自动填写表格。


当你在个人PC上完成模型的设计时,Alteryx也提供了将模型发布到中央服务器的基础设施,然后将图形化摘要分发给业务中的每一个人。Promote工具会负责将日常生产数据分发给企业中合适的人员,以便他们能够使用预测建模的结果。


这款设计工具的标价是每位用户每年5195美元,但是如果想要使用附加的功能,比如包含人口统计数据或空间数据的数据集,则可能会增加33,800美元。中央服务器的起价为58,500美元,此外,Promote还提供了用于协作和连接的额外功能。


Domino


Domino也是围绕实验室开始的一个可视化集成开发环境(IDE),能够通过将图标和管道连接在一起来构建模型。不同之处在于Domino也对其他工具开放。所有主要的和不太重要的基于Web的IDE都受到了支持,因为系统设计为所有这些IDE都进行了开放。大多数人可能会使用Jupyter或R-Studio,但其他工具,如Apache Zeppelin或SAS的工具也都得到了很好的支持。


Domino大部分的功能都致力于将数据转换为模型所需的所有基础设施。Domino的后端会仔细跟踪各种版本的数据以及在此过程中的所有修订和实验。所有这些变更都会被无情地保存并链接到结果当中,以确保你可以随时重新运行和复制结果。它非常强调存储查询的准确再现,以便其他人可以在稍后发现并重用该工作。


与单一平台相比,Domino更像是一个基于Web的云网络操作系统。该平台的开放性依赖于一种相对标准的机制,用于将数据存储在文件中并保持修订的一致性。幸运的是,磁盘存储比以往任何时候都要更加便宜。


Domino的主要卖点之一是它的云集成。你的实验将运行在与他人共享的强大机器池中。如果你碰巧希望将自己的代码部署到堆栈中,那么底层体系结构将完全围绕Docker来进行封装和构建。你可以为你的作业配置最佳大小,并从池中借用硬件,这对于数据科学工作来说是一个很好的解决方案,这些工作通常是断断续续的,并且在代码准备好时以块的形式进行分派。这是一个很好的解决方案,特别适用于那些在每周、每月或每季度数据准备就绪时才会进行批量处理大部分计算的情况。


Domino的定价是“根据Domino所运行的位置(我们的托管基础设施、你的私有云或内部环境)而定的年度订阅”。云选项将根据所消耗的资源对你进行收费。


RapidMiner


RapidMiner是一个将数据转换为可操作模型的自动化程度更高的工具。它的IDE允许用户将数据转换构建为由线来连接的图标集合的可视化描述。最有用的部分可能是其AutoModel功能,它可以根据你的数据和目标为你组装许多这样的图标。完成之后,你就可以打开模型并调整各个部分了。


有大量的扩展可以用来帮助你处理许多更奇特的挑战,比如理解从网站上下载下来的非结构化文本。还有许多用于处理时间序列数据的工具,例如用于重建丢失的数据元素以及形成(和测试)对未来的预测的工具。


如果你的数据集较大,RapidMiner也可以满足你的需求。那些拥有并行解决方案的人可以使用RapidMiner的拥有Hadoop和Hive集成的版本“Radoop”。还有一个基于服务器的解决方案,可以从AWS,Azure或您自己的本地服务器配置云计算机。基于服务器的生态系统促进了与集中的数据和分析存储库的协作,这些数据和分析可以安排在生产中交付报告和见解。


每种产品的定价模型都是独立的。桌面版有一个免费的社区版,但它缺少两个最吸引人的特性:用于清理数据的TurboPrep和用于生成结果的AutoModel。一个初级版本的价格为每位用户每年2,500美元起,该版本的数据行数限制为100,000行。更大的数据集和部署更多处理器的能力则需要更高的成本。在办公场所安装自己版本的服务器工具起价为15,000美元,但你也可以在RapidMiner的云版本上购买使用时间,起价为每小时6.75美元。


Knime


Knime是一个开源的数据分析平台,具有一个可视化的IDE,可以将各种数据处理和分析例程链接在一起。其核心软件是免费发布的,但是一些插件和扩展也有相应的商业版本,并且费用主要用于支持开发。你还可以使用在云中或你自己的计算机上运行的服务器版本。


该软件的基础是用Java编写的,所以Knime的许多集成都依赖于Java生态系统。用户也许会注意到Knime IDE是构建在Eclipse之上的,这使得Java开发人员可能会更加熟悉它。该平台可以处理所有主要的数据库(MySQL,PostgreSQL)和云服务(Amazon Athena,Redshift)中的数据以及任何其他具有JDBC兼容连接器的数据。Knime提供了一个与“数据库内处理”特别紧密的集成,这可以加速你的工作。它还集成了下一代的分布式数据工具,如Apache Spark。


它拥有一个强大的开源社区以支持大量的扩展和工作流程,可以自由使用,修改和定制,其大多数代码托管在GitHub或Bitbucket上。此外,它还有大量的商业扩展,并提供集成支持。


那些严重依赖Google Web应用程序的公司也可能会喜欢更深层次的集成。Knime可以读取和写入Google表格中的数据,这也是一种将数据分析引入经常使用Google电子表格的办公室的潜在有效方式。


其企业服务器产品有三种规格,包括了不同的额外功能。初级版本支持5个用户和8个核心,每年8500美元起,主要针对分析团队。而高级版本则允许你将结果分发给组织内的其他人。


Talend


Talend提供了一系列可以在桌面、本地数据中心或云中运行的应用程序。该公司的多层工具可以在转换数据并进行分析之前使用,它会从各个仓库和数据库中收集数据。例如,管道设计器提供了一个可视化设计工具,用于从各种数据源提取数据,然后可以使用标准工具或Python扩展对其进行分析。


其开源版本可以在几个包中免费获得,比如open Studio for Data Quality和Stitch数据加载器。云计算版本的起售价为每位用户每月1,170美元,年度用户和规模更大的团队也可享受折扣。价格是按人数计算的,而不是基于消耗的计算资源。而Data Fabric的定价则是通过报价来完成的。


Looker


Looker瞄准的是那些常因太多数据源和太多数据版本而引起混乱的用户。它的产品创建了一个可靠精确的、受版本控制的数据来源,可以由下游的任何用户操纵和绘制图表。从业务用户到后端开发人员,每个人都可以创建自己的仪表板,其中可以包含根据个人喜好配置的数据和图表。


该平台是围绕着开源世界的许多标准而构建的。数据和代码可以在Git的控制下发展。仪表板可视化则来自D3。你可以使用LookML来从SQL数据库中收集数据,LookML是一种类似于常规命令式编程语言的自定义查询语言。


谷歌最近宣布将收购Looker并将其集成到谷歌云中。这次收购将如何影响该平台还有待观察。其价格可按要求进行提供。


其他能够使数据更容易访问的工具


上述工具并不是改变我们处理数据方式的唯一选择。一些其他的工具和平台也在集成类似的想法。主要的云计算公司也都提供了分析存储系统中数据的工具。例如,Azure的Databricks提供了用于配置Apache Spark的灵活用户界面,而Data Factory则提供了一个用于提取,转换和加载所有数据的可视化工具。


一些工具会更侧重于机器学习和其他形式的人工智能。亚马逊的SageMaker简化了构建、培训和部署机器学习流程的工作,在一个开放的市场上提供了100多种算法和模型。H20.ai则提供了他们所谓的“无人驾驶AI”,这是一个使用Apache Spark构建的开源平台,可以用来简化模型创建和分析。


以上这些都集中在了一组工具集上,这些工具可以提升我们探索数据的能力,让我们更清楚地理解所有数字的含义。

相关文章
|
6月前
|
算法 数据挖掘 UED
BPPISE数据科学案例框架
BPPISE数据科学案例框架
|
27天前
|
机器学习/深度学习 数据采集 数据可视化
Python 数据分析:从零开始构建你的数据科学项目
【10月更文挑战第9天】Python 数据分析:从零开始构建你的数据科学项目
51 2
|
3月前
|
机器学习/深度学习 数据可视化 数据处理
Python vs R:机器学习项目中的实用性与生态系统比较
【8月更文第6天】Python 和 R 是数据科学和机器学习领域中最受欢迎的两种编程语言。两者都有各自的优点和适用场景,选择哪种语言取决于项目的具体需求、团队的技能水平以及个人偏好。本文将从实用性和生态系统两个方面进行比较,并提供代码示例来展示这两种语言在典型机器学习任务中的应用。
80 1
|
6月前
|
机器学习/深度学习 数据挖掘
如何构建高效的数据科学团队
【5月更文挑战第30天】构建高效数据科学团队的关键步骤:明确目标与职责,挑选具备技能和协作能力的成员,建立沟通机制,提供资源支持,设定评估体系,培养创新文化,持续优化。通过这些策略,确保团队能提供深入数据分析,驱动业务发展。
91 0
|
6月前
|
分布式计算 自然语言处理 Shell
命令行上的数据科学第二版:十、多语言数据科学
命令行上的数据科学第二版:十、多语言数据科学
45 0
|
机器学习/深度学习 存储 Cloud Native
开源与数据科学:一个完美的组合?
开源与数据科学:一个完美的组合?
56 0
|
机器学习/深度学习 人工智能 算法
Python编程入门基础及高级技能、Web开发、数据分析和机器学习与人工智能
Python编程入门基础及高级技能、Web开发、数据分析和机器学习与人工智能
175 0
|
算法 数据挖掘 API
【数据科学基础】学习笔记
数据科学基础与数据挖掘
176 0
|
数据挖掘 Python
数据科学的原理与技巧 一、数据科学的生命周期
一、数据科学的生命周期 原文:DS-100/textbook/notebooks/ch01 译者:飞龙 协议:CC BY-NC-SA 4.0 自豪地采用谷歌翻译 在数据科学中,我们使用大量不同的数据集来对世界做出结论。
968 0
|
机器学习/深度学习 自然语言处理 数据可视化
如何高效入门数据科学?
链接散落的教程文章,做个详细的导读,助你更高效入门数据科学。 问题 2017年6月以来,我陆续在自己的简书专栏《玉树芝兰》里,写了一系列数据科学教程。
2008 0
下一篇
无影云桌面