引言
编程是数据科学的一个组成部分。事实上,理解编程逻辑、循环和函数的人更有可能成为成功的数据科学家。但那些在学校里从未学习过编程的人怎么办?
难道他们就没办法成为一名数据科学家了吗?
近年来,随着数据科学的蓬勃发展,许多人都有兴趣进入这个领域。但对编程却一筹莫展。事实上,在我的第一份工作之前,我也是非编程联盟的成员。因此,我明白当一个你从未学过的东西在任何一步都困扰着你的时候,有多么可怕。
好消息是无论你的编程技巧如何,你都有办法成为数据科学家!有一些工具可以避免编程,并提供用户友好的GUI(图形用户界面),因此任何对算法知之甚少的人都可以简单地使用它们来构建高质量的机器学习模型。
许多公司(尤其是初创公司)最近推出了GUI驱动的数据科学工具。我尽力在本文中介绍一些重要的工具,并尽可能提供视频。
注意:所有提供的信息都是从开源信息源收集的。我们只是展示一些事实而不是观点。我们决不会尝试宣传或为任何产品/服务打广告。
以下是本次介绍的工具列表:
1. RapidMiner
介绍视频:
https://www.youtube.com/embed/ma14K56fNAM?feature=oembed&width=500&height=750
RapidMiner(RM)最初于2006年作为一款名为Rapid-I的开源独立软件被启动。多年来,他们以RapidMiner的名字给它命名,并获得了约3500万美元的资金。该工具的旧版本(低于v6)是开源的,但最新版本会有14天的试用期并在此之后需要许可证。
RM涵盖了预测建模的整个生命周期,从数据准备到建模,最后验证和部署。GUI基于一个框图方法,与Matlab Simulink非常相似。有预定义的块用作即插即用设备。你只需要以正确的方式连接它们,就可以在没有一行代码的情况下运行各种各样的算法。最重要的是,它们允许将自定义的R和Python脚本集成到系统中。
目前的产品包括以下内容:
RapidMiner Studio:一款可用于数据准备、可视化和统计建模的独立软件。
RapidMiner服务器:它是一个企业级环境,具有中央存储库,可以轻松进行团队工作,项目管理和模型部署。
RapidMiner Radoop:实现以Hadoop为中心的大数据分析功能。
RapidMiner Cloud:一个基于云的存储库,可以轻松地在各种设备之间共享信息。
RM目前已经应用于汽车、银行、保险、生命科学、制造业、石油和天然气、零售、电信和公用事业等各个行业。
2. DataRobot
链接:
https://www.datarobot.com/
介绍视频:
https://youtu.be/wZCNKDX1q4o
DataRobot(DR)是一款高度自动化的机器学习平台,由全球最好的Kagglers构建,包括Jeremy Achin,Thoman DeGodoy和Owen Zhang。该平台声称已经消除了对数据科学家的需求。这从他们网站的一句话中可以明显看出 - “数据科学需要数学和统计资质、编程技能和商业知识。借助DataRobot,你只需提供商业知识和数据,而我们的尖端自动化负责其余部分。”
DR宣称具有以下优点:
模型优化:
平台通过采用文本挖掘、变量类型检测、编码、插补、缩放、转换等自动检测最佳数据预处理和特征工程。
根据误差度量和验证集合分数自动选择超参数。
并行处理:
计算被分给数千个多核服务器。
使用分布式算法来扩展到大型数据集。
部署:
只需点击几下即可轻松部署设施(无需编写任何新代码)。
对于软件工程师:
Python SDK和API可用于将模型快速集成到工具和软件中。
3. BigML
链接:
https://bigml.com/
介绍视频:
https://youtu.be/JVM8qIn3xPQ
BigML提供了一个良好的图形用户界面,可以让用户通过以下6个步骤掌握:
来源:使用各种信息来源
数据集:使用定义的源创建数据集
模型:制作预测模型
预测:基于模型生成预测
合成:创建各种模型的合成
评估:针对验证集的非常模型
这些过程显然会以不同的顺序迭代。BigML平台提供了很好的结果可视化,并具有求解分类、回归、聚类、异常检测和关联发现问题的算法。他们提供按月、季度和年度订阅捆绑在一起的几个软件包。他们甚至提供免费套餐,但上传数据集的大小限制为16MB。
您可以通过他们的YouTube频道了解他们的界面如何运作。
4. Google Cloud AutoML
链接:
https://cloud.google.com/automl/
介绍视频:
https://youtu.be/GbLQE2C181U
Cloud AutoML是Google机器学习组件的一部分,它允许有限ML专业知识的人员来构建高质量模型。作为Cloud AutoML产品组合的一部分,第一款产品是Cloud AutoMLVision。该服务使得训练图像识别模型变得更加简单。它具有拖放界面,可以让您上传图像,训练模型,然后直接在Google Cloud上部署这些模型。
Cloud AutoML Vision基于Google的迁移学习和神经架构搜索等技术。这个工具已经被很多组织所使用。看看这篇文章,看看AutoML在两个惊人的现实生活例子的表现,以及它如何产生比任何其他工具更好的结果。
5. Paxata
链接:
https://www.paxata.com/
介绍视频:
https://youtu.be/bxxsCLmXmms
Paxata是少数几家专注于数据清洗和预处理的组织之一,而不是机器学习或统计建模部分。这是一个易于使用的MS Excel类应用程序。它还提供了可视化的指导,可以轻松地将数据汇集在一起,查找并修复数据中混杂的噪音或缺失,以及在团队之间共享和重复使用数据项目。与本文中提到的其他工具一样,Paxata取消了编码或脚本,从而克服了处理数据所涉及的技术障碍。
Paxata平台遵循以下流程:
添加日期:使用广泛的来源获取数据。
探查:使用强大的视觉效果进行数据探查,使用户可以轻松识别数据中的空白。
清理+更改:使用插补等步骤执行数据清理,使用NLP对相似值进行规范化,检测重复值。
形状:制作数据的枢纽,执行分组和聚合。
分享+管理:允许在强有力的身份验证和授权的情况下进行分享和协作。
结合:专有技术称为SmartFusion允许通过1次点击结合数据帧,因为它可以自动检测到最佳组合;多个数据集可以组合成一个AnswerSet。
商务智能工具:可以在常用的商务智能工具中轻松实现最终答案集的可视化;还可以轻松实现数据预处理和可视化之间的迭代。
Praxata已经涉足金融服务、消费品和网络领域。如果您的工作需要大量数据清洗,它可能是一个很好的工具。
6. Trifacta
链接:
https://www.trifacta.com/
介绍视频:
https://youtu.be/L-jWAsJNmAU
Trifacta是另一家重点关注数据预处理的创业公司。它有3种产品:
Wrangler:一款免费的独立软件。允许处理多达100MB的数据。
WranglerPro:上述的升级版本。它允许单用户和多用户并且数据量限制为40GB。
WranglerEnterprise:Trifacta的终极产品。它对处理的数据量没有任何限制,并允许无限制的用户。非常适合大型组织。
Trifacta提供了一个非常直观的GUI来执行数据清洗。它将数据作为输入并按列提供各种统计数据的摘要。另外,对于每一列,它都会自动推荐一些可以通过单击进行选择的转换。可以使用一些预先定义的函数对数据执行各种转换,这些函数可以在界面中轻松调用。
Trifacta平台使用以下数据准备步骤:
发现:首先看看数据和分布,以便快速了解您的具体情况。
结构:为数据分配适当的形态和变量类型并解决异常。
清理:此步骤包括插补、文本标准化等过程。这是使数据模型准备就绪所必需的一步。
充实:此步骤有助于提高分析的质量,可以通过添加更多数据源或对现有数据执行一些功能工程来完成。
验证:此步骤对数据执行最终检测。
发布:最后将数据导出以供进一步使用。
Trifacta主要应用于金融、生命科学和电信行业。
7. MLBase
链接:
http://mlbase.org/
介绍视频:
https://youtu.be/W-WPclNo8v0
MLBase是加州大学伯克利分校的AMP(算法机器人)实验室开发的一个开源项目。背后的核心思想是为机器学习应用于大规模问题提供一个简单的解决方案。
它有3种产品:
MLlib:它是Apache Spark中的核心分布式ML库。它最初是作为MLBase项目的一部分开发的,但现在Spark社区也支持它。
MLI:用于特征提取和算法开发的实验性API,它引入了高级ML编程抽象。
ML优化器:该层旨在自动执行ML管道构建任务。优化器通过包含在MLI和MLlib中的特征提取器和ML算法来解决搜索问题。
8. Auto-WEKA
链接:
http://www.cs.ubc.ca/labs/beta/Projects/autoweka/
介绍视频:
https://youtu.be/LcHw2ph6bss?list=PLm4W7_iX_v4NqPUjceOGd-OKNVO4c_cPD
Auto-WEKA是一个用Java编写的数据挖掘软件,由新西兰怀卡托大学的机器学习小组开发。这是一个基于GUI的工具,对数据科学初学者非常有用。它的最大优点是它是开源的,开发人员提供了教程和论文来帮助你入门。你可以在AV的文章中了解更多相关信息。目前它主要应用于教育和学术目的。
9. Driverless AI
链接:
https://www.h2o.ai/driverless-ai/
介绍视频:
https://youtu.be/KkvWX3FD7yI
Driverless AI是支持自动机器学习的h2o.ai企业的神奇平台。这个链接上可以使用1月试用版的docker映像。您只需使用简单的下拉列表选择文件来训练,测试并指定您想要跟踪模型性能的指标。坐下来,看着界面直观的平台在你的数据集上训练出优秀的结果,并能与一个经验丰富的数据科学家能够提出的好解决方案相比。
这些是Driverless AI 的业务功能:
它支持XGBOOST,GLM和K-Means等多GPU支持,即使对于大型复杂数据集也能提供出色的训练速度。
自动功能工程,调整和综合各种模型以产生高度准确的预测。
在训练过程中,有解释模型以及用于实时特征重要性排序的面板的强大功能。
10. Microsoft Azure ML Studio
链接:
https://studio.azureml.net/
介绍视频:
https://youtu.be/tW1JV6bHXFA
当这个领域有这么多大牌玩家时,微软怎么会落后?Azure ML Studio是一个简单却强大的基于浏览器的ML平台。它有一个可视化的拖放环境,不需要编程。他们已经为新手发布了全面的教程和示例实验,可以帮助他们快速掌握该工具。
它采用简单的五个步骤:
导入数据集。
如有必要,执行数据清洗和其他预处理步骤。
将数据分解为训练和测试集。
应用内置ML算法来训练您的模型。
评价你的模型,并得到你的预测!
11. MLJar
链接:
https://mljar.com/
介绍视频:
https://youtu.be/ijmw94h4qCk
MLJar是一个基于浏览器的平台,用于快速构建和部署机器学习模型。它有一个直观的界面,并允许您并行地训练模型。它具有内置的超参数搜索功能,可以更轻松地部署模型。MLJar提供与NVIDIA的CUDA,python,TensorFlow等的集成。
你只需要执行三个步骤来建立一个不错的模型:
上传你的数据集。
训练和调整许多机器学习算法并选择最佳的算法。
使用最佳模型进行预测并分享您的结果。
目前该工具用于订阅版本。它有一个免费的版本并且有0.25GB的数据集限制。这绝对值得一试。
12. Amazon Lex
链接:
https://aws.amazon.com/cn/lex/
介绍视频:
https://youtu.be/d3LYlNqfuzI
Amazon Lex提供了一个易于使用的控制台,可在几分钟内构建自己的聊天机器人。您可以使用Lex在应用程序或网站中构建对话界面。所有你需要做的是提供一些短语,Amazon Lex完成其余步骤!它构建了一个完整的自然语言模型,使用该模型,客户可以使用语音和文本与应用程序进行交互。
它还内置了与亚马逊网络服务(AWS)平台的集成。Amazon Lex是一项完全托管服务,因此您的用户参与度不断增加,您无需担心配置硬件和管理基础设施以提高您的机器人体验。
13. IBM Wastson Studio
链接:
https://www.ibm.com/cloud/watson-studio
介绍视频:
https://youtu.be/1_W6Y3c2Aeg
本文怎么能少了IBM Watson?它是世界上最知名的品牌之一。IBM Watson Studio为构建和部署学习机和深度学习模型提供了一个美丽的平台。您可以交互式地发现、清理和转换您的数据,使用Jupyter笔记本电脑和RStudio等熟悉的开源工具,访问最流行的库,训练深度神经网络以及大量其他事物。
对于刚进入这个领域的人来说,他们提供了一系列视频以简化入门阶段。您可以选择免费试用,并亲自查看这款超棒的工具。以上视频将指导您如何在Watson Studio中创建项目。
14. Automatic Statistician
链接:
https://www.automaticstatistician.com/index/
Automatic Statistician本身不是一个产品,而是一个创建数据探索和分析工具的研究机构。它可以采用各种数据,并以其自然语言处理为核心,生成详细的报告。它由在剑桥和麻省理工学院工作的研究人员开发,并以75万美元的价格赢得了Google的焦点研究奖。
它目前仍处于积极发展阶段,但在不久的将来应该密切关注。您可以在这里查看一些关于最终报告的示例。
更多工具
KNIME (https://www.knime.com/)- 这个工具非常适合训练机器学习模型。最初需要习惯,但是一开始使用就会觉得GUI很棒。它产生的结果与大多数工具相同,也是免费的。
FeatureLab (http://www.featurelab.co/)- 它允许使用GUI进行简单的预测建模和部署。最好的卖点之一是自动进行特征工程。
MarketSwitch (http://www.experian.com/decision-analytics/marketswitch-optimization.html)- 此工具更侧重于优化而非预测分析。
Logical Glue(http://www.logicalglue.com/) - 从原始数据到模型部署的另一个基于GUI的机器学习平台。
Pure Predictive (http://www.purepredictive.com/)- 该工具使用有专利的人工智能系统,该系统可以避免部分数据准备和模型调整;它使用AI将1000个模型组合成他们所谓的“超级模型”。
如果你是第一次听到这些名字,你不是一个人!随着越来越多的数据被收集,自动化机器学习的市场正在扩大。他们在未来几年会被淹没在市场中吗?时间会证明一切。但是,这些优秀的工具可以帮助那些希望开始学习机器学习,或者正在寻找替代方案来添加到他们现有目录的组织。
结束语
在本文中,我们已经讨论了几项旨在自动化解决数据科学问题的举措。其中一些处于初期研究阶段,一些是开源的,另一些已经在该行业中应用并有数百万资金。所有这些都对数据科学家的工作构成了潜在威胁,预计这一工作在不久的将来会大幅增长。这些工具最适合那些不熟悉编程和编码的人员。
原文发布时间为:2018-07-09
本文作者:AARSHAY JAIN
本文来自云栖社区合作伙伴“ 数据派THU”,了解相关信息可以关注“ 数据派THU”