通过数据科学领域中几个关键概念之间的关系来检验数据科学的难题。正如我们将要看到的那样,不同意见的是具体的概念,不同意见是不可避免的;这只是另一个需要考虑的意见。
网络上没有任何文章比较和对比数据科学术语。所有类型的人都写了各种各样的文章,将他们的意见传达给任何愿意倾听的人。这几乎是压倒性的。
所以,让我直截了当地记录,对于那些想知道这是否是这类帖子之一的人。是。是的。
为什么另一个?我认为,虽然可能有很多意见部分定义和比较这些相关术语,但事实是这个术语的大部分都是流动的,并未完全同意,坦率地说,暴露于其他人群的观点是测试和改进自己的最佳方法之一。
因此,虽然我可能不完全(甚至是最低限度地)同意我对这个术语的大部分内容,但可能仍然有一些东西可以摆脱这一点。将研究数据科学的几个核心概念。或者,至少,我认为是核心。我会尽力提出它们之间的关系以及它们如何作为一个更大拼图的单个部分组合在一起。
作为一些有些不同意见的例子,在单独考虑任何概念之前,KDnuggets的Gregory Piatetsky-Shapiro汇总了以下维恩图,其中概述了我们将在此考虑的相同数据科学术语之间的关系。我们鼓励读者将这个维恩图与Drew Conway现在着名的数据科学维恩图进行比较,以及下面我自己的讨论以及帖子底部附近的修改过程/关系图。我认为,虽然存在差异,但这些概念在某种程度上具有相似性(参见前几段)。
我们现在将对上述维恩图中描述的相同的6个核心概念进行处理,并提供一些有关如何将它们组合到数据科学难题中的见解。首先,我们很快就省去了过去十年中最热门的话题之一。
大数据
有各种各样的文章可用来定义大数据,我不会在这里花太多时间在这个概念上。我将简单地说,大数据通常可以定义为“超出常用软件工具捕获,管理和处理能力”的数据集。大数据是一个不断变化的目标; 这个定义既模糊又准确,足以捕捉其核心特征。
至于我们将要研究的其余概念,最好先了解一下他们的搜索术语流行度和N-gram频率,以帮助将事实与炒作区分开来。鉴于这些概念中的一对相对较新,我们从1980年到2008年的“老”概念的N-gram频率如上所示。
最近的谷歌趋势显示了2个新术语的上升,2个其他人的持续上升趋势,以及最后一个逐渐但明显的下降。请注意,由于已经对数据进行了定量分析,因此大数据未包含在上述图形中。请继续阅读以进一步了解观察结果。
机器学习
根据Tom Mitchell在他关于这个主题的开创性着作中的说法,机器学习“关注的是如何构建自动改进的计算机程序的问题。”机器学习本质上是跨学科的,并且采用来自计算机科学,统计学和人工智能等领域的技术。机器学习研究的主要工件是可以从经验中自动改进的算法,可以应用于各种不同领域的算法。
我认为没有人怀疑机器学习是数据科学的核心方面。我在下面给出了数据科学详细处理这个术语,但是如果你认为它的目标是从数据中提取洞察力,那么机器学习就是让这个过程自动化的引擎。机器学习与经典统计有很多共同之处,因为它使用样本来推断和推广。在统计学更多地关注描述性的情况下(虽然它可以通过推断,可以预测),机器学习很少涉及描述性,并且仅将其用作中间步骤以便能够进行预测。机器学习通常被认为是模式识别的同义词;虽然这对我来说真的不会有太大的分歧,但我相信模式识别这个术语意味着一套比机器学习实际上更复杂,更简单的过程,这就是为什么我倾向于回避它。
机器学习与数据挖掘有着复杂的关系。
数据挖掘
Fayyad,Piatetsky-Shapiro和Smyth将数据挖掘定义为“从数据中提取模式的特定算法的应用”。这表明,在数据挖掘中,重点在于算法的应用,而不是算法本身。我们可以定义机器学习和数据挖掘之间的关系如下:数据挖掘是一个过程,在此过程中,机器学习算法被用作工具来提取数据集中保存的潜在有价值的模式。
数据挖掘作为机器学习的姐妹术语,对数据科学也至关重要。事实上,在数据科学这个术语爆炸之前,数据挖掘作为Google搜索术语获得了更大的成功。看看谷歌趋势比上图所示延长了5年,数据挖掘曾经更受欢迎。然而,今天,数据挖掘似乎被分割为机器学习和数据科学本身之间的概念。如果要支持上述解释,那么数据挖掘就是一个过程,那么将数据科学视为数据挖掘的超集以及后续术语是有意义的。
深度学习
深度学习是一个相对较新的术语,尽管它在最近的在线搜索急剧上升之前就存在了。由于在许多不同领域取得了令人难以置信的成功,研究和工业正在蓬勃发展,深度学习是应用深度神经网络技术(即具有多个隐藏层的神经网络架构)来解决问题的过程。深度学习是一个过程,如数据挖掘,它采用深度神经网络架构,这是特定类型的机器学习算法。
深度学习最近取得了令人印象深刻的成就。鉴于此,至少在我看来,记住一些事情很重要:
深度学习不是灵丹妙药 - 对于每个问题而言,它并不是一个简单的“一刀切”的解决方案
它不是传说中的主算法 - 深度学习不会取代所有其他机器学习算法和数据科学技术,或者至少它尚未证明如此
淬火期望是必要的 - 尽管最近在所有类型的分类问题上取得了很大进展,特别是计算机视觉和自然语言处理,以及强化学习和其他领域,当代深度学习不能扩展到处理非常复杂的问题,如“解决世界和平”
深度学习和人工智能不是同义词
深度学习可以通过附加过程和工具的形式为数据科学提供大量帮助,以帮助解决问题,并且当从这个角度观察时,深度学习是数据科学领域的一个非常有价值的补充。
人工智能
大多数人发现人工智能的精确定义,通常甚至是广泛定义,难以理解。我不是一名人工智能研究员,所以我的回答可能与那些在其他领域甚至可能会让人不满的人大不相同。多年来,我对人工智能的概念进行了多次哲学思考,我得出的结论是,人工智能,至少是我们在考虑它时通常会想到的概念,实际上并不存在。
在我看来,AI是一个标尺,一个移动的目标,一个无法实现的目标。每当我们走上人工智能成就的道路时,这些成就似乎会变成被称为别的东西。
我曾经读过如下内容:如果你在20世纪60年代问过AI研究员他们对AI的看法是什么,他们可能会同意一个适合我们口袋的小装置,这可以帮助预测我们的下一步行动和愿望,并且随时可以获得的全部人类知识,可能会达成共识,即所述设备是真正的AI。但我们今天都携带智能手机,我们中很少有人会将它们称为人工智能。
AI在哪里适合数据科学?好吧,正如我所说,我不相信人工智能真的是有形的,我想很难说它适合任何地方。但是有许多与数据科学和机器学习相关的领域,其中AI提供了动力,有时与有形的同样有价值;当然的深度学习研究,当然深刻的学习研究,如果不是无限期的,它们在某些方面都受益于人工智能精神,那么计算机视觉肯定会浮现在脑海中。
人工智能很可能是具有最深口袋的研发设备,从来没有在同行业中产生任何东西。虽然我会说从AI到数据科学的直线可能不是查看2之间关系的最佳方式,但两个实体之间的许多中间步骤已经由AI以某种形式开发和完善。
数据科学
那么,在讨论了这些相关概念及其在数据科学中的位置之后,究竟什么是数据科学?对我而言,这是试图精确定义的最艰难的概念。数据科学是一门多方面的学科,它包括机器学习和其他分析过程,统计学和相关的数学分支,越来越多地借鉴高性能科学计算,所有这些都是为了最终从数据中提取洞察力并使用这些新发现的信息来讲故事。这些故事通常伴随着图片(我们称之为可视化),并且针对行业,研究,甚至仅仅针对我们自己,目的是从数据中收集一些新想法。
数据科学使用来自各种相关领域的各种不同工具(参见上文所述的所有内容)。数据科学既是数据挖掘的同义词,也是包含数据挖掘的概念的超集。
数据科学产生各种不同的结果,但它们都有共同的洞察力。数据科学就是这一切以及更多,对你而言,它可能完全是另一回事......我们甚至还没有涵盖获取,清理,争论和预处理数据!顺便说一下,数据甚至是什么?它总是很大吗?
我认为我对数据科学难题的想法,至少是可以用上图表示的数据的版本,与本文顶部的Piatetsky-Shapiro的维恩图很好地吻合。我还建议它也主要与Drew Conway的数据科学维恩图一致,尽管我会补充一点:我相信他非常合理且有用的图形实际上指的是数据科学家,而不是数据科学。这可能是分裂的头发,但我不认为{field |纪律|数据科学本身的概念包括黑客技能;我相信这是科学家们拥有的一项技能,以便能够进行数据科学研究。不可否认,这可能是对语义的争论,但在我看来这是有意义的。
当然,这不是一幅不断发展的景观的全貌。例如,我记得在不久之前阅读数据挖掘是商业智能的一个子领域!即使意见分歧,我也无法想象今天这是一个有效的想法(几年前很难接受,说实话)。
而且你有它:你最喜欢的一些术语以新的方式变形,你不会原谅我。如果你现在感到愤怒,迫不及待地想告诉我我有多错,请记住这篇文章的重点:你刚读过一个人的意见。在这种精神中,您可以随意在评论中发声(可能是激烈的,尖锐的)对比的观点。否则,我希望这或者让新读者接触到数据科学的难题,或者强迫他们在他们的头脑中看看他们自己的这个难题版本。