人工智能、大数据与深度学习之间的关系和差异

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:

网络上从不缺乏对数据科学术语进行比较和对比的文章。文笔各异的人写出了各式各样的文章,以此将他们的观点传达给任何愿意倾听的人。这几乎是势不可挡的。

所以我也记录一下,对于那些疑惑此文是否也是雷同的帖子。对,是这样的。

为什么再来一帖?我是这样想的,尽管可能有很多分散观点在定义和比较这些关联术语,但事实上是,这些术语中的大部分是流动变化的,并不完全约定俗成,坦率地说,与他人观点一同暴露是测试和优化自己的观点的最好方法之一。

所以,虽然大家可能不会完全(甚至是极低限度地)同意我对这些术语的大部分看法,但仍然能从中获得一些东西。数据科学中的一些核心概念需要被解释,或者至少在我看来是重要的,我会尽力阐述他们如何关联,以及答疑这些个体概念组合在一起时遇到的困惑。

在独立地思考概念之前,有个不同观点的例子,KDnuggets的Gregory Piatetsky-Shapiro的维恩图,概述了我们将要讨论的数据科学术语之间的关系。建议读者将此维恩图与目前Drew Conway的著名的数据科学维恩图,以及我下面的讨论和帖子底部的修改过程/关系图进行比较。我认为,尽管存在差异,但这些概念具有一定的相似性。

现在我们将对上述维恩图中圈选的6个核心概念进行分析,并提供一些关于如何将它们融入数据科学的洞察。我们很快就会摒弃过去十年最热门的一些术语。

大数据(Big Data)

有各种各样的文章在定义大数据,我不打算花太多时间在这个概念上。简单地来说,大数据通常被定义为“超出常用软件工具捕获,管理和处理能力”的数据集。 大数据是一个移动目标; 这个定义既模糊又准确,足以捕捉其主要特征。

至于其他的概念,我们将通过调查,很好的获得搜索字词的流行度和N-gram频率模型的一些初步了解,以便将这个难点与热点炒作分开。鉴于这两个概念相对较新,从1980年至2008年,N-gram频率模型作为一个“旧”的概念如上图所示。

最近的Google趋势显示2个新词上升,另外2个保持持续上升,以及最后一个逐渐下降但有明显的下降。请注意,由于已经对数据进行了定量分析,‘大数据’未包含在上述图形中。继续阅读,以便进一步了解观测结果。

机器学习(Machine learning)

据Tom Mitchell在关于这个主题的创作书中阐述,机器学习“关心的问题是如何构建计算机程序使用经验自动改进”。机器学习本质上是跨学科的,采用计算机科学,统计学和人工智能等方面的技术。机器学习研究的主要工作是促进经验自动改进的算法,可以应用于各种不同领域。

我不认为有人会怀疑机器学习是数据科学的核心组成。我在下面给出数据科学的详细描述,如果你认为在一个非常高的水平上其目标是从数据中获取洞察力,其实机器学习是允许此过程自动化的。机器学习与古典统计学有很多共同点,因为它使用样本来推断和概括。数据统计更多地侧重于描述性(尽管可以通过外推来预测),机器学习对描述性分析的关注很少,并且仅将其用作中间步骤以便能够进行更好预测。机器学习通常被认为是模式识别的同义词;真的不会从我这里发生太多的分歧,我相信,‘模式识别’这个术语意味着实际上是一个比机器学习更不复杂和更简单化的过程,这就是为什么我倾向于回避它。

机器学习与数据挖掘有着复杂的关系。

数据挖掘(Data Mining)

Fayyad,Piatetsky-Shapiro&Smyth将数据挖掘定义为“从数据中提取模式的特定算法的应用”。这表明,在数据挖掘中,重点在于算法的应用,而不是算法本身。我们可以定义机器学习和数据挖掘之间的关系如下:数据挖掘是一个过程,在此过程中机器学习算法被用作提取数据集中的潜在有价值模式的工具。

‘数据挖掘’作为机器学习的姊妹术语,也是数据科学的关键。在数据科学术语爆发泛滥之前,事实上,数据挖掘’在Google搜索术语中取得了更大的成功。看看Google趋势比上图显示的还要早5年,数据挖掘’曾经更受欢迎。然而,今天,数据挖掘’似乎被划分为机器学习和数据科学之间的概念。若有人同意上述解释,数据挖掘是一个过程,那么将数据科学视为数据挖掘的超集,那么后续的术语都是有意义的。

深度学习(Deep Learning)

尽管在早期的在线搜索急剧爆发之前它已经存在,‘深度学习’仍是一个相对较新的术语。由于学术研究和工业的蓬勃发展,其在不同领域取得了巨大成就,深度学习是应用深层神经网络技术(即具有多个隐藏层的神经网络架构)来解决问题。深度学习是一个类似数据挖掘的过程,它采用深层神经网络架构,这是特定类型的机器学习算法。

深度学习已经取得了令人印象深刻的成就。有鉴于此,至少在我看来,务必要注意几点:

  • 深度学习不是灵丹妙药 – 对于每个问题来说,并不是一个简单一刀切的解决方案。
  • 这不是传说中的万能算法 – 深度学习不会取代所有其他机器学习算法和数据科学技术,至少还没有被证明是这样。
  • 适度的期望是必要的 – 尽管最近在各种类型的分类问题上,特别是计算机视觉和自然语言处理以及强化学习等领域已经取得了巨大的进步,但当代深度学习并没有扩大到非常复杂的问题,例如“解决世界和平”。
  • 深度学习和人工智能不是同义词。

深度学习可以帮助数据科学以附加过程和工具的形式解决问题,而在这种观察中,深入学习是数据科学领域的一个非常有价值的补充。

人工智能

大多数人发现人工智能很难用一个精确的,甚至是广泛的定义讲出来。我不是一个人工智能研究者,所以我的答案可能与其他领域的人差别很大。多年来通过对AI的思想哲学研究,我得出的结论是,人工智能,至少我们通常认为的想法的概念,实际上并不存在。

在我看来,AI是一个标尺,一个移动目标,一个渴望而不可及的目标。每当我们迈向AI成就之路,不知何故,这些成就似乎又变成了被称为其他的东西。

我曾经读过如下内容:如果你在上世纪60年代问AI的研究人员,他们对AI的想法是什么,他们可能会一致认为,可以帮助我们预测下一步行动和欲望,所有人类知识可以随时获取,一个适合我们口袋的小型设备就是真实的AI。但是今天我们都携带智能手机,很少有人会把它们称为人工智能。

AI适合数据科学?嗯,正如我所说,我不认为AI真的是有形的,我想很难说它适合任何地方。但,一些数据科学和机器学习相关领域,人工智能可以提供助力,有时与实体一样有价值;计算机视觉肯定会引起注意,现代深度学习研究也是如此,得益于人工智能的精神气质,若不是无限期的话。

AI可能是研究和开发设备,从来没有在同名行业中产生任何东西。我想说,从AI到数据科学的这条路径可能不是查看两者之间的关系的最佳方式,但是两个实体之间的许多中间步骤已经被AI以某种形式开发和完善了。

数据科学(Data Science)

那么,在讨论这些相关概念和数据科学的地位之后,数据科学究竟是什么呢?对我来说,这是试图精确定义的一个最难的概念。数据科学是一个多方面的学科,包括机器学习和其他分析过程,统计学和相关的数学分支,越来越多地从高性能科学计算中借鉴,以便最终从数据中发现洞察,并使用这些新发现的信息来讲述故事。这些故事通常伴随着图片(我们称之为可视化),并针对行业,研究甚至是我们自己,目的是从数据中获取一些新的想法。

数据科学采用相关领域的各种不同工具(请参阅上面所有内容)。数据科学既是数据挖掘的同义词,也是数据挖掘概念的超集。

数据科学产生各种不同的结果,但它们都具有共同的洞察力。数据科学是这一切,而且对你而言,它可能还有别的东西,而且甚至还没有涵盖获取,清理,判别和预处理数据!顺便说一下,什么是数据呢?它总是大吗?

我认为我的关于数据科学困惑的观点,至少可以通过上图的版本来代表它,以及这篇文章的顶部的Piatetsky-Shapiro的维恩图。我也建议大多数与Drew Conway的数据科学维恩图一致,尽管我会补充一点:我认为他非常合理且实用的图像实际上是指数据科学家,而不是数据科学。这可能是吹毛求疵,但我不认为数据科学本身包含黑技能;我相信这是科学家拥有的技能,以便能够进行数据科学。诚然,这可能是对语义的嘲弄,但在我心中是有道理的。

当然,这不是一个宏图的全景,它在不断地演变。例如,我记得不久以前的一次阅读,数据挖掘是商业智能的一个子领域。即使有不同的意见,我真的不能想象今天这是一个有效的想法(坦率地说,几年前很难接受)。


本文作者:佚名

来源:51CTO

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
3月前
|
机器学习/深度学习 人工智能 算法
猫狗宠物识别系统Python+TensorFlow+人工智能+深度学习+卷积网络算法
宠物识别系统使用Python和TensorFlow搭建卷积神经网络,基于37种常见猫狗数据集训练高精度模型,并保存为h5格式。通过Django框架搭建Web平台,用户上传宠物图片即可识别其名称,提供便捷的宠物识别服务。
471 55
|
2月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
眼疾识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了4种常见的眼疾图像数据集(白内障、糖尿病性视网膜病变、青光眼和正常眼睛) 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,实现用户上传一张眼疾图片识别其名称。
257 5
基于Python深度学习的眼疾识别系统实现~人工智能+卷积网络算法
|
22天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【害虫识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能
害虫识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了12种常见的害虫种类数据集【"蚂蚁(ants)", "蜜蜂(bees)", "甲虫(beetle)", "毛虫(catterpillar)", "蚯蚓(earthworms)", "蜚蠊(earwig)", "蚱蜢(grasshopper)", "飞蛾(moth)", "鼻涕虫(slug)", "蜗牛(snail)", "黄蜂(wasp)", "象鼻虫(weevil)"】 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Djan
74 1
基于Python深度学习的【害虫识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能
|
1月前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【蘑菇识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能
蘑菇识别系统,本系统使用Python作为主要开发语言,基于TensorFlow搭建卷积神经网络算法,并收集了9种常见的蘑菇种类数据集【"香菇(Agaricus)", "毒鹅膏菌(Amanita)", "牛肝菌(Boletus)", "网状菌(Cortinarius)", "毒镰孢(Entoloma)", "湿孢菌(Hygrocybe)", "乳菇(Lactarius)", "红菇(Russula)", "松茸(Suillus)"】 再使用通过搭建的算法模型对数据集进行训练得到一个识别精度较高的模型,然后保存为为本地h5格式文件。最后使用Django框架搭建了一个Web网页平台可视化操作界面,
121 11
基于Python深度学习的【蘑菇识别】系统~卷积神经网络+TensorFlow+图像识别+人工智能
|
22天前
|
人工智能 分布式计算 DataWorks
大数据& AI 产品月刊【2025年1、2月】
大数据& AI 产品技术月刊【2025年1、2月】,涵盖双月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
27天前
|
人工智能 大数据
阿里云云计算ACA、大数据ACA、人工智能ACA三门认证升级调整公告
阿里云云计算ACA、大数据ACA、人工智能ACA三门认证升级调整公告
|
2月前
|
机器学习/深度学习 人工智能 分布式计算
我的阿里云社区年度总结报告:Python、人工智能与大数据领域的探索之旅
我的阿里云社区年度总结报告:Python、人工智能与大数据领域的探索之旅
155 35
|
1月前
|
SQL 人工智能 大数据
【4月重点功能发布】阿里云大数据+ AI 一体化平台
【4月重点功能发布】阿里云大数据+ AI 一体化平台
|
1月前
|
SQL 人工智能 分布式计算
【3月重点功能发布】阿里云大数据+ AI 一体化平台
【3月重点功能发布】阿里云大数据+ AI 一体化平台
|
2月前
|
数据采集 人工智能 分布式计算
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!
阿里云推出的MaxFrame是链接大数据与AI的分布式Python计算框架,提供类似Pandas的操作接口和分布式处理能力。本文从部署、功能验证到实际场景全面评测MaxFrame,涵盖分布式Pandas操作、大语言模型数据预处理及企业级应用。结果显示,MaxFrame在处理大规模数据时性能显著提升,代码兼容性强,适合从数据清洗到训练数据生成的全链路场景...
126 5
MaxFrame:链接大数据与AI的高效分布式计算框架深度评测与实践!

热门文章

最新文章