机器学习,数据科学,人工智能,深度学习和统计有何异同

简介: 机器学习,数据科学,人工智能,深度学习和统计有何异同


机器学习,数据科学,AI,深度学习和统计学之间的区别

在本文中,我阐述了数据科学家的各种角色,以及数据科学如何与机器学习,深度学习,人工智能,统计学,物联网,运筹学和应用数学等相关领域进行比较和重叠。 由于数据科学是一门广泛的学科,我首先描述在任何商业环境中可能遇到的不同类型的数据科学家:您甚至可能发现自己是一名数据科学家,而不知道它。 与任何科学学科一样,数据科学家可以借用相关学科的技术,尽管我们已经开发了自己的工具库,特别是技术和算法,以自动方式处理非常大的非结构化数据集,即使没有人工交互,也可以实时执行交易 或者做出预测。


1.不同类型的数据科学家

要开始并获得一些历史观点,您可以阅读我在2014年发表的关于9种数据科学家的文章,或者我的文章,其中我将数据科学与16个分析学科进行了比较,也发表于2014年。

在同一时期发布的以下文章仍然有用:

  • 数据科学家与数据架构师
  • 数据科学家与数据工程师
  • 数据科学家与统计学家
  • 数据科学家与业务分析师

最近(2016年8月)Ajit Jaokar讨论了Type A(Analytics)与B类(Builder)数据科学家:

A型数据科学家可以很好地编码以处理数据,但不一定是专家。 A型数据科学家可能是实验设计,预测,建模,统计推断或统计部门通常教授的其他事项的专家。一般而言,数据科学家的工作产品不是“p值和置信区间”,因为学术统计有时似乎表明(例如,有时对于在制药行业工作的传统统计学家而言)。在谷歌,A型数据科学家被称为统计学家,定量分析师,决策支持工程分析师或数据科学家,可能还有一些。

B型数据科学家:B代表建筑。 B类数据科学家与A类有一些统计背景,但他们也是非常强大的编码员,可能是训练有素的软件工程师。 B类数据科学家主要关注“在生产中”使用数据。他们构建与用户互动的模型,通常提供推荐(产品,您可能知道的人,广告,电影,搜索结果)。来源:点击这里。

我还写了关于业务流程优化的ABCD,其中D代表数据科学,C代表计算机科学,B代表商业科学,A代表分析科学。数据科学可能涉及也可能不涉及编码或数学实践,您可以在我的关于低级别数据科学与高级数据科学的文章中阅读。在创业公司中,数据科学家通常会戴上几个帽子,如执行,数据挖掘,数据工程师或架构师,研究员,统计学家,建模师(如预测建模)或开发人员。

虽然数据科学家通常被描述为在R,Python,SQL,Hadoop和统计数据方面经验丰富的编码器,但这只是冰山一角,受数据营的欢迎,专注于教授数据科学的某些元素。但就像实验室技术人员可以称自己为物理学家一样,真正的物理学家远不止于此,她的专业领域也各不相同:天文学,数学物理学,核物理学(边缘化学),力学,电气工程,信号处理(也是数据科学的一个子领域)等等。关于数据科学家也可以这样说:生物信息学,信息技术,模拟和质量控制,计算金融,流行病学,工业工程,甚至数论都是各种各样的领域。

就我而言,在过去的十年中,我专注于机器对机器和设备到设备的通信,开发系统来自动处理大型数据集,执行自动交易:例如,购买互联网流量或自动生成内容。它意味着开发适用于非结构化数据的算法,它处于AI(人工智能)IoT(物联网)和数据科学的交叉点。这被称为深度数据科学。它是相对无数学的,它涉及相对较少的编码(主要是API),但它是相当数据密集型(包括构建数据系统)并基于专门为此上下文设计的全新统计技术。

在此之前,我实时进行了信用卡欺诈检测。在我的职业生涯早期(大约1990年),我从事图像遥感技术,除了其他方面,以确定卫星图像中的图案(或形状或特征,例如湖泊)和执行图像分割:当时我的研究被标记为计算统计数据,但人们在我家大学隔壁的计算机科学系做同样的事情,称他们研究人工智能。今天,它被称为数据科学或人工智能,子域是信号处理,计算机视觉或物联网。

此外,数据科学家可以在数据科学项目的生命周期,数据收集阶段或数据探索阶段的任何地方找到,一直到统计建模和维护现有系统。


2.机器学习与深度学习

在深入研究数据科学与机器学习之间的联系之前,让我们简要讨论机器学习和深度学习。机器学习是一组算法,它们训练数据集以进行预测或采取行动以优化某些系统。例如,基于历史数据,监督分类算法用于根据贷款目的将潜在客户分类为好的或坏的潜在客户。对于给定任务(例如,监督聚类)所涉及的技术是变化的:朴素贝叶斯,SVM,神经网络,集合,关联规则,决策树,逻辑回归或许多的组合。有关算法的详细列表,请单击此处。有关机器学习问题的列表,请单击此处。

所有这些都是数据科学的一个子集。当这些算法自动化时,如自动驾驶或无驾驶汽车,它被称为AI,更具体地说,深度学习。点击此处查看另一篇文章,将机器学习与深度学习进如果收集的数据来自传感器,并且如果它是通过互联网传输的,那么机器学习或数据科学或深度学习应用于物联网。

有些人对深度学习有不同的定义。他们认为深度学习是具有更深层的神经网络(机器学习技术)。最近在Quora上提出了这个问题,下面是一个更详细的解释(来源:Quora)

  • AI(人工智能)是计算机科学的一个子领域,创建于20世纪60年代,它关注的是解决对人类而言容易但对计算机来说很难的任务。特别是,所谓的强人工智能将是一个可以做任何事情的系统(也许没有纯粹的物理事物)。这是非常通用的,包括各种任务,例如计划,在世界各地移动,识别对象和声音,说话,翻译,进行社交或商业交易,创造性工作(制作艺术或诗歌)等。
  • NLP(自然语言处理)只是人工智能的一部分,与语言(通常是书面的)有关。
  • 机器学习关注的一个方面是:给定一些可以用离散术语描述的AI问题(例如,从一组特定的动作中,哪一个是正确的动作),并给出关于世界的大量信息,图什么是“正确”的行动,没有程序员编程。通常需要一些外部过程来判断行动是否正确。在数学术语中,它是一个函数:你输入一些输入,并且你希望它产生正确的输出,所以整个问题只是以某种自动的方式建立这个数学函数的模型。为了区分AI,如果我能编写一个非常聪明的程序,它具有类似人类的行为,它可以是AI,但除非它的参数是从数据中自动学习的,否则它不是机器学习。
  • 深度学习是一种现在非常流行的机器学习。它涉及一种特定类型的数学模型,可以被认为是某种类型的简单块(函数组合)的组合,并且其中一些块可以被调整以更好地预测最终结果。

机器学习和统计学有什么区别?

本文试图回答这个问题。作者写道,统计数据是机器学习,其中包含预测或估计量的置信区间。我倾向于不同意,因为我建立了工程友好的置信区间,不需要任何数学或统计知识。

3.数据科学与机器学习

机器学习和统计是数据科学的一部分。机器学习中的单词学习意味着算法依赖于一些数据,用作训练集,以微调一些模型或算法参数。这包括许多技术,例如回归,朴素贝叶斯或监督聚类。但并非所有技术都适用于此类别。例如,无监督聚类 - 统计和数据科学技术 - 旨在检测聚类和聚类结构,而无需任何先验知识或训练集来帮助分类算法。需要人来标记发现的聚类。一些技术是混合的,例如半监督分类。一些模式检测或密度估计技术适合此类别。

数据科学不仅仅是机器学习。数据科学中的数据可能来自也可能不来自机器或机械过程(调查数据可以手动收集,临床试验涉及特定类型的小数据),它可能与我刚刚讨论过的学习无关。但主要区别在于数据科学涵盖了整个数据处理范围,而不仅仅是算法或统计方面。特别是,数据科学也包括在内

  • 数据集成
  • 分布式架构
  • 自动化机器学习
  • 数据可视化
  • 仪表板和BI
  • 数据工程
  • 在生产模式下部署
  • 自动化,数据驱动的决策

当然,在许多组织中,数据科学家只关注这一过程的一部分

相关实践学习
钉钉群中如何接收IoT温控器数据告警通知
本实验主要介绍如何将温控器设备以MQTT协议接入IoT物联网平台,通过云产品流转到函数计算FC,调用钉钉群机器人API,实时推送温湿度消息到钉钉群。
阿里云AIoT物联网开发实战
本课程将由物联网专家带你熟悉阿里云AIoT物联网领域全套云产品,7天轻松搭建基于Arduino的端到端物联网场景应用。 开始学习前,请先开通下方两个云产品,让学习更流畅: IoT物联网平台:https://iot.console.aliyun.com/ LinkWAN物联网络管理平台:https://linkwan.console.aliyun.com/service-open
目录
打赏
0
0
0
0
111
分享
相关文章
深度学习中模型训练的过拟合与欠拟合问题
在机器学习和深度学习中,过拟合和欠拟合是影响模型泛化能力的两大常见问题。过拟合指模型在训练数据上表现优异但在新数据上表现差,通常由模型复杂度过高、数据不足或质量差引起;欠拟合则指模型未能充分学习数据中的模式,导致训练和测试数据上的表现都不佳。解决这些问题需要通过调整模型结构、优化算法及数据处理方法来找到平衡点,如使用正则化、Dropout、早停法、数据增强等技术防止过拟合,增加模型复杂度和特征选择以避免欠拟合,从而提升模型的泛化性能。
人工智能与机器学习:改变未来的力量####
【10月更文挑战第21天】 在本文中,我们将深入探讨人工智能(AI)和机器学习(ML)的基本概念、发展历程及其在未来可能带来的革命性变化。通过分析当前最前沿的技术和应用案例,揭示AI和ML如何正在重塑各行各业,并展望它们在未来十年的潜在影响。 ####
146 27
人工智能浪潮下的编程实践:构建你的第一个机器学习模型
在人工智能的巨浪中,每个人都有机会成为弄潮儿。本文将带你一探究竟,从零基础开始,用最易懂的语言和步骤,教你如何构建属于自己的第一个机器学习模型。不需要复杂的数学公式,也不必担心编程难题,只需跟随我们的步伐,一起探索这个充满魔力的AI世界。
104 12
探索机器学习:从线性回归到深度学习
本文将带领读者从基础的线性回归模型开始,逐步深入到复杂的深度学习网络。我们将通过代码示例,展示如何实现这些算法,并解释其背后的数学原理。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的见解和知识。让我们一起踏上这段激动人心的旅程吧!
基于TensorFlow的深度学习模型训练与优化实战
基于TensorFlow的深度学习模型训练与优化实战
245 3
机器学习与深度学习:差异解析
机器学习与深度学习作为两大核心技术,各自拥有独特的魅力和应用价值。尽管它们紧密相连,但两者之间存在着显著的区别。本文将从定义、技术、数据需求、应用领域、模型复杂度以及计算资源等多个维度,对机器学习与深度学习进行深入对比,帮助您更好地理解它们之间的差异。
探索人工智能与机器学习的融合之路
在本文中,我们将探讨人工智能(AI)与机器学习(ML)之间的紧密联系以及它们如何共同推动技术革新。我们将深入分析这两种技术的基本概念、发展历程和当前的应用趋势,同时讨论它们面临的挑战和未来的发展方向。通过具体案例研究,我们旨在揭示AI与ML结合的强大潜力,以及这种结合如何为各行各业带来革命性的变化。
101 0
【重磅发布】AllData数据中台核心功能:机器学习算法平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
318 6
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
82 6