机器学习基础:大数据与深度学习的关系

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
简介: 机器学习基础:大数据与深度学习的关系

# 机器学习基础:大数据与深度学习的关系
请添加图片描述

概念

大数据

通常被定义为“超出常用软件工具捕获的数据集,管理和和处理的能力”的数据集。

机器学习

关心的问题是如何构建计算机程序使用经验自动改进,就是利用计算机、概率论、统计学等知识,通过给计算机程序输入数据,让计算机学会新知识,是实现人工智能的途径,但这种学习不会让机器产生意识。机器学习的过程,就是通过训练数据寻找目标函数。数据质量会影响机器学习精度,所以数据预处理非常重要。
在这里插入图片描述

数据挖掘

是从数据中提取模式特性的算法应用。在数据挖掘中,重点在于算法应用,而不是算法本身。顾名思义就是从海量数据中“挖掘”隐藏信息,按照教科书的说法,这里的数据是“大量的、不完全的、有噪声的、模糊的、随机的实际应用数据”,信息指的是“隐含的、规律性的、人们事先未知的、但又是潜在有用的并且最终可理解的信息和知识”。在商业环境中,企业希望让存放在数据库中的数据能“说话”,支持决策。所以,数据挖掘更偏向应用。为了做好数据挖掘,企业又要建立数据仓库。

深度学习

只是机器学习(Machine Learning)的一种类别,一个子领域。机器学习 > 深度学习。

关系

机器学习与数据挖掘的关系

数据挖掘是一个过程,在此过程中机器学习算法被用作提取数据集中潜在有价值模式的工具,里面包括了很多种approach。任务也可以不同,可以是预测(prediction),分类(classification),聚类(clustering),识别(recognition),重建(reconstruction),约束(regularization),甚至降噪(denoising),超分辨(super-resolution),除马赛克(Demosaicing)等等....
在这里插入图片描述

大数据与深度学习

深度学习是一种模拟模拟大脑的行为,可以从所学习的对象的机制以及行为等等很多相关的地方学习,模仿行为以及思维。深度学习对于大数据的发展有帮助,深度学习对于大数据技术开发的每一个阶段均有帮助,不管书数据的分析、建模还是挖掘,只有深度学习,这些东西才会一一得到实现。深度学习转变了解决问题的思维,很多时候发现问题到解决问题,走一步看一步,不是一个主要的解决问题的手段,在深度学习基础上,要求我们从开始到最后都要基于同一个目标,为了优化那个最终的目标去畸形数据处理以及将数据放在数据应用平台上去,大数据的深度学习需要一个框架,在大数据方面的深度学习都是从基础的角度出发,深度学习需要一个框架或者一个系统的总体而言,需要将你的大数据通过深度分析变为现实这就是他们的直接关系。

领域名词解释

Linuxlucene:全文检索引擎的架构。
HadoopHDFS:分布式存储系统,包含NameNode,DataNode。
NameNode:元数据,DataNode。
DataNode:存数数据。

**yarn**:可以理解为MapReduce的协调机制,本质就是Hadoop的处理分析机制,分为ResourceManager   NodeManager。
 **MapReduce**:软件框架,编写程序。 Hive:数据仓库   
可以用SQL查询,可以运行Map/Reduce程序。用来计算趋势或者网站日志,不应用于实时查询,需要很长时间返回结果。HBase:数据库。非常适合用来做大数据的实时查询。Facebook用Hbase存储消息数据并进行消息实时的分析。
**ZooKeeper**:针对大型分布式的可靠性协调系统。Hadoop的分布式同步等靠Zookeeper实现,例如多个NameNode,active
standby切换。 Sqoop:数据库相互转移,关系型数据库和HDFS相互转移。   
**Mahout**:可扩展的机器学习和数据挖掘库。用来做推荐挖掘,聚集,分类,频繁项集挖掘。Chukwa:开源收集系统,监视大型分布式系统,建立在HDFS和Map/Reduce框架之上。显示、监视、分析结果。
**Ambari**:用于配置、管理和监视Hadoop集群,基于Web,界面友好。
**ClouderaCloudera Manager**:管理、监控    诊断 集成 Cloudera CDH:(Cloudera's Distribution,including Apache
Hadoop)    Cloudera对Hadoop做了相应的改变,发行版本称为CDH。   
**Flume**:日志收集系统,支持在日志系统中定制各类数据发送方,用来收集数据。 
**Cloudera Impala**:对存储在Apache   Hadoop的HDFS,HBase的数据提供直接查询互动的SQL。 
**机器学习/RR**:用于统计分析、绘图的语言和操作环境,目前有**Hadoop-Rmahout**:提供可扩展的机器学习领域经典算法的实现,包括聚类、分类、推荐过滤、频繁子项挖掘等,且可通过Hadoop扩展到云中。
**stormStorm**:分布式,容错的实时流式计算系统,可以用作实时分析,在线机器学习,信息流处理,连续性计算,分布式RPC,实时处理消息并更新数据库。
**Kafka**:高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据(浏览,搜索等)。相对Hadoop的日志数据和离线分析,可以实现实时处理。目前通过Hadoop的并行加载机制来统一线上和离线的消息处理
**Redis**:由c语言编写,支持网络、可基于内存亦可持久化的日志型、key-value型数据库。   
**SparkScala**:一种类似java的完全面向对象的编程语言。   
**jblas**:一个快速的线性代数库(JAVA)。基于BLAS与LAPACK,矩阵计算实际的行业标准,并使用先进的基础设施等所有的计算程序的ATLAS艺术的实现,使其非常快。
**Spark**: Spark是在Scala语言中实现的类似于Hadoop MapReduce的通用并行框架,除了Hadoop   MapReduce所具有的优点,但不同于MapReduce的是job中间输出结果可以保存在内存中,从而不需要读写HDFS,因此Spark能更好的适用于数据挖掘与机器学习等需要迭代的MapReduce算法。可以和Hadoop文件系统并行运作,用过Mesos的第三方集群框架可以支持此行为。
**Spark SQL**: 作为Apache Spark大数据框架的一部分,可用于结构化数据处理并可以执行类似SQL的Spark数据查询   
**Spark Streaming**: 一种构建在Spark上的实时计算框架,扩展了Spark处理大数据流式数据的能力。 Spark   
**MLlib**:   

MLlib是Spark是常用的机器学习算法的实现库,目前(2014.05)支持二元分类,回归,聚类以及协同过滤。同时也包括一个底层的梯度下降优化基础算法。MLlib以来jblas线性代数库,jblas本身以来远程的Fortran程序。

**Spark GraphX:**   
GraphX是Spark中用于图和图并行计算的API,可以在Spark之上提供一站式数据解决方案,可以方便且高效地完成图计算的一整套流水作业。
**Fortran**:最早出现的计算机高级程序设计语言,广泛应用于科学和工程计算领域。   
**BLAS**:基础线性代数子程序库,拥有大量已经编写好的关于线性代数运算的程序。   
**LAPACK**:著名的公开软件,包含了求解科学与工程计算中最常见的数值线性代数问题,如求解线性方程组、线性最小二乘问题、特征值问题和奇异值问题等。
**ATLAS**:BLAS线性算法库的优化版本。 Spark   
**Python**:Spark是由scala语言编写的,但是为了推广和兼容,提供了java和python接口。
**Python:** 
一种面向对象的、解释型计算机程序设计语言。 云计算平台Docker:开源的应用容器引擎。
 **kvm**:(Keyboard Video   Mouse)。
 **openstack**:开源的云计算管理平台项目。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
机器学习/深度学习 人工智能 安全
探索AI的未来:从机器学习到深度学习
【10月更文挑战第28天】本文将带你走进AI的世界,从机器学习的基本概念到深度学习的复杂应用,我们将一起探索AI的未来。你将了解到AI如何改变我们的生活,以及它在未来可能带来的影响。无论你是AI专家还是初学者,这篇文章都将为你提供新的视角和思考。让我们一起探索AI的奥秘,看看它将如何塑造我们的未来。
74 3
|
14天前
|
机器学习/深度学习 人工智能 算法
探索机器学习:从线性回归到深度学习
本文将带领读者从基础的线性回归模型开始,逐步深入到复杂的深度学习网络。我们将通过代码示例,展示如何实现这些算法,并解释其背后的数学原理。无论你是初学者还是有经验的开发者,这篇文章都将为你提供有价值的见解和知识。让我们一起踏上这段激动人心的旅程吧!
|
25天前
|
机器学习/深度学习 分布式计算 算法
【大数据分析&机器学习】分布式机器学习
本文主要介绍分布式机器学习基础知识,并介绍主流的分布式机器学习框架,结合实例介绍一些机器学习算法。
157 5
|
3天前
|
机器学习/深度学习 人工智能 算法
机器学习与深度学习:差异解析
机器学习与深度学习作为两大核心技术,各自拥有独特的魅力和应用价值。尽管它们紧密相连,但两者之间存在着显著的区别。本文将从定义、技术、数据需求、应用领域、模型复杂度以及计算资源等多个维度,对机器学习与深度学习进行深入对比,帮助您更好地理解它们之间的差异。
|
1月前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
81 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
25天前
|
机器学习/深度学习 人工智能 TensorFlow
基于TensorFlow的深度学习模型训练与优化实战
基于TensorFlow的深度学习模型训练与优化实战
73 0
|
1月前
|
机器学习/深度学习 自然语言处理 语音技术
探索机器学习中的深度学习模型:原理与应用
探索机器学习中的深度学习模型:原理与应用
39 0
|
2月前
|
机器学习/深度学习 自然语言处理 算法
机器学习和深度学习之间的区别
机器学习和深度学习在实际应用中各有优势和局限性。机器学习适用于一些数据量较小、问题相对简单、对模型解释性要求较高的场景;而深度学习则在处理大规模、复杂的数据和任务时表现出色,但需要更多的计算资源和数据,并且模型的解释性较差。在实际应用中,需要根据具体的问题和需求,结合两者的优势,选择合适的方法来解决问题。
86 0
|
12天前
|
机器学习/深度学习 传感器 数据采集
深度学习在故障检测中的应用:从理论到实践
深度学习在故障检测中的应用:从理论到实践
57 5
|
4天前
|
机器学习/深度学习 网络架构 计算机视觉
深度学习在图像识别中的应用与挑战
【10月更文挑战第21天】 本文探讨了深度学习技术在图像识别领域的应用,并分析了当前面临的主要挑战。通过研究卷积神经网络(CNN)的结构和原理,本文展示了深度学习如何提高图像识别的准确性和效率。同时,本文也讨论了数据不平衡、过拟合、计算资源限制等问题,并提出了相应的解决策略。
36 19