小白学数据:一文看懂机器学习

简介:

译者注


大数据时代,机器学习绝对是最热门的词汇之一。每一个人,无论是文科生还是理科生,各行各业的人士,都或多或少听说过机器学习这个词。简单的说,机器学习就是让电脑程序像人类思维一样解决问题。小白还是会问:“好吧,但是机器学习到底是个啥?生活中哪里可以用到?”这是一个好问题!接下来我们就通过回答一系列问题来给小白解释什么是机器学习,每个人都可以看得懂。


◆ ◆ 

几个基本问题

小白问:所以机器学习是尖端科技吗?

答:不是,但是它会用在尖端科技中。

 

小白问:那为什么很多人,比如我,都大不敢去尝试进入这个领域呢?

答:可能这个事儿听起来有点不可思议吧。所以好多人误以为这超出了自己理解和学习能力范围。

 

小白问:那到底它有多复杂?

答:干过这个事儿的人就知道,它就是个孩子们的游戏。(这个说法有点夸张,但基本就是这个意思)。

 

小白问:那机器学习到底是个啥?

答:它是个试图让事情更智能的过程。我们大多数人都听说类似“人工神经网络”这类的词,就是试图复制人类大脑工作过程的一种尝试。即使是这样的事情都不一定总是复杂的。说白了,它就是乘法和微分。就是你在学校里学的数学,没什么不同的

小白问:你说机器学习让事情更智能,什么是智能?

答:智能就是理解事物背后的概念和模式。可以是理解人的情绪,弄清楚人类的语言在讲什么(例如:汉语,英文,印度语),或者很酷地做些预测。

 

小白问:这可能是个傻问题,为什么叫机器学习?这名字对小白来说有些拗口啊。

答:没有问题是傻问题!机器学习是由英文MachineLearning直接翻译而来,这里的机器就是指的计算机。人脑之所以可以工作,是因为它在不断吸收信息并学习。机器学习就是让计算机像人脑一样,也学习它接收到的数据和信息。拿图片分类这件事儿来说吧,我们人脑之所以知道这个图片是苹果,那个图片是鸭梨,是通过看了足够多的苹果和鸭梨终于学会了正确分类。机器学习就是指我们写一些电脑程序使得计算机可以自动学习,最终正确分类。



小白问:机器学习最主要的好处是什么?它为什么这么重要?

答:机器学习可以模拟人脑学习。对于学习的过程显然人脑学习容易得多,一个小孩都可以分清苹果和鸭梨。机器学习则需要花时间写代码,而且需要提前学习大量已知数据(比如,要给你的计算机看很多很多的苹果和鸭梨)才能正确作出分类判断。但是,一旦机器学习的过程完成,自动化和大量应用就很容易 – 一台机器可以轻而易举的对百万张图片进行很快分类且不会劳累,人脑可是做不到。所以说,机器学习和大数据是完美搭档!


小白问:那机器学习可以用来做什么?

答:基本上人类可以做什么,机器学习就可以做什么,甚至更多!比如:
1)你在某个电商网站上买东西,机器学习可以从千万商品中找出你最想要,最相关的选项

2)视频网站用机器学习来猜你今天的心情,然后给你推荐你现在最感兴趣的电影。

3)谷歌可以从亿万搜索结果中找出最相关的网页。

4)医学领域应用机器学习,在一个人健康的时候就预测出他是否会得某种病(比如癌症)。是不是有点起鸡皮疙瘩了?

5)我最喜欢的应用是微软的小娜(Cortana)和苹果公司的Siri这样可以理解语言的机器人。

6)所有的事情几乎都可以用到机器学习!!^_^


◆ ◆ 

深入聊聊


机器学习在netflix中的应用(netflix是美国著名电影电视剧点播网站)

Netflix中的每一部电影都有一个标签,注明了这部电影的类型。比如著名的星球大战系列电影的类型标签就是冒险型。除了类型标签以外,这些电影还有一些别的标签,比如演员,导演,出产年份等等。


当你在netflix上看电影的时候,系统会根据你的行为自动地记录一些其他信息。比如你有没有看完这部电影,没有的话看了多少分钟或者你中间暂停了多少次等等。有了这些信息以后,系统就可以开始找出你行为中的一些规律,然后就可以给你推荐下一部你可能想看的电影。

 

比如下面是个筛选电影的流程:

你喜欢动作片 -> 在所有电影里面,有100部电影可以选择
你喜欢周润发 –> 还剩50部电影
你不喜欢时间长的电影 –> 只剩10个选择了

现在我们就可以把这10部电影推荐给你,但是系统可以做的远远不止这些。

你通常在晚上6-10点之间看电影->选择这个时间为你推送影片信息
你通常在睡前看恐怖电影->在晚上10点左右优先推荐恐怖片

 

机器学习在谷歌语言分析中的应用

  

机器学习在谷歌应该说无处不在:包括在输入搜索问题的时候得到的自动提示,还有最后得到的搜索结果通通用的是机器学习。更确切的说,用的是自然语言处理也叫NLP。所谓的自然语言就是人类互相交流实用的语言,比如中文和英语。机器通过自然语言处理可以把这些自然语言中的每一个词都转化成向量。你可以把这些向量想成一个长度为N,高度为1的矩阵(排成长方形的一堆数),通常N的大小取决于所分析语言的复杂程度,也就是说这个语言中设定的规则的数目。比如说我们可以推断英语中大概有300-400个这些规则。那么,这个向量长度就为300-400。在这矩阵中,每一个规则都有一个矩阵中对应的数值。

 

小白问:那有这么多个规则,怎么给他们加上数值呢?

答:我也不知道的说 :D

 

小白问:啥都不知道为什么还这么激动?

答:这就是机器学习的神奇所在!这个计算数值的过程中不需要人的插手,自动就可以得到数值。而且这些向量中的数值是有确切含义的。

比如下面有这三句话:

1.梅西射门得分了

2.罗纳尔多点球没进

3.小刚希望自己的工资多点

传统的学习方法会认为,第二句和第三句话中都有“多点”这部分,别的好像没有什么字是重合的了。所以结论是:那第二句和第三句肯定有相同之处吧?

但是任何正常的人类大脑都知道其实第一句和第二句才是同一个主题,都是讨论足球,所以更有可能同时出现。机器学习中的向量也明白这个道理J。经过机器学习后,“罗纳尔多”的向量和“梅西”的向量更为接近。当我们可以比较向量的相似程度的时候,最后得到的结果就和我们大脑得到的结果更加接近。是不是很神奇呀?

 

小白问:所以你的意思是矩阵中的数值可以帮助我们理解一句话到底是讲的啥了?

答:你真聪明!现在你还觉得机器学习难懂吗?^_^


原文发布时间为:2016-04-05

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
7月前
|
机器学习/深度学习 数据采集 算法
量子机器学习入门:三种数据编码方法对比与应用
在量子机器学习中,数据编码方式决定了量子模型如何理解和处理信息。本文详解角度编码、振幅编码与基础编码三种方法,分析其原理、实现及适用场景,帮助读者选择最适合的编码策略,提升量子模型性能。
536 8
|
12月前
|
机器学习/深度学习 算法 数据挖掘
PyTabKit:比sklearn更强大的表格数据机器学习框架
PyTabKit是一个专为表格数据设计的新兴机器学习框架,集成了RealMLP等先进深度学习技术与优化的GBDT超参数配置。相比传统Scikit-Learn,PyTabKit通过元级调优的默认参数设置,在无需复杂超参调整的情况下,显著提升中大型数据集的性能表现。其简化API设计、高效训练速度和多模型集成能力,使其成为企业决策与竞赛建模的理想工具。
444 12
PyTabKit:比sklearn更强大的表格数据机器学习框架
|
机器学习/深度学习 数据采集 JSON
Pandas数据应用:机器学习预处理
本文介绍如何使用Pandas进行机器学习数据预处理,涵盖数据加载、缺失值处理、类型转换、标准化与归一化及分类变量编码等内容。常见问题包括文件路径错误、编码不正确、数据类型不符、缺失值处理不当等。通过代码案例详细解释每一步骤,并提供解决方案,确保数据质量,提升模型性能。
547 88
|
机器学习/深度学习 数据采集 算法
机器学习在生物信息学中的创新应用:解锁生物数据的奥秘
机器学习在生物信息学中的创新应用:解锁生物数据的奥秘
1018 36
|
机器学习/深度学习 人工智能
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
Diff-Instruct 是一种从预训练扩散模型中迁移知识的通用框架,通过最小化积分Kullback-Leibler散度,指导其他生成模型的训练,提升生成性能。
374 11
Diff-Instruct:指导任意生成模型训练的通用框架,无需额外训练数据即可提升生成质量
|
人工智能 Kubernetes Cloud Native
跨越鸿沟:PAI-DSW 支持动态数据挂载新体验
本文讲述了如何在 PAI-DSW 中集成和利用 Fluid 框架,以及通过动态挂载技术实现 OSS 等存储介质上数据集的快速接入和管理。通过案例演示,进一步展示了动态挂载功能的实际应用效果和优势。
|
机器学习/深度学习 传感器 数据采集
基于机器学习的数据分析:PLC采集的生产数据预测设备故障模型
本文介绍如何利用Python和Scikit-learn构建基于PLC数据的设备故障预测模型。通过实时采集温度、振动、电流等参数,进行数据预处理和特征提取,选择合适的机器学习模型(如随机森林、XGBoost),并优化模型性能。文章还分享了边缘计算部署方案及常见问题排查,强调模型预测应结合定期维护,确保系统稳定运行。
1175 0
|
机器学习/深度学习 人工智能 自然语言处理
模型训练数据-MinerU一款Pdf转Markdown软件
MinerU是由上海人工智能实验室OpenDataLab团队开发的开源智能数据提取工具,专长于复杂PDF文档的高效解析与提取。它能够将含有图片、公式、表格等多模态内容的PDF文档转化为Markdown格式,同时支持从网页和电子书中提取内容,显著提升了AI语料准备的效率。MinerU具备高精度的PDF模型解析工具链,能自动识别乱码,保留文档结构,并将公式转换为LaTeX格式,广泛适用于学术、财务、法律等领域。
2754 4
|
机器学习/深度学习 数据采集 数据处理
谷歌提出视觉记忆方法,让大模型训练数据更灵活
谷歌研究人员提出了一种名为“视觉记忆”的方法,结合了深度神经网络的表示能力和数据库的灵活性。该方法将图像分类任务分为图像相似性和搜索两部分,支持灵活添加和删除数据、可解释的决策机制以及大规模数据处理能力。实验结果显示,该方法在多个数据集上取得了优异的性能,如在ImageNet上实现88.5%的top-1准确率。尽管有依赖预训练模型等限制,但视觉记忆为深度学习提供了新的思路。
345 2
|
机器学习/深度学习 存储 人工智能
揭秘机器学习背后的神秘力量:如何高效收集数据,让AI更懂你?
【10月更文挑战第12天】在数据驱动的时代,机器学习广泛应用,从智能推荐到自动驾驶。本文以电商平台个性化推荐系统为例,探讨数据收集方法,包括明确数据需求、选择数据来源、编写代码自动化收集、数据清洗与预处理及特征工程,最终完成数据的训练集和测试集划分,为模型训练奠定基础。
468 3

热门文章

最新文章