机器学习为何重要|通过计算一个句子的音节总数证明给你看

简介:

 对信息时代的大多数人来说,如果想通过电脑编程解决一些难题,你只有两种方法:查找式和启发式。


现在,便利的机器学习算法的出现提供了新的有力选择,我们可以用它来解决一些以前无法解决的问题。




我们用这个看似简单实则困难的例子,计算一个句子里面音节的总数来说明机器学习的强大。


◆ ◆ 

计算一个句子里面音节的总数


解决这个难题的一个方法是从现有的列表里去寻找答案。似乎我们可以通过简单地查字典,找出每一个词的音节数,然后把所有的词加起来就得到了总数。


这个非常直接的方法在实践中很快就失效了。


因为实际的句子中包含出乎意料之多的没有收录在普通字典里的单词,如外来词,姓名,拼写错误,流行文化词,俚语等。字典通常不包含一个单词的所有变异体,也不包含所有单词的音节数。如果一个句子中即使只有一个单词我们找不到,使用这种查找的办法就解决不了问题。因此,这种方法非常局限,很多情况下不能使用。


作为替代,多数软件使用启发式的或者称作“聪明的算法”。这种方法汇总一套用某种编程语言写下来的算法,或一系列的指令让计算机去遵从。只要你对问题了解得足够好,能够写下来这些算法,启发式算法则能非常有力地解决问题并能得到很好的结果。不幸的是,它们很脆弱——计算机只会照着指令执行。



如果你的问题有许多特例,你必须不断地在算法里面增加特殊的逻辑,当问题变得越来越微妙时,比如检测自然语言(examing nature langguage)——启发式就会失败,而且超过一定阈值,则没有办法再改进。超过某个点,启发式在一堆相互矛盾的特例中纠结成一团乱麻,顾此而失彼。


◆ ◆ 

而机器学习会采用一个完全不同的方法


程序员不再需要写算法,只要选择一个机器学习的模型应用于训练数据就可以了。基于反馈机制,模型会进行自调节来得到理想的结果。


一个好的模型可以学习到数据中潜在的规则,即便这些规则是复杂的,例如我们自己写程序时,因为没有完全理解问题而写出的不够明确的规则,但只要反馈机制是扎实可靠的,模型就可以对自身进行动态的调整,并可学习在这个系统建立最初培训中没有学到的数据中的变化。如果能够建立一个比较好地查出实际句子中音节数的机器学习模型,并且定期的给它反馈,我们就可以期望随着时间的推移,它变得越来越来好– 即使有从不同来源的新词加入。



启发式和机器学习有相反的特征。


一个启发式可以很快地提供非常好的结果,但是当数据量增加、或一些之前没有料到的特例出现时,它的质量就会变得不可靠。想要提高启发式则需要不断地修改它的代码,而且会逐渐变得复杂和昂贵。一旦错过了某些时机,想要改良启发式也会变得几乎不可能。相比之下,虽然一个机器学习模型在最初的阶段需要更多的功夫来创造和训练,但是之后它就可以通过学习来不断提高它自己。这种提高是通过从更多的数据中学习得来的,而不是通过重新设计算法。最终,这个机器学习模型可以通过学习处理一些连我们都无法清晰表述的微小的规则。这是一个从根本上与我们所了解的查找或启发式方法都不同的功能,它帮我们创造出的软件解决方案是之前通过查找和启发法所无法达到的。


机器学习本身并不是一个新的方法,但它的使用已经开始大爆发。这种爆发是通过多种因素综合作用驱使的,如提高了的训练方法、逐渐增长的电脑的计算能力、巨大型“大数据”数据集中启发式显露出的缺陷、以及机器学习工具包的可用性的不断改善。


机器学习的真正价值在于它为我们开辟了一个全新的技术能力,可以很好地解决基于查找或是启发式无法处理的棘手问题。我们现在可以重新审视以前觉得遥不可及的挑战,并期待着有更多的新一代产品能够应用这个强大的新方法。


原文发布时间为:2016-08-19

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
8月前
|
人工智能 分布式计算 算法框架/工具
揭开阿里巴巴PAI的神秘面纱:引领人工智能计算的新篇章
揭开阿里巴巴PAI的神秘面纱:引领人工智能计算的新篇章 随着人工智能技术的飞速发展,越来越多的企业开始关注并投入到AI的研究和应用中。阿里巴巴作为全球领先的科技公司,也在AI领域做出了卓越的贡献。今天,就让我们一起来揭开阿里巴巴PAI的神秘面纱,了解这个强大的AI平台如何引领人工智能计算的新篇章。 PAI,全称阿里巴巴公共AI平台,是一个集数据准备、模型开发与训练、模型部署于一体的综合性AI平台。PAI的业务架构分为五层,从基础设施层到业务层,涵盖了AI计算的全过程。
587 2
|
机器学习/深度学习 算法 数据挖掘
23 机器学习 - 证明SVM(上)
23 机器学习 - 证明SVM(上)
78 1
|
3月前
|
机器学习/深度学习 程序员
【机器学习】朴素贝叶斯原理------迅速了解常见概率的计算
【机器学习】朴素贝叶斯原理------迅速了解常见概率的计算
|
7月前
|
机器学习/深度学习 调度 云计算
大规模机器学习的计算资源管理
【6月更文挑战第3天】在机器学习中,计算资源是关键所在,相当于驱动模型运行的“燃料”。有效管理计算资源涉及了解硬件性能、合理分配资源及采用优化策略,如任务调度。Python 示例展示了如何使用 multiprocessing 进行并行处理。随着云计算的发展,更多工具帮助我们扩展和管理计算资源。机器学习的计算资源管理是一场持续的探索游戏,旨在实现高效运行和创新成果。准备好投身这个激动人心的领域了吗?
90 1
|
7月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
403 0
|
7月前
|
机器学习/深度学习 人工智能 分布式计算
PAI底层支持多种计算框架
PAI底层支持多种计算框架:
141 0
|
8月前
|
算法
*PAI与静息心率紧密相关,因为静息心率是计算PAI值的重要参数之一
【4月更文挑战第12天】*PAI与静息心率紧密相关,因为静息心率是计算PAI值的重要参数之一
99 3
|
机器学习/深度学习 算法
经典机器学习系列(六)【集成学习】之周志华西瓜书-AdaBoost算法证明解析
经典机器学习系列(六)【集成学习】之周志华西瓜书-AdaBoost算法证明解析
175 0
|
8月前
|
机器学习/深度学习 数据采集 监控
构建高效机器学习模型的策略与实践云端防御:融合云计算与网络安全的未来策略
【4月更文挑战第29天】 在数据驱动的时代,构建一个高效的机器学习模型对于解决复杂问题至关重要。本文将探讨一系列策略和最佳实践,旨在提高机器学习模型的性能和泛化能力。我们将从数据处理的重要性入手,进而讨论模型选择、训练技巧、超参数调优以及模型评估方法。通过这些策略的实施,读者将能够构建出更加健壮、准确的模型,并有效地避免过拟合和欠拟合问题。
|
8月前
|
机器学习/深度学习 SQL 人工智能
人工智能平台PAI产品使用合集之如何通过机器学习PAI 的Alink实现大量数据两两计算相关性
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。