对信息时代的大多数人来说,如果想通过电脑编程解决一些难题,你只有两种方法:查找式和启发式。
现在,便利的机器学习算法的出现提供了新的有力选择,我们可以用它来解决一些以前无法解决的问题。
我们用这个看似简单实则困难的例子,计算一个句子里面音节的总数来说明机器学习的强大。
◆ ◆ ◆
计算一个句子里面音节的总数
解决这个难题的一个方法是从现有的列表里去寻找答案。似乎我们可以通过简单地查字典,找出每一个词的音节数,然后把所有的词加起来就得到了总数。
这个非常直接的方法在实践中很快就失效了。
因为实际的句子中包含出乎意料之多的没有收录在普通字典里的单词,如外来词,姓名,拼写错误,流行文化词,俚语等。字典通常不包含一个单词的所有变异体,也不包含所有单词的音节数。如果一个句子中即使只有一个单词我们找不到,使用这种查找的办法就解决不了问题。因此,这种方法非常局限,很多情况下不能使用。
作为替代,多数软件使用启发式的或者称作“聪明的算法”。这种方法汇总一套用某种编程语言写下来的算法,或一系列的指令让计算机去遵从。只要你对问题了解得足够好,能够写下来这些算法,启发式算法则能非常有力地解决问题并能得到很好的结果。不幸的是,它们很脆弱——计算机只会照着指令执行。
如果你的问题有许多特例,你必须不断地在算法里面增加特殊的逻辑,当问题变得越来越微妙时,比如检测自然语言(examing nature langguage)——启发式就会失败,而且超过一定阈值,则没有办法再改进。超过某个点,启发式在一堆相互矛盾的特例中纠结成一团乱麻,顾此而失彼。
◆ ◆ ◆
而机器学习会采用一个完全不同的方法
程序员不再需要写算法,只要选择一个机器学习的模型应用于训练数据就可以了。基于反馈机制,模型会进行自调节来得到理想的结果。
一个好的模型可以学习到数据中潜在的规则,即便这些规则是复杂的,例如我们自己写程序时,因为没有完全理解问题而写出的不够明确的规则,但只要反馈机制是扎实可靠的,模型就可以对自身进行动态的调整,并可学习在这个系统建立最初培训中没有学到的数据中的变化。如果能够建立一个比较好地查出实际句子中音节数的机器学习模型,并且定期的给它反馈,我们就可以期望随着时间的推移,它变得越来越来好– 即使有从不同来源的新词加入。
启发式和机器学习有相反的特征。
一个启发式可以很快地提供非常好的结果,但是当数据量增加、或一些之前没有料到的特例出现时,它的质量就会变得不可靠。想要提高启发式则需要不断地修改它的代码,而且会逐渐变得复杂和昂贵。一旦错过了某些时机,想要改良启发式也会变得几乎不可能。相比之下,虽然一个机器学习模型在最初的阶段需要更多的功夫来创造和训练,但是之后它就可以通过学习来不断提高它自己。这种提高是通过从更多的数据中学习得来的,而不是通过重新设计算法。最终,这个机器学习模型可以通过学习处理一些连我们都无法清晰表述的微小的规则。这是一个从根本上与我们所了解的查找或启发式方法都不同的功能,它帮我们创造出的软件解决方案是之前通过查找和启发法所无法达到的。
机器学习本身并不是一个新的方法,但它的使用已经开始大爆发。这种爆发是通过多种因素综合作用驱使的,如提高了的训练方法、逐渐增长的电脑的计算能力、巨大型“大数据”数据集中启发式显露出的缺陷、以及机器学习工具包的可用性的不断改善。
机器学习的真正价值在于它为我们开辟了一个全新的技术能力,可以很好地解决基于查找或是启发式无法处理的棘手问题。我们现在可以重新审视以前觉得遥不可及的挑战,并期待着有更多的新一代产品能够应用这个强大的新方法。
原文发布时间为:2016-08-19
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号