《大数据算法》一1.3　大数据算法设计与分析-阿里云开发者社区

《大数据算法》一1.3　大数据算法设计与分析

2017-06-21 2498

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本节书摘来华章计算机《大数据算法》一书中的第1章，第1.3节，王宏志　编著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.3　大数据算法设计与分析本节对大数据算法设计与分析进行概述，蜻蜓点水地罗列一些技术，具体的技术将在后面的章节详细讲授。

本节书摘来华章计算机《大数据算法》一书中的第1章，第1.3节，王宏志　编著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.3　大数据算法设计与分析

本节对大数据算法设计与分析进行概述，蜻蜓点水地罗列一些技术，具体的技术将在后面的章节详细讲授。

1.3.1　大数据算法设计技术

1.精确算法设计方法
精确算法设计技术就是传统算法设计与分析课里讲授的算法，例如贪心法、分治法、动态规划、搜索、剪枝。这些算法设计方法也是大数据算法设计中所必需的，在本书中会经常用到这些技术。
2.并行算法
并行算法是一类很重要的大数据算法设计技术。在很多人的理解中，大数据算法就等同于并行算法，但是大数据算法不完全是并行算法。
3.近似算法
近似算法的意思是说，虽然给定计算时间，给定计算资源，对于很大的数据量无法算出精确解，但是可以退而求其次，算不那么精确的解，而且这个解的不精确程度在可以忍受的范围内。这样的设计算法有一套专门的设计技术，就是所谓的近似算法。
4.随机化算法
一种很重要的技术是随机化算法设计技术。在某些情况下，可以通过增加随机化来提高算法的效率和精度。最典型的一个技术就是抽样。虽然无法处理整个数据集合，但是可以从这个集合中抽取一小部分来处理，通过这个抽样我们就能以小见大，这一部分抽样就能够体现整个大数据集合的特征。
5.在线算法/数据流算法
所谓的在线算法或者数据流算法，指的是数据源源不断地到来，根据到来的数据返回相应的部分结果。这类算法的设计思想可以应用于两种情况：一是当数据量非常大仅能扫描一次时，可以把数据看成数据流，把扫描看成数据到来，扫描一次结束；二是数据更新非常快，不能把数据全部存下来再算结果，这时候数据也可以看成一个数据流。
6.外存算法
也有人称外存算法为I/O有效算法或者I/O高效算法。这类算法不再简单地以CPU时间作为算法时间复杂度的衡量标准，而是以I/O次数作为算法时间复杂度的判断标准，在设计算法的时候，也不是简单地以CPU时间为优化目标，而是以I/O次数尽可能少为优化目标。
7.面向新型体系结构的算法
还有一种大数据处理算法是面向特定体系结构设计的，这里的特定体系结构包括多级cache，也包括GPU和FPGA。由于这些新体系结构的特征不同，所需要的算法设计技术也不同。
8.现代优化算法
现代优化方法，包括遗传算法、模拟退火、蚁群算法、禁忌搜索等。它们在传统算法设计中的智能优化方面扮演了很重要的角色，在大数据处理算法里也有用武之地，考虑到大数据中数据量大、变化快的特点，在使用这些技术设计大数据算法时需要注意算法的可扩展性。

1.3.2　大数据算法分析技术

和传统算法分析相比，大数据算法分析尤其重要。因为在大数据上进行实验所需要的成本相对“小数据”大得多，因而完成算法计算所需的资源(时间和空间)或者某种性质(如精度)难以通过实验来得到，而必须通过理论分析来求得。当设计完一个大数据算法后，可以通过算法分析来求得所需资源（例如时间、空间或磁盘I/O）或某种性质（例如算法得到的解和精确解比例）与输入规模之间的关系，这样就可以基于算法在小规模数据上的实验结果来推演出算法在大规模数据上需要的计算资源或者某种性质所能够达到的程度，从而判定算法是否可行。对于大数据算法，主要分析如下因素：
1.时间和空间复杂度
和传统算法分析类似，大数据算法同样需要进行时间和空间复杂度分析。
2. I/O复杂度
有些情况下，大数据无法完全放入内存，必须设计外存算法，这时候需要分析磁盘I/O复杂度，即在算法运行过程中读写磁盘次数。
3.结果质量
由于大数据上的一些计算问题有时在给定的资源约束内无法精确完成，需要退而求其次，设计近似算法，在这种情况下需要分析计算结果的质量和近似比，即最优解和近似解之间的比例；对于在线算法，有时候需要分析竞争比(competitive ratio)，即根据当前数据得到解的代价和知道所有数据的情况下得到解的代价相差多少。在后面章节中我们将会看到，在很多情况下，结果质量的分析往往要比结果效率的分析更复杂。
4.通信复杂度
当设计并行算法的时候，涉及多台机器，这些机器之间需要通信，这时需要知道算法运行过程中所需通信量的大小，也就是通信复杂度。
从上述介绍可以看出，大数据算法分析的内容比传统算法要丰富，也涉及更多的算法分析技术。

《大数据算法》一1.3　大数据算法设计与分析

1.3　大数据算法设计与分析

1.3.1　大数据算法设计技术

1.3.2　大数据算法分析技术

华章出版社

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

《大数据算法》一1.3 大数据算法设计与分析

1.3 大数据算法设计与分析

1.3.1 大数据算法设计技术

1.3.2 大数据算法分析技术

华章出版社

热门文章

最新文章

相关课程

相关电子书

《大数据算法》一1.3　大数据算法设计与分析

1.3　大数据算法设计与分析

1.3.1　大数据算法设计技术

1.3.2　大数据算法分析技术