《大数据算法》一1.4 本书的内容

简介: 本节书摘来华章计算机《大数据算法》一书中的第1章 ,第1.4节,王宏志 编著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。 1.4 本书的内容 基于大数据的定义、大数据算法的定义以及大数据算法的特点,本书按照如下方式组织: 第一部分是亚线性算法,包括时间亚线性算法(第2章)和空间亚线性算法(第3章),其中包括如何利用近似算法和随机化算法设计思想来设计和分析亚线性算法。

本节书摘来华章计算机《大数据算法》一书中的第1章 ,第1.4节,王宏志 编著, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

1.4 本书的内容

基于大数据的定义、大数据算法的定义以及大数据算法的特点,本书按照如下方式组织:
第一部分是亚线性算法,包括时间亚线性算法(第2章)和空间亚线性算法(第3章),其中包括如何利用近似算法和随机化算法设计思想来设计和分析亚线性算法。
第二部分是外存算法,将讨论如何面向外存来设计I/O有效的算法,包括外存算法概述(第4章)、外存查找结构(第5章)和外存图数据算法(第6章)。
第三部分是并行算法,由于并行算法的内容非常广泛,本书仅介绍数据密集型并行算法,包括MapReduce算法概述(第7章)、MapReduce算法例析(第8章)和超越MapReduce的并行大数据处理(第9章)。
最后,第10章介绍众包算法,讨论如何利用众包解决问题,使用众包时有哪些算法设计问题。
由于本书篇幅有限,覆盖的内容偏广,每一部分算法的例子有限,如果读者想进一步了解更多的例子,请阅读相应的文献。
习题
1.1 谈谈对“大数据”这个词的理解,以及对业界竞争关系的分析和未来发展方向的判断。
1.2 请举出需要亚线性算法的实例,并说明何种问题需要何种资源的亚线性。
1.3 请针对你所了解的推荐系统,讨论推荐系统中需要哪些大数据算法。
1.4 请说出你所接触过的最大数据量,以及在这种大数据量的数据上进行了何种计算,运用了何种大数据算法。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
数据采集 SQL 数据可视化
大数据可视化技巧:借助PowerBI提升数据故事讲述力
【4月更文挑战第8天】Power BI助力大数据可视化,支持多种数据源连接,如SQL Server、Excel,提供数据清洗与转换功能。通过选择合适图表类型、运用颜色和大小强化表达,创建交互式仪表板。讲述数据故事时,注重故事主线设计,利用叙事技巧引导观众,并添加文本说明。分享已完成报告,提升数据驱动决策能力。动手实践,体验Power BI的强大与易用。
39 0
|
4月前
|
SEO
技术写作:漏斗内容策略、认知博客、支柱内容、研究报告、通用门控内容、电子书和教程
顶部漏斗是指客户旅程中的认知阶段,他们第一次接触到企业或产品。在这个阶段,他们意识到自己存在问题,并开始寻找信息或解决方案。此阶段的内容旨在通过提供与他们的问题相关的解决方案或有价值的信息来吸引潜在客户的注意力和兴趣。这种内容通常是广泛而丰富的,而不是针对产品的。其目的是在建立信任和品牌权威的同时,告知和教育受众。
78 5
|
12月前
|
SEO
如何用ChatGPT做内容营销方案和选题计划,同时生产和优化内容?
该场景对应的关键词库(31个): 内容营销、目标、主题、类型、选题计划、素材、推广策略、优化方案、渠道、目标受众、竞争对手、行业背景、转化率、品牌知名度、客户参与度、销售、发布频率、选题阶段、生产阶段、推广阶段、预算分配、人群特征、话题标签、视觉元素、电子邮件、SEO、数字广告、线下广告、在线聊天、社交媒体、赞助
435 0
|
存储 数据可视化 程序员
选择文库系统的时候需要重点注意和对比哪些东西?
本人程序员出身,接近15年的代码经验,对互联网产品和运营也一直在实践和研究,尤其是对文库产品有着深度理解,因为我自己也一直在运营文库项目。下面是我站在一个普通站长角度给出的一些经验,如果你也想做一个文库网站或文库平台,需要选择一套文库系统产品,请从下面几点出发去做对比,最终做出正确选择。
选择文库系统的时候需要重点注意和对比哪些东西?
|
存储 缓存 小程序
献给所有技术内容创作者~猿创聚合助手小程序开发难点解析
我重新开始了原创技术内容创作,至今在掘金发表了原创文章60篇,47.7w阅读,1.5w赞。
214 0
献给所有技术内容创作者~猿创聚合助手小程序开发难点解析
|
数据挖掘 搜索推荐
带你读《广告数据定量分析:如何成为一位厉害的广告优化师》之二:广告数据分析中的统计学原理
这是一部面向初级广告优化师、渠道运营人员的广告数据分析和效果优化的实战指南。数据分析功底的深浅,决定了广告优化师能力水平的高低。这本书一方面告诉读者成为一名厉害的广告优化师需要掌握的数据分析技能,以及如何快速掌握这些技能;一方面又为读者总结了SEM广告、信息流广告、应用商店广告数据的分析方法论和效果优化的方法,以及多广告推广渠道的统筹优化。书中提供大量真实数据案例,助你提升广告数据分析的理论深度和业务水平。
|
数据可视化 数据挖掘 程序员
技术人最不该忽视可视化数据分析! | 9月2号栖夜读
今天的首篇文章,讲述了:在这个“人人都是数据分析师”的时代,阿里的同学几乎都在参与数据的采集、加工与消费。数据可视化作为连接“加工——消费”的重要一环,其质量至关重要。优秀的可视化能促成卓越洞见,糟糕的内容则让所有的努力失去意义。
3218 0
|
消息中间件 人工智能 自然语言处理
阿里云发布黑科技:面对海量的文本翻译任务,阿里翻译团队是如何解决的
对国际化企业来说语言问题是亟待突破的重要关口。面对海量的文本翻译任务,昂贵低效的人工翻译显然不能满足需求,利用计算机自动进行文本翻译的机器翻译才是解决这个问题的关键。阿里翻译团队在机器翻译领域做了大量技术储备,并针对我们所处的电子商务领域进行算法优化,进而打造阿里巴巴自己的机器翻译平台。
7282 0