大数据导论

简介: 大数据导论

第五章:

1.三类框架:批处理框架、流式处理框架、交互式处理框架。

2.分而治之的思想:将数据处理拆分主要的为Map和 Reduce两步

3.主要阶段:input、split、Map、Shuffle、Reduce、Final reduce

4.调度机制、资源表示模型、可靠性、扩展性、支持的计算框架

5.Spark拥有比Hadoop更快速地处理能力、易于使用、通用性强、可用性高

6.1.flatmap:将一整段文字映射成一个字符串数据

2.mapToPair:将Word映射成(word,1)

3.reducebykey:按照key进行group and plus 操作,将得到最终结果

4.collect

第六章

1.数据挖掘就是从大量数据中找出对人们有用的信息的过程,是指从大量数据中提取隐含的、先前未知有价值的知识和规则。

  1. 关联分析:发现大量数据中隐藏的关联性和相关性,进而描述出一个事物中某些属性同时出现的规律和模式
    分类分析:预测性算法,输出变量为离散型
    聚类分析:描述性算法,实现对样本的细分使得同组内的样本特征较为相似、

3.(1)发现频繁项集,即计算所有可能组合数的支持度。

(2)发现关联规则,即计算不小于人为设定的最小支持度集合的置信度。

4.分类属于监督学习,通过对已知分类数据进行训练和学习;聚类属于无监督学习。

5.RapidMiner、WEKA、KNIME、Orange、R语言、Mining;

RapidMiner避免了Hadoop 集群技术的复杂性,简化和加速了在Hadoop上的分析。

WEKA非常多面,同RapidMiner相比,它更自由,用户可以根据自己的意愿来随意定制

Orange的好处是使用简单些,但缺点是控制能力要比KNIME弱

R语言是自由软件,兼容性也很好,是数据可视化的先驱并有不断更新的加载包。

Mining 具备可视编程、交互式可视化等功能,以及可以用于数据科学教育。

第七章

1.可视化是一种使复杂信息能够更容易和快速被人理解的手段,是一种聚焦在信息重要特征的信息压缩,是可以放大人类感知的图形化表示方法;可视化就是把数据、信息和知识转化为可视的形式并让使用者获得对数据更深层次认识的过程。

2.如今数据可视化的发展已经日渐丰富与完善,甚至已经与三维、虚拟现实联系起来,并且随着计算机技术的发展,可视化技术也将越来越成熟。

3.有科学可视化、信息可视化、可视化分析学。

4.入门级工具:excel;信息图表工具:Visem、Canva InfographIC Maker 、Google Charts、Piktochart、Venngage、VIzualize、Easel.ly;地图工具:MapShaper、CartoDB、Mapbox、MapStack;时间线工具:三维螺旋时间线、交互时间线、棋盘时间线、复杂时间线;高级分析工具:R、D3、Python。

5.数据可视化的应用前进十分广泛,其技术的发展可以大大促进虚拟现实技术以及数据挖掘技术和人工智能技术的发展的发展,以及将来在商务、金融和通信等领域,也会有广泛的应用全景

第八章

1.云计算是一种通过因特网服务的方式提供动态可伸缩的虚拟化的资源的计算形式

2.由SaaS、PaaS、和LaaS组成的云计算平台架构,以及计算、储存、网络组成的云计算基础架构

3.云计算和大数据既有区别又有联系:他们都是为数据储存和处理服务,都需要占用大量的储存和计算资源;但是他们的目的不同、处理对象不同、所推动的企业也不同。云计算为大数据提供了有力的发掘工具和途径,大数据为云计算提供了施展空间。

4.云计算作为一种融合的计算模式,随着云计算在企业以及日常生活应用范围的不断扩大,必将对云计算在企业以及日常生活应用范围的不断扩大,必将对云计算产业链的上游企业和下游企业产生非常深远的影响

5.关于智慧医疗的疾病治疗、疾病预测、以及可穿戴设备;电子商务的个性化商品推荐、个性化营销、智慧物流;智慧城市的智慧交通、智能电网。

第九章

1.人工智能是科研人员研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术以及系统的一门新的技术科学

2.得益于统计学习成为人工智能走向实用的理论基础,同时神经网络学科得到了较大发展、再加上互联网的大数据出现了井喷

3.认识论的局限性、智能化方法与途径方面的局限性、数学基础的局限性、计算机模型的局限性、实现技术方面的局限性。

4.提到要推动互联网、大数据与人工智能和实体经济结合。我国拥有最大的人工智能市场,在数据量上有无可比拟的优势,但我国的大数据战略还刚起步,在理论研究、核心技术等领域还不如其他发达国家,这些方面都将是我国今后大数据发展道路上的挑战。

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
5月前
|
数据采集 机器学习/深度学习 监控
大数据导论考察论文
大数据导论考察论文
66 0
|
8月前
|
存储 数据采集 分布式计算
hadoop离线01--大数据导论、Apache Zookeeper
hadoop离线01--大数据导论、Apache Zookeeper
|
存储 SQL 分布式计算
图解大数据 | 大数据生态与应用导论
随着互联网高速发展,网络数据呈现出指数级别的快速增长,针对海量数据处理的大数据解决方案应运而生。ShowMeAI将在接下来的内容中逐步展开讲解大数据生态工具的应用,以及大数据的处理分析挖掘方法。
187 0
图解大数据 | 大数据生态与应用导论
|
存储 大数据
《大数据导论》——导读
本节书摘来自华章社区《大数据导论》一书中的目录,作者瓦吉德·哈塔克(Wajid Khattak),保罗·布勒(Paul Buhler),更多章节内容可以访问云栖社区“华章社区”公众号查看
1781 0

热门文章

最新文章