大数据导论

简介: 大数据导论

第五章:

1.三类框架:批处理框架、流式处理框架、交互式处理框架。

2.分而治之的思想:将数据处理拆分主要的为Map和 Reduce两步

3.主要阶段:input、split、Map、Shuffle、Reduce、Final reduce

4.调度机制、资源表示模型、可靠性、扩展性、支持的计算框架

5.Spark拥有比Hadoop更快速地处理能力、易于使用、通用性强、可用性高

6.1.flatmap:将一整段文字映射成一个字符串数据

2.mapToPair:将Word映射成(word,1)

3.reducebykey:按照key进行group and plus 操作,将得到最终结果

4.collect

第六章

1.数据挖掘就是从大量数据中找出对人们有用的信息的过程,是指从大量数据中提取隐含的、先前未知有价值的知识和规则。

  1. 关联分析:发现大量数据中隐藏的关联性和相关性,进而描述出一个事物中某些属性同时出现的规律和模式
    分类分析:预测性算法,输出变量为离散型
    聚类分析:描述性算法,实现对样本的细分使得同组内的样本特征较为相似、

3.(1)发现频繁项集,即计算所有可能组合数的支持度。

(2)发现关联规则,即计算不小于人为设定的最小支持度集合的置信度。

4.分类属于监督学习,通过对已知分类数据进行训练和学习;聚类属于无监督学习。

5.RapidMiner、WEKA、KNIME、Orange、R语言、Mining;

RapidMiner避免了Hadoop 集群技术的复杂性,简化和加速了在Hadoop上的分析。

WEKA非常多面,同RapidMiner相比,它更自由,用户可以根据自己的意愿来随意定制

Orange的好处是使用简单些,但缺点是控制能力要比KNIME弱

R语言是自由软件,兼容性也很好,是数据可视化的先驱并有不断更新的加载包。

Mining 具备可视编程、交互式可视化等功能,以及可以用于数据科学教育。

第七章

1.可视化是一种使复杂信息能够更容易和快速被人理解的手段,是一种聚焦在信息重要特征的信息压缩,是可以放大人类感知的图形化表示方法;可视化就是把数据、信息和知识转化为可视的形式并让使用者获得对数据更深层次认识的过程。

2.如今数据可视化的发展已经日渐丰富与完善,甚至已经与三维、虚拟现实联系起来,并且随着计算机技术的发展,可视化技术也将越来越成熟。

3.有科学可视化、信息可视化、可视化分析学。

4.入门级工具:excel;信息图表工具:Visem、Canva InfographIC Maker 、Google Charts、Piktochart、Venngage、VIzualize、Easel.ly;地图工具:MapShaper、CartoDB、Mapbox、MapStack;时间线工具:三维螺旋时间线、交互时间线、棋盘时间线、复杂时间线;高级分析工具:R、D3、Python。

5.数据可视化的应用前进十分广泛,其技术的发展可以大大促进虚拟现实技术以及数据挖掘技术和人工智能技术的发展的发展,以及将来在商务、金融和通信等领域,也会有广泛的应用全景

第八章

1.云计算是一种通过因特网服务的方式提供动态可伸缩的虚拟化的资源的计算形式

2.由SaaS、PaaS、和LaaS组成的云计算平台架构,以及计算、储存、网络组成的云计算基础架构

3.云计算和大数据既有区别又有联系:他们都是为数据储存和处理服务,都需要占用大量的储存和计算资源;但是他们的目的不同、处理对象不同、所推动的企业也不同。云计算为大数据提供了有力的发掘工具和途径,大数据为云计算提供了施展空间。

4.云计算作为一种融合的计算模式,随着云计算在企业以及日常生活应用范围的不断扩大,必将对云计算在企业以及日常生活应用范围的不断扩大,必将对云计算产业链的上游企业和下游企业产生非常深远的影响

5.关于智慧医疗的疾病治疗、疾病预测、以及可穿戴设备;电子商务的个性化商品推荐、个性化营销、智慧物流;智慧城市的智慧交通、智能电网。

第九章

1.人工智能是科研人员研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术以及系统的一门新的技术科学

2.得益于统计学习成为人工智能走向实用的理论基础,同时神经网络学科得到了较大发展、再加上互联网的大数据出现了井喷

3.认识论的局限性、智能化方法与途径方面的局限性、数学基础的局限性、计算机模型的局限性、实现技术方面的局限性。

4.提到要推动互联网、大数据与人工智能和实体经济结合。我国拥有最大的人工智能市场,在数据量上有无可比拟的优势,但我国的大数据战略还刚起步,在理论研究、核心技术等领域还不如其他发达国家,这些方面都将是我国今后大数据发展道路上的挑战。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
存储 缓存 文件存储
如何保证分布式文件系统的数据一致性
分布式文件系统需要向上层应用提供透明的客户端缓存,从而缓解网络延时现象,更好地支持客户端性能水平扩展,同时也降低对文件服务器的访问压力。当考虑客户端缓存的时候,由于在客户端上引入了多个本地数据副本(Replica),就相应地需要提供客户端对数据访问的全局数据一致性。
32689 78
如何保证分布式文件系统的数据一致性
|
前端开发 容器
HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局(上)
HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第8章FlexBox布局
17737 19
|
设计模式 存储 监控
设计模式(C++版)
看懂UML类图和时序图30分钟学会UML类图设计原则单一职责原则定义:单一职责原则,所谓职责是指类变化的原因。如果一个类有多于一个的动机被改变,那么这个类就具有多于一个的职责。而单一职责原则就是指一个类或者模块应该有且只有一个改变的原因。bad case:IPhone类承担了协议管理(Dial、HangUp)、数据传送(Chat)。good case:里式替换原则定义:里氏代换原则(Liskov 
36674 19
设计模式(C++版)
|
存储 编译器 C语言
抽丝剥茧C语言(初阶 下)(下)
抽丝剥茧C语言(初阶 下)
|
机器学习/深度学习 人工智能 自然语言处理
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
带你简单了解Chatgpt背后的秘密:大语言模型所需要条件(数据算法算力)以及其当前阶段的缺点局限性
24751 14
|
机器学习/深度学习 弹性计算 监控
重生之---我测阿里云U1实例(通用算力型)
阿里云产品全线降价的一力作,2023年4月阿里云推出新款通用算力型ECS云服务器Universal实例,该款服务器的真实表现如何?让我先测为敬!
36657 15
重生之---我测阿里云U1实例(通用算力型)
|
SQL 存储 弹性计算
Redis性能高30%,阿里云倚天ECS性能摸底和迁移实践
Redis在倚天ECS环境下与同规格的基于 x86 的 ECS 实例相比,Redis 部署在基于 Yitian 710 的 ECS 上可获得高达 30% 的吞吐量优势。成本方面基于倚天710的G8y实例售价比G7实例低23%,总性价比提高50%;按照相同算法,相对G8a,性价比为1.4倍左右。
|
存储 算法 Java
【分布式技术专题】「分布式技术架构」手把手教你如何开发一个属于自己的限流器RateLimiter功能服务
随着互联网的快速发展,越来越多的应用程序需要处理大量的请求。如果没有限制,这些请求可能会导致应用程序崩溃或变得不可用。因此,限流器是一种非常重要的技术,可以帮助应用程序控制请求的数量和速率,以保持稳定和可靠的运行。
29834 52

热门文章

最新文章

下一篇
开通oss服务