第五章:
1.三类框架:批处理框架、流式处理框架、交互式处理框架。
2.分而治之的思想:将数据处理拆分主要的为Map和 Reduce两步
3.主要阶段:input、split、Map、Shuffle、Reduce、Final reduce
4.调度机制、资源表示模型、可靠性、扩展性、支持的计算框架
5.Spark拥有比Hadoop更快速地处理能力、易于使用、通用性强、可用性高
6.1.flatmap:将一整段文字映射成一个字符串数据
2.mapToPair:将Word映射成(word,1)
3.reducebykey:按照key进行group and plus 操作,将得到最终结果
4.collect
第六章
1.数据挖掘就是从大量数据中找出对人们有用的信息的过程,是指从大量数据中提取隐含的、先前未知有价值的知识和规则。
- 关联分析:发现大量数据中隐藏的关联性和相关性,进而描述出一个事物中某些属性同时出现的规律和模式
分类分析:预测性算法,输出变量为离散型
聚类分析:描述性算法,实现对样本的细分使得同组内的样本特征较为相似、
3.(1)发现频繁项集,即计算所有可能组合数的支持度。
(2)发现关联规则,即计算不小于人为设定的最小支持度集合的置信度。
4.分类属于监督学习,通过对已知分类数据进行训练和学习;聚类属于无监督学习。
5.RapidMiner、WEKA、KNIME、Orange、R语言、Mining;
RapidMiner避免了Hadoop 集群技术的复杂性,简化和加速了在Hadoop上的分析。
WEKA非常多面,同RapidMiner相比,它更自由,用户可以根据自己的意愿来随意定制
Orange的好处是使用简单些,但缺点是控制能力要比KNIME弱
R语言是自由软件,兼容性也很好,是数据可视化的先驱并有不断更新的加载包。
Mining 具备可视编程、交互式可视化等功能,以及可以用于数据科学教育。
第七章
1.可视化是一种使复杂信息能够更容易和快速被人理解的手段,是一种聚焦在信息重要特征的信息压缩,是可以放大人类感知的图形化表示方法;可视化就是把数据、信息和知识转化为可视的形式并让使用者获得对数据更深层次认识的过程。
2.如今数据可视化的发展已经日渐丰富与完善,甚至已经与三维、虚拟现实联系起来,并且随着计算机技术的发展,可视化技术也将越来越成熟。
3.有科学可视化、信息可视化、可视化分析学。
4.入门级工具:excel;信息图表工具:Visem、Canva InfographIC Maker 、Google Charts、Piktochart、Venngage、VIzualize、Easel.ly;地图工具:MapShaper、CartoDB、Mapbox、MapStack;时间线工具:三维螺旋时间线、交互时间线、棋盘时间线、复杂时间线;高级分析工具:R、D3、Python。
5.数据可视化的应用前进十分广泛,其技术的发展可以大大促进虚拟现实技术以及数据挖掘技术和人工智能技术的发展的发展,以及将来在商务、金融和通信等领域,也会有广泛的应用全景
第八章
1.云计算是一种通过因特网服务的方式提供动态可伸缩的虚拟化的资源的计算形式
2.由SaaS、PaaS、和LaaS组成的云计算平台架构,以及计算、储存、网络组成的云计算基础架构
3.云计算和大数据既有区别又有联系:他们都是为数据储存和处理服务,都需要占用大量的储存和计算资源;但是他们的目的不同、处理对象不同、所推动的企业也不同。云计算为大数据提供了有力的发掘工具和途径,大数据为云计算提供了施展空间。
4.云计算作为一种融合的计算模式,随着云计算在企业以及日常生活应用范围的不断扩大,必将对云计算在企业以及日常生活应用范围的不断扩大,必将对云计算产业链的上游企业和下游企业产生非常深远的影响
5.关于智慧医疗的疾病治疗、疾病预测、以及可穿戴设备;电子商务的个性化商品推荐、个性化营销、智慧物流;智慧城市的智慧交通、智能电网。
第九章
1.人工智能是科研人员研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术以及系统的一门新的技术科学
2.得益于统计学习成为人工智能走向实用的理论基础,同时神经网络学科得到了较大发展、再加上互联网的大数据出现了井喷
3.认识论的局限性、智能化方法与途径方面的局限性、数学基础的局限性、计算机模型的局限性、实现技术方面的局限性。
4.提到要推动互联网、大数据与人工智能和实体经济结合。我国拥有最大的人工智能市场,在数据量上有无可比拟的优势,但我国的大数据战略还刚起步,在理论研究、核心技术等领域还不如其他发达国家,这些方面都将是我国今后大数据发展道路上的挑战。