需要完整PPT请点赞关注收藏后评论区留言并且私信~~~
一、数据挖掘简介
面对大量的数据,迫使人们不断寻找新的工具,对规律进行探索,为决策提供有价值的信息。数据挖掘有助于发现趋势,揭示已知的事实,预测未知的结果。 人们迫切希望能够对海量数据进行分析挖掘,发现并提取隐含在数据中的有价值信息。
数据挖掘(Data Mining)是人工智能和数据库领域研究的热点问题,是指从大量有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、事先不知道但具有潜在利用价值的信息的过程。
这个定义包括几层含义:数据必须是真实的、大量的并且含有噪声的;发现的是用户感兴趣的可以接受、理解和运用的知识;仅支持特定的问题,并不要求放之四海而皆准的知识。
与数据挖掘的含义类似的还有一些术语如从数据中心挖掘知识、知识提取、数据/模式分析等。
数据挖掘--从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。
数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构;
数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。
二、数据分析与数据挖掘
数据分析(Data Analysis,DA)是数学与计算机科学相结合的产物,是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,对数据加以详细研究和概括总结的过程。数据分析和数据挖掘都是基于搜集来的数据,应用数学、统计和计算机等技术抽取出数据中的有用信息,进而为决策提供依据和指导方向。
数据分析有广义与狭义之分。广义的数据分析包括了狭义数据分析和数据挖掘
三、数据挖掘的主要任务
数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术。
数据挖掘的主要任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。
(1)关联规则挖掘由Rakesh Apwal等人首先提出。两个或两个以上变量的取值之间存在的规律称为关联。
(2)预测建模是指根据已知的数据构建出一个数据模型,然后应用这个模型对未知数据的所属分类进行预测,主要包括分类和回归两类问题。
(3)聚类是把数据按照相似性归纳成若干类别,使得同一类中的数据彼此相似,不同类中的数据尽量相异。
(4)离群点指全局或局部范围内偏离一般水平的观测对象。离群点等异常值会对数据分析与挖掘产生不良影响。
四、数据挖掘的数据源
作为一门通用的技术,只要数据对目标应用是有用的,数据挖掘就可以用于任何类型的数据。对于挖掘的应用,数据的基本形式主要有数据库数据、数据仓库、事务数据库和其它数据源。
(1)数据库系统是由一组内部相关的数据和用于管理这些数据的程序组成,通过软件程序对数据进行高效的存储和管理,并发、共享或分布式访问,并保证数据的完整性和安全性。
(2)数据仓库是依照分析需求、分析维度和分析指标进行设计的,它是数据库的一种概念上的升级。
(3)事务数据库的每个记录代表一个事务,例如一个航班的订票、顾客的一个交易等。
(4)其它类型数据 时间相关的数据和序列数据,数据流,空间数据,Web数据(HTML等)等
五、数据挖掘使用的技术
作为一个应用驱动的领域,数据挖掘吸纳了诸如统计学、机器学习、数据库和数据仓库、数据可视化、算法、高性能计算和许多应用领域的先进技术
数据库管理系统(Database Management System,DBMS)是一种操纵和管理数据库的大型软件,主要关注数据库的创建、维护和使用。
数据仓库(Datawarehouse)是面向主题的、集成的与时间相关且不可修改的数据集合。
数据库主要用于事务处理,数据仓库主要用于数据分析,用途上的差异决定了两种架构的特点不同。
从数据分析的角度来看,数据挖掘与机器学习有很多相似之处,但不同之处也十分明显,例如: 数据挖掘并没有机器学习探索人的学习机制这一科学发现任务,
数据挖掘中的数据分析是针对海量数据的,等。 从某种意义上说,机器学习的科学成分更重一些,二数据挖掘的技术成分更中一些。
六、数据挖掘存在的问题
目前,数据挖掘在很多领域取得了巨大成功,但依然存在一些具有挑战性的问题。
(1)数据类型多样化 (2)噪声数据 (3)高维度数据 (4)数据挖掘的可视化
七、数据挖掘常用建模工具
1 商用工具 商用工具主要由商用的开发商提供,通过市场销售,提供相关的服务。与开源软件相比,商用软件更强大、软件性能更加成熟稳定。主要的商用数据挖掘工具有SAS Enterprise Miner、SPSS Clementine和IBM Intelligent Miner等。
2 开源工具 开源软件的最大优势在于免费,而且让任何有能力的人参与并完善软件。相对于商用工具,开源软件工具更容易学习和掌握。常用的开源工具有R语言、Python、Weka和RapidMiner等。
Python是一种功能强大的、开源的、解释性、面向对象计算机编程语言,内建有各种高级数据结构,支持模块和包,支持多种平台并可扩展。Python语言简洁、易学习、易阅读,并在数据统计、机器学习方面得到广泛应用,是人工智能研究领域中一个非常重要的工具。
八、利用Python进行数据挖掘的优势
1. 爬取数据需要Python
2. 数据分析需要Python
3. Python语言简单高效
九、Python数据挖掘常用库
Python的第三方模块很丰富,而且语法非常简练,自由度很高。
十、Jupyter Notebook的使用
Anaconda是一个集成的Python数据科学环境,简单的说,Anaconda除了有Python外,还安装了180多个用于数据分析的第三方库,而且可以使用conda命令安装第三方库和创建多个环境。相对于只安装Python而言,避免了安装第三方库的麻烦。
Jupyter Notebook(Julia+Python+R = Jupyter)基于Web技术的交互式计算文档格式,支持Markdown和Latex语法,支持代码运行、文本输入、数学公式编辑、内嵌式画图和其他如图片文件的插入,是一个对代码友好的交互式笔记本。
1. Jupyter Notebook中的代码输入与编辑
Files 基本上列出了所有的文件,
Running 显示了当前已经打开的终端和Notebooks,
Clusters 由 IPython parallel 包提供,用于并行计算。
若要创建新的Notebook,只需单击页面右上角的New按钮,在下拉选项中选择python3,即可得到一个空的notebook界面如图1-3所示
主要由以下部分组成: notebook标题、主工具栏、快捷键、notebook编辑区。 若要重新命名notebook标题,可选择File |Rename,输入新的名称,更改后的名字就会出现在Jupyter图标的右侧。
在编辑区可以看到一个个单元(cell)。如图1-4所示,每个cell以“In[ ]”开头,可以输入正确的Python代码并执行。
Markdowm:Markdown 是一种轻量级标记语言,它允许人们使用易读易写的纯文本格式编写文档。
快捷键
创作不易 觉得有帮助请点赞关注收藏~~~