《python 与数据挖掘 》 一 导读

简介: Preface 前  言 为什么要写本书? Python是什么? Python是一种带有动态语义的、解释性的、面向对象的高级编程语言。其高级内置数据结构,结合动态类型和动态绑定,使其对于敏捷软件开发非常具有吸引力。


315e32e44057297551fe20d0f05d41f0460b1db7


前  言
为什么要写本书?
Python是什么?
Python是一种带有动态语义的、解释性的、面向对象的高级编程语言。其高级内置数据结构,结合动态类型和动态绑定,使其对于敏捷软件开发非常具有吸引力。同时,Python作为脚本型(胶水)语言连接现有的组件也十分高效。Python语法简洁,可读性强,从而能降低程序的维护成本。不仅如此,Python支持模块和包,鼓励程序模块化和代码重用。
Python语言的解释性使其语法更接近人类的表达和思维过程,开发程序的效率极高。习惯使用Python者,总习惯在介绍Python时强调一句话:“人生苦短,我用Python。”由于没有编译步骤,“写代码—测试—调试”的流程能被快速地反复执行。
作为一款用途广泛的语言,Python在数据分析与机器学习领域的表现,称得上“一任群芳妒”。2016年3月,国外知名技术问答社区StackOverflow发布了《2016年开发者调查报告》。此调查号称是有史以来最为全面的开发者调查。其中,数据科学家的十大技术栈中,有7个包含Python。具体来说,数据科学家中有63%正在使用Python,44%正在使用R语言。而且,27%的人同时使用这两种语言。Python还在“最多人使用的技术”“最受欢迎技术”“需求度最高技术”等榜单中名列前十。
Python的明显优势:
Python作为一款优雅、简洁的开源编程语言,吸引了世界各地顶尖的编程爱好者的注意力。每天都有数量众多的开源项目更新自己的功能,作为第三方模块为其他开发者提供更加高效、便利的支持。
Python提供了丰富的API和工具,以便程序员能够轻松地使用C、C++、Cython来编写扩充模块,从而集成多种语言的代码,协同工作。一些算法在底层用C实现后,封装在Python模块中,性能非常高效。
Python受到世界各地开发者的一致喜爱,在世界范围内被广泛使用。这意味着读者可以通过查看代码范例,快速学习和掌握相关内容。
Python语言简单易学,语法清晰。Python开发者的哲学是“用一种方法,最好是只有一种方法来做一件事”。通常,相较其他语言,Python的源代码被认为具有更好的可读性。
2004年,Python 已在Google 内部使用,他们的宗旨是:Python where we can,C++ where we must,即在操控硬件的场合使用C++,在快速开发时使用Python。
总的来说,Python是一款用于数据统计、分析、可视化等任务,以及机器学习、人工智能等领域的高效开发语言。它能满足几乎所有数据挖掘下所需的数据处理、统计模型和图表绘制等功能需求。大量的第三方模块所支持的内容涵盖了从统计计算到机器学习,从金融分析到生物信息,从社会网络分析到自然语言处理,从各种数据库各种语言接口到高性能计算模型等领域。随着大数据时代的来临,数据挖掘将更加广泛地渗透到各行各业中去,而Python作为数据挖掘里的热门工具,将会有更多不同行业的人加入到Python爱好者的行列中来。完全面向对象的Python的教学工作也将成为高校中数学与统计学专业的重点发展对象,这是大数据时代下的必然趋势。
本书特色
笔者从实际应用出发,结合实际例子及应用场景,深入浅出地介绍Python开发环境的搭建、Python基础入门、函数、面向对象编程、实用模块和图表绘制及常用的建模算法在Python中的实现方式。本书的编排以Python语言的函数应用为主,先介绍了函数的应用场景及使用格式,再给出函数的实际使用示例,最后对函数的运行结果做出了解释,将掌握函数应用的所需知识点按照实际使用的流程展示出来。

   

目录
前言

第一部分 基础篇
第1章 数据挖掘概述
1.1   数据挖掘简介
1.2  [工具简介( https://yq.aliyun.com/articles/89440)
1.2.1 WEKA
1.2.2 RapidMiner
1.2.3 Python
1.2.4 R
1.3  Python开发环境的搭建
1.3.1 Python安装
1.3.2 Python初识
1.3.3 与读者的约定
1.4  小结 15
第2章 Python基础入门
2.1  常用操作符
2.1.1 算术操作符
2.1.2 赋值操作符
2.1.3 比较操作符
2.1.4 逻辑操作符
2.1.5 操作符优先级
2.2  数字数据
2.2.1 变量与赋值
2.2.2 数字数据类型
2.3  流程控制
2.3.1 if语句
2.3.2 while循环
2.3.3 for循环
2.4  数据结构
2.4.1 列表
2.4.2 字符串
2.4.3 元组
2.4.4 字典
2.4.5 集合
2.5  文件的读写
2.5.1 改变工作目录
2.5.2 txt文件读取
2.5.3 csv文件读取
2.5.4 文件输出
2.5.5 使用JSON处理数据
2.6  上机实验
第3章  函数
3.1  创建函数
3.2 函数参数
3.3  可变对象与不可变对象
3.4  作用域
3.5 上机实验
第4章 面向对象编程
4.1 简介
4.2 类与对象
4.3 __init__方法
4.4 对象的方法
4.5 继承
4.6 上机实验
第5章 Python实用模块
5.1 什么是模块
5.2 NumPy
5.3 Pandas
5.4 SciPy
5.5 scikit-learn
5.6 其他Python常用模块
5.7 小结
5.8 上机实验
第6章 图表绘制入门
6.1 Matplotlib
6.2 Bokeh
6.3 其他优秀的绘图模块
6.4 小结
6.5 上机实验
第二部分 建模应用篇
第7章 分类与预测
7.1 回归分析
7.1.1 线性回归
7.1.2 逻辑回归
7.2 决策树
7.2.1 ID3算法
7.2.2 其他树模型
7.3 人工神经网络
7.4 kNN算法
7.5 朴素贝叶斯分类算法
7.6 小结
7.7 上机实验
第8章 聚类分析建模
8.1 K-Means聚类分析函数
8.2 系统聚类算法
8.3 DBSCAN聚类算法
8.4 上机实验
第9章 关联规则分析
9.1 Apriori关联规则算法
9.2 Apriori在Python中的实现
9.3 小结
9.4 上机实验
第10章 智能推荐
10.1 基于用户的协同过滤算法
10.2 基于用户的协同过滤算法在Python中的实现
11570.3 小结
10.1574 上机实验
第11章 159时间序列分析
11.1  159ARIMA模型
11711.2 小结
11.3172 上机实验 174
参考文献

相关文章
|
3天前
|
数据处理 Python
如何使用Python的Pandas库进行数据排序和排名
【4月更文挑战第22天】Pandas Python库提供数据排序和排名功能。使用`sort_values()`按列进行升序或降序排序,如`df.sort_values(by='A', ascending=False)`。`rank()`函数用于计算排名,如`df['A'].rank(ascending=False)`。多列操作可传入列名列表,如`df.sort_values(by=['A', 'B'], ascending=[True, False])`和分别对'A'、'B'列排名。
13 2
|
2天前
|
机器学习/深度学习 算法 数据挖掘
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-2
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
23 1
|
1天前
|
机器学习/深度学习 算法 Python
数据分享|Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户
数据分享|Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户
16 4
|
1天前
|
机器学习/深度学习 算法 算法框架/工具
数据分享|PYTHON用KERAS的LSTM神经网络进行时间序列预测天然气价格例子
数据分享|PYTHON用KERAS的LSTM神经网络进行时间序列预测天然气价格例子
18 0
|
1天前
|
机器学习/深度学习 数据挖掘 网络架构
Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析
Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析
12 0
|
2天前
|
数据挖掘 数据处理 索引
如何使用Python的Pandas库进行数据筛选和过滤?
Pandas是Python数据分析的核心库,提供DataFrame数据结构。基本步骤包括导入库、创建DataFrame及进行数据筛选。示例代码展示了如何通过布尔索引、`query()`和`loc[]`方法筛选`Age`大于19的记录。
10 0
|
4天前
|
Python
如何使用Python的Pandas库进行数据缺失值处理?
Pandas在Python中提供多种处理缺失值的方法:1) 使用`isnull()`检查;2) `dropna()`删除含缺失值的行或列;3) `fillna()`用常数、前后值填充;4) `interpolate()`进行插值填充。根据需求选择合适的方法处理数据缺失。
35 9
|
6天前
|
索引 Python
如何使用Python的Pandas库进行数据透视表(pivot table)操作?
使用Pandas在Python中创建数据透视表的步骤包括:安装Pandas库,导入它,创建或读取数据(如DataFrame),使用`pd.pivot_table()`指定数据框、行索引、列索引和值,计算聚合函数(如平均分),并可打印或保存结果到文件。这允许对数据进行高效汇总和分析。
10 2
|
6天前
|
JSON 关系型数据库 数据库
《Python 简易速速上手小册》第6章:Python 文件和数据持久化(2024 最新版)
《Python 简易速速上手小册》第6章:Python 文件和数据持久化(2024 最新版)
33 0
|
7天前
|
机器学习/深度学习 Python 数据处理
Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力负荷数据
Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力负荷数据
30 0
Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力负荷数据