《数据驱动安全:数据安全分析、可视化和仪表盘》一2.2.1 理解Python数据分析和可视化生态系统

本文涉及的产品
数据安全中心,免费版
简介: 本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第2章 ,第2.2.1节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第2章 ,第2.2.1节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
2.2.1 理解Python数据分析和可视化生态系统
虽然Python有很多可用的库,但是仅有少数库在处理数据方面很出色,而我们仍旧称这些库是一个生态系统,是因为每一个库的开发和支持来自不同的组织、社区或者个人,他们互相合作,却组织松散。


image

如下是一些几乎每一个项目都需要的库:
Numpy(www.numpy.org/),可以为通用数据创造一个多维容器,支持对数据的多种操作,生成随机数。它也能够“广播”对于Python对象的操作,使其代码更简洁和高效。
SciPy库(www.scipy.org/scipylib/index.html),Numpy的上层封装,便捷的面向数组操作,能够将Numpy广播操作扩展到Python语言中的其他类型的数据元素。另外它还附带统计相关的操作。
Maplotlib(http://matplotlib.org/),一个Python强力的通用库使你的数据转化为产品级的图像。
pandas(http://pandas.pydata.org),该库提供了更高的性能、易用的数据结构和数据分析工具;pandas将Data.Frame类型引入Python的命名空间里,关于这个详细的情况我们会在2.3节讨论。虽然这样会让那些Python的死忠阿谀pandas,但是本质上来看,Python更像R语言,会使我们更简单地在两者间切换。
这些模块,结合IPython,有时会被SciPy栈的核心组件引用(自从它包含了SciPy库以后,这有点费解)。你可以从www.scipy.org/获取更多关于栈的信息。


image


当你用你自己方法采用此生态系统时,你会发现如下代码:
image


image

import段的代码会载入库里的函数和变量,使其名称和功能性在当前Python工作会话里生效,as组件能使模块里的变量、函数和对象能简单地被引用。
假如你的许多程序组件,都要引用每一个Scipy程序包里的基本常规模块,你可以创建一个文本作为基本模板,包含这些imports和其他(以后)能重复使用的代码来节省打字的时间。
你将来当然会使用软件包来连接数据库、读取文件、执行一些功能,你可以花一些时间在Python Package Index(PyPI)上细读所有灵巧的模块(https://pypi.python.org/pypi),但如果它是和SciPy栈有联系的,它将会成为你数据科学之旅上一个常规的老伙计。
Python的“难点”
Python有两个特性容易让新手受挫。第一个“难点”是空白缩进,空格在Python代码里是非常重要的。对于代码段,没有{}或begin/end来标记开始和结束。你必须保持一致的缩进来区分一起执行的代码段,不一致的缩进会导致解释器输出错误信息,程序代码出现异常。现在大部分文本编辑器或者IDE都可以配置提示功能。
第二个“难点”是在使用变量前缺少声明,将一个变量breaches初始化为某个值,不经意间引用该变量,breaches在解释器里不会出错,但是输出的结果却不符合预期。

Canpy的包管理器(http://docs.enthought.com/canopy/quick-start/package_ manager.html)易于进行Python核心安装和相关的模块的实时更新。但是假如你选择手动安装,你需要依赖操作系统的包管理器来安装的Python解释器。升级独立的附加模块可以使用如下python代码完成:

image

关于Python版本
本书的例子基于Python2.7,在编写本书时,Canpy依然使用Python2.7。现在Python有两个主要的版本,2.7.x和3.3.x,Python 3和Python2.7对默认行为做了很多改变,许多包也完成了更新以便与新版本兼容。但是仍旧有许多包只兼容Python2.7,所以稳定性和广泛性使得Python2.7版本成为了数据分析的好选择。
对于Python2.7和Python3.3之间的改变可以参考《What抯 New In Python 3.0》(http://docs.python.org/3/whatsnew/3.0.html)。

相关文章
|
1月前
|
机器学习/深度学习 数据采集 数据可视化
Python 数据分析:从零开始构建你的数据科学项目
【10月更文挑战第9天】Python 数据分析:从零开始构建你的数据科学项目
53 2
|
1月前
|
机器学习/深度学习 数据可视化 算法
使用Python进行数据分析:从零开始的指南
【10月更文挑战第9天】使用Python进行数据分析:从零开始的指南
37 1
|
15天前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
44 0
|
9天前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
21 2
|
18天前
|
人工智能 安全 网络安全
揭秘!大模型私有化部署的全方位安全攻略与优化秘籍,让你的AI项目稳如磐石,数据安全无忧!
【10月更文挑战第24天】本文探讨了大模型私有化部署的安全性考量与优化策略,涵盖数据安全、防火墙配置、性能优化、容器化部署、模型更新和数据备份等方面,提供了实用的示例代码,旨在为企业提供全面的技术参考。
53 6
|
16天前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
30 2
|
21天前
|
数据采集 数据可视化 数据挖掘
R语言与Python:比较两种数据分析工具
R语言和Python是目前最流行的两种数据分析工具。本文将对这两种工具进行比较,包括它们的历史、特点、应用场景、社区支持、学习资源、性能等方面,以帮助读者更好地了解和选择适合自己的数据分析工具。
24 2
|
7天前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
7天前
|
数据采集 数据可视化 数据挖掘
利用Python进行数据分析:Pandas库实战指南
利用Python进行数据分析:Pandas库实战指南
|
9天前
|
数据采集 数据可视化 数据挖掘
使用Python进行数据分析和可视化
【10月更文挑战第33天】本文将介绍如何使用Python编程语言进行数据分析和可视化。我们将从数据清洗开始,然后进行数据探索性分析,最后使用matplotlib和seaborn库进行数据可视化。通过阅读本文,你将学会如何运用Python进行数据处理和可视化展示。