《数据驱动安全:数据安全分析、可视化和仪表盘》一2.2.1 理解Python数据分析和可视化生态系统

本文涉及的产品
数据安全中心,免费版
简介: 本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第2章 ,第2.2.1节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。

本节书摘来华章计算机《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第2章 ,第2.2.1节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“华章计算机”公众号查看。
2.2.1 理解Python数据分析和可视化生态系统
虽然Python有很多可用的库,但是仅有少数库在处理数据方面很出色,而我们仍旧称这些库是一个生态系统,是因为每一个库的开发和支持来自不同的组织、社区或者个人,他们互相合作,却组织松散。


image

如下是一些几乎每一个项目都需要的库:
Numpy(www.numpy.org/),可以为通用数据创造一个多维容器,支持对数据的多种操作,生成随机数。它也能够“广播”对于Python对象的操作,使其代码更简洁和高效。
SciPy库(www.scipy.org/scipylib/index.html),Numpy的上层封装,便捷的面向数组操作,能够将Numpy广播操作扩展到Python语言中的其他类型的数据元素。另外它还附带统计相关的操作。
Maplotlib(http://matplotlib.org/),一个Python强力的通用库使你的数据转化为产品级的图像。
pandas(http://pandas.pydata.org),该库提供了更高的性能、易用的数据结构和数据分析工具;pandas将Data.Frame类型引入Python的命名空间里,关于这个详细的情况我们会在2.3节讨论。虽然这样会让那些Python的死忠阿谀pandas,但是本质上来看,Python更像R语言,会使我们更简单地在两者间切换。
这些模块,结合IPython,有时会被SciPy栈的核心组件引用(自从它包含了SciPy库以后,这有点费解)。你可以从www.scipy.org/获取更多关于栈的信息。


image


当你用你自己方法采用此生态系统时,你会发现如下代码:
image


image

import段的代码会载入库里的函数和变量,使其名称和功能性在当前Python工作会话里生效,as组件能使模块里的变量、函数和对象能简单地被引用。
假如你的许多程序组件,都要引用每一个Scipy程序包里的基本常规模块,你可以创建一个文本作为基本模板,包含这些imports和其他(以后)能重复使用的代码来节省打字的时间。
你将来当然会使用软件包来连接数据库、读取文件、执行一些功能,你可以花一些时间在Python Package Index(PyPI)上细读所有灵巧的模块(https://pypi.python.org/pypi),但如果它是和SciPy栈有联系的,它将会成为你数据科学之旅上一个常规的老伙计。
Python的“难点”
Python有两个特性容易让新手受挫。第一个“难点”是空白缩进,空格在Python代码里是非常重要的。对于代码段,没有{}或begin/end来标记开始和结束。你必须保持一致的缩进来区分一起执行的代码段,不一致的缩进会导致解释器输出错误信息,程序代码出现异常。现在大部分文本编辑器或者IDE都可以配置提示功能。
第二个“难点”是在使用变量前缺少声明,将一个变量breaches初始化为某个值,不经意间引用该变量,breaches在解释器里不会出错,但是输出的结果却不符合预期。

Canpy的包管理器(http://docs.enthought.com/canopy/quick-start/package_ manager.html)易于进行Python核心安装和相关的模块的实时更新。但是假如你选择手动安装,你需要依赖操作系统的包管理器来安装的Python解释器。升级独立的附加模块可以使用如下python代码完成:

image

关于Python版本
本书的例子基于Python2.7,在编写本书时,Canpy依然使用Python2.7。现在Python有两个主要的版本,2.7.x和3.3.x,Python 3和Python2.7对默认行为做了很多改变,许多包也完成了更新以便与新版本兼容。但是仍旧有许多包只兼容Python2.7,所以稳定性和广泛性使得Python2.7版本成为了数据分析的好选择。
对于Python2.7和Python3.3之间的改变可以参考《What抯 New In Python 3.0》(http://docs.python.org/3/whatsnew/3.0.html)。

相关文章
|
16天前
|
机器学习/深度学习 算法 TensorFlow
动物识别系统Python+卷积神经网络算法+TensorFlow+人工智能+图像识别+计算机毕业设计项目
动物识别系统。本项目以Python作为主要编程语言,并基于TensorFlow搭建ResNet50卷积神经网络算法模型,通过收集4种常见的动物图像数据集(猫、狗、鸡、马)然后进行模型训练,得到一个识别精度较高的模型文件,然后保存为本地格式的H5格式文件。再基于Django开发Web网页端操作界面,实现用户上传一张动物图片,识别其名称。
47 1
动物识别系统Python+卷积神经网络算法+TensorFlow+人工智能+图像识别+计算机毕业设计项目
|
16天前
|
机器学习/深度学习 人工智能 算法
植物病害识别系统Python+卷积神经网络算法+图像识别+人工智能项目+深度学习项目+计算机课设项目+Django网页界面
植物病害识别系统。本系统使用Python作为主要编程语言,通过收集水稻常见的四种叶片病害图片('细菌性叶枯病', '稻瘟病', '褐斑病', '稻瘟条纹病毒病')作为后面模型训练用到的数据集。然后使用TensorFlow搭建卷积神经网络算法模型,并进行多轮迭代训练,最后得到一个识别精度较高的算法模型,然后将其保存为h5格式的本地模型文件。再使用Django搭建Web网页平台操作界面,实现用户上传一张测试图片识别其名称。
66 21
植物病害识别系统Python+卷积神经网络算法+图像识别+人工智能项目+深度学习项目+计算机课设项目+Django网页界面
|
16天前
|
机器学习/深度学习 人工智能 算法
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
鸟类识别系统。本系统采用Python作为主要开发语言,通过使用加利福利亚大学开源的200种鸟类图像作为数据集。使用TensorFlow搭建ResNet50卷积神经网络算法模型,然后进行模型的迭代训练,得到一个识别精度较高的模型,然后在保存为本地的H5格式文件。在使用Django开发Web网页端操作界面,实现用户上传一张鸟类图像,识别其名称。
60 12
鸟类识别系统Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+ResNet50算法模型+图像识别
|
15天前
|
机器学习/深度学习 算法 TensorFlow
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
交通标志识别系统。本系统使用Python作为主要编程语言,在交通标志图像识别功能实现中,基于TensorFlow搭建卷积神经网络算法模型,通过对收集到的58种常见的交通标志图像作为数据集,进行迭代训练最后得到一个识别精度较高的模型文件,然后保存为本地的h5格式文件。再使用Django开发Web网页端操作界面,实现用户上传一张交通标志图片,识别其名称。
44 6
交通标志识别系统Python+卷积神经网络算法+深度学习人工智能+TensorFlow模型训练+计算机课设项目+Django网页界面
|
11天前
|
机器学习/深度学习 人工智能 算法
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
文本分类识别系统。本系统使用Python作为主要开发语言,首先收集了10种中文文本数据集("体育类", "财经类", "房产类", "家居类", "教育类", "科技类", "时尚类", "时政类", "游戏类", "娱乐类"),然后基于TensorFlow搭建CNN卷积神经网络算法模型。通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型,并保存为本地的h5格式。然后使用Django开发Web网页端操作界面,实现用户上传一段文本识别其所属的类别。
24 1
【新闻文本分类识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
5天前
|
数据采集 存储 XML
构建高效的Python爬虫系统
【9月更文挑战第30天】在数据驱动的时代,掌握如何快速高效地获取网络信息变得至关重要。本文将引导读者了解如何构建一个高效的Python爬虫系统,从基础概念出发,逐步深入到高级技巧和最佳实践。我们将探索如何使用Python的强大库如BeautifulSoup和Scrapy,以及如何应对反爬措施和提升爬取效率的策略。无论你是初学者还是有经验的开发者,这篇文章都将为你提供宝贵的知识和技能,帮助你在信息收集的海洋中航行得更远、更深。
19 6
|
13天前
|
机器学习/深度学习 数据挖掘 测试技术
自学Python的系统策略与步骤
通过遵循这些步骤和策略,你可以系统地自学Python,并有效地构建和深化你的编程知识和技能。
18 6
|
11天前
|
机器学习/深度学习 人工智能 算法
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台。果蔬识别系统,本系统使用Python作为主要开发语言,通过收集了12种常见的水果和蔬菜('土豆', '圣女果', '大白菜', '大葱', '梨', '胡萝卜', '芒果', '苹果', '西红柿', '韭菜', '香蕉', '黄瓜'),然后基于TensorFlow库搭建CNN卷积神经网络算法模型,然后对数据集进行训练,最后得到一个识别精度较高的算法模型,然后将其保存为h5格式的本地文件方便后期调用。再使用Django框架搭建Web网页平台操作界面,实现用户上传一张果蔬图片识别其名称。
31 0
【果蔬识别系统】Python+卷积神经网络算法+人工智能+深度学习+计算机毕设项目+Django网页界面平台
|
17天前
|
机器学习/深度学习 存储 人工智能
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
使用Python作为开发语言,基于文本数据集(一个积极的xls文本格式和一个消极的xls文本格式文件),使用Word2vec对文本进行处理。通过支持向量机SVM算法训练情绪分类模型。实现对文本消极情感和文本积极情感的识别。并基于Django框架开发网页平台实现对用户的可视化操作和数据存储。
20 0
文本情感识别分析系统Python+SVM分类算法+机器学习人工智能+计算机毕业设计
|
10天前
|
Shell Linux Python
python执行linux系统命令的几种方法(python3经典编程案例)
文章介绍了多种使用Python执行Linux系统命令的方法,包括使用os模块的不同函数以及subprocess模块来调用shell命令并处理其输出。
13 0
下一篇
无影云桌面