Jupyter Notebook:让编程就像搭积木

简介: 当我们想要进行类似机器学习、大数据这样的分析编程时,如果是在例如 PyChram 这样的编译器上写,一般是要把整个代码文件写完,然后再运行。这样的缺点就是如果中间某行出现了 Bug,我们就要排除,然后再重新运行整个文档,或者是 Debug。但是如果是在 Jupyter Notebook 上,我们就可以一小块一小块的去运行,碰到不合预期的结果,可以很方便的回到特定的单元,去输出各种变量,排查错误。

Jupyter Notebook:让编程就像搭积木

1. 为何选择 Jupyter Notebook?

当我们想要进行类似机器学习、大数据这样的分析编程时,如果是在例如 PyChram 这样的编译器上写,一般是要把整个代码文件写完,然后再运行。这样的缺点就是如果中间某行出现了 Bug,我们就要排除,然后再重新运行整个文档,或者是 Debug。

但是如果是在 Jupyter Notebook 上,我们就可以一小块一小块的去运行,碰到不合预期的结果,可以很方便的回到特定的单元,去输出各种变量,排查错误。

这种感觉就像是搭积木,一小块一小块的去写,这样慢慢一步一步地把整个代码写完整,再一齐运行。而且在代码的各个单元之间,还能插入 Markdown 文本,对于一些框架的学习,和代码阅读也是很方便的。

这篇文章,浅显地讲一下 Jupyter 的一些特性,安装的部分也很简单,但是这里没有讲,可以容易地在网上就找到教程。

2. 常用技巧1

2.1. 遇到不懂?—— 抛问号(?)

即使是大神,也会碰到不懂或者不熟悉的函数或者类。在使用 Python 的时候,我们常常利用 help() 函数来获得关于函数的信息。

但是在 Jupyter 上,我们只需要使用问号符 ?,就可以迅速地获得这些信息。如果想要获得源码的时候,可以利用双问号符 ??

在这里插入图片描述

注:如果双问号符 ?? 并没有显示源码,通常是因为该对象并没有在 Python 中执行,而使用 C 或其他编程语言。这种情况下会输出与单问号符 ? 一样的结果。

2.2. 不想逐个字母的敲?—— Tab 帮你自动补全

我们在使用 PyCharm 或者类似的编译器时,都能够利用 <Tab> 来补全对象、模块或者函数、类、变量的名词,这样就大大的加快了我们的速度。每一次敲击 <Tab> 都会带来一种莫名的酸爽。

在 Jupyter Notebook 上面也可以,当你习惯了如此编写代码,你会感觉不能用 <Tab> 的时候连写代码都了无生趣了。

通配符匹配:当我们知道首字母时,就可以直接用 <Tab> 让 Jupyter 帮我们匹配后面的字母。但是当只知道结尾的字母时,我们可以使用通配符(*)问号符 ?来找到各种组合:

在这里插入图片描述

通配符(*)可以放在任意的位置

2.3. 更多的操作 —— 特殊命令

在 Jupyter 上还有一种被称为 Magic Commands 的命令,是为了方便我们高效地进行数据分析的工作而设计的。它使用一个前缀符号 % 来修饰,其中一个百分号 % 代表只影响接下来的一行代码,而两个百分号 %% 代表对当前单元的影响。

(1)代码运行效率 %time 和 %timeit

平时使用 PyCharm 时,想要测试不同代码的执行速度,我们会使用 time 模块来赋值两个变量,通过输出两者之差来获得代码的执行时间。但是在 Jupyter 上,我们可以很简单的执行这种操作,通过利用 %time 和 %timeit:

In[1]: %timeit sum(range(100))

1.6 µs ± 52 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)

# Jupyter 会自动根据代码运行的时间花费,调整重复的次数。
In[2]: %%timeit
       total = 0
       for i in range(1000):
           for j in range(1000):
               total += i * (-1) ** j

561 ms ± 6.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

不过,有时候重复执行代码的时间花费相差巨大,例如排序算法,当第二次执行的时候,数组已经是排好序的,代码的执行时间就会变很少。对于这种情况,我们使用 %time

In[1]: import random
          L = [random.random() for i in range(100000)]
       %timeit L.sort()
       
3.3 ms ± 316 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)

In[2]: L = [random.random() for i in range(100000)]
       print("排序乱序列表:")
       %time L.sort()

排序乱序列表:
Wall time: 35 ms
    
In[3]: print("排序顺序列表:")
       %time L.sort()
    
排序顺序列表:
Wall time: 3 ms
    
In[4]: %%time
       total = 0
       for i in range(1000):
           for j in range(1000):
               total += i * (-1) ** j
            
Wall time: 691 ms

此外,还有很多的 Magic Command,可以使用 %magic 命令来,查看文档。


  1. Python Data Science Handbook, Jake VanderPlas
目录
相关文章
|
6月前
|
数据采集 机器学习/深度学习 数据可视化
使用Jupyter Notebook进行数据分析:入门与实践
【6月更文挑战第5天】Jupyter Notebook是数据科学家青睐的交互式计算环境,用于创建包含代码、方程、可视化和文本的文档。本文介绍了其基本用法和安装配置,通过一个数据分析案例展示了如何使用Notebook进行数据加载、清洗、预处理、探索、可视化以及建模。Notebook支持多种语言,提供直观的交互体验,便于结果呈现和分享。它是高效数据分析的得力工具,初学者可通过本文案例开始探索。
|
3月前
|
机器学习/深度学习 数据可视化 开发者
Jupyter Notebook使用技巧:提升编程效率的最佳实践
Jupyter Notebook使用技巧:提升编程效率的最佳实践
134 0
|
4月前
|
Python
Jupyter Notebook又一利器nbterm,在终端玩notebook!
Jupyter Notebook又一利器nbterm,在终端玩notebook!
|
6月前
|
文字识别 异构计算 Python
关于云端Jupyter Notebook的使用过程与感想
在自学Python时,由于家庭电脑使用冲突和设备老旧,转向云端平台。体验了多个服务:1. 魔搭modelscope(最喜欢,赠送资源丰富,社区活跃),2. Colaboratory(免费GPU,但有时重启,建议用阿里云),3. Deepnote(免费环境有限,但GPT-4代码生成功能强大),4. 飞桨aistudio(适合PaddlePaddle用户),5. ModelArts(曾有免费实例,现难找)。综合来看,阿里云的稳定性与服务更优,尤其是魔搭的自动代码修正功能。对于AIGC,推荐魔搭和付费版PAI-DSW。欢迎分享更多云端Jupyter平台体验。
320 1
|
6月前
|
Python 数据挖掘 数据可视化
Python数据分析——Pandas与Jupyter Notebook
【6月更文挑战第1天】 本文探讨了如何使用Python的Pandas库和Jupyter Notebook进行数据分析。首先,介绍了安装和设置步骤,然后展示了如何使用Pandas的DataFrame进行数据加载、清洗和基本分析。接着,通过Jupyter Notebook的交互式环境,演示了数据分析和可视化,包括直方图的创建。文章还涉及数据清洗,如处理缺失值,并展示了如何进行高级数据分析,如数据分组和聚合。此外,还提供了将分析结果导出到文件的方法。通过销售数据的完整案例,详细说明了从加载数据到可视化和结果导出的全过程。最后,讨论了进一步的分析和可视化技巧,如销售额趋势、产品销售排名和区域分布,以及
245 2
|
7月前
|
JSON 数据可视化 数据挖掘
适合数据分析的ide---Jupyter Notebook的安装使用
适合数据分析的ide---Jupyter Notebook的安装使用
122 2
|
7月前
|
Ubuntu 网络安全 数据安全/隐私保护
使用SSH隧道将Ubuntu云服务器Jupyter Notebook端口映射到本地
这样,你就成功地将Ubuntu云服务器上的Jupyter Notebook端口映射到本地,使你能够通过本地浏览器访问并使用Jupyter Notebook。
483 1
|
7月前
|
Linux 数据安全/隐私保护
anaconda运行Notebook和jupyter报错resource.setrlimit(resource.RLIMIT_NOFILE, (soft, hard)) ValueError
anaconda运行Notebook和jupyter报错resource.setrlimit(resource.RLIMIT_NOFILE, (soft, hard)) ValueError
60 0
|
7月前
|
自然语言处理 数据可视化 数据挖掘
Python 的科学计算和数据分析: 解释什么是 Jupyter Notebook?
Python科学计算与数据分析中,借助`numpy`进行数值计算,`matplotlib`用于绘图。Jupyter Notebook提供交互式编程环境,支持多语言,集成各种可视化工具。其优势在于结合代码、结果和文本,提升工作效率,具备自动补全、语法高亮等特性。示例展示了导入库,生成随机数据并用`matplotlib`画正弦波图的过程。Jupyter Notebook虽便捷,但复杂任务可能需结合`scipy`、`pandas`等更多库。
84 4
|
7月前
|
Linux 数据安全/隐私保护 Python
Linux下远程访问Jupyter Notebook 配置
Linux下远程访问Jupyter Notebook 配置
114 1