我为什么将机器学习主力语言从Python转到Rust

简介: Rust语言诞生于2010年,一种多范式、系统级、高级通用编程语言,旨在提高性能和安全性,特别是无畏并发。虽然与Python相比,Rust还年轻,很多库还在开发中,但Rust社区非常活跃并且增长迅猛。很多大厂都是Rust基金会的成员,都在积极地用Rust重构底层基础设施和关键系统应用。

我为什么将机器学习主力语言从Python转到Rust

rust-for-python-developers.png

写在前面

首先要声明一下:Python依然是我最喜欢的编程语言,也是我日常使用最多的编程语言。自从10年前我转向人工智能和机器学习领域以来,Python迅速战胜C++和Java,成为我的主力编程语音。用Python编程让我感受到前所未有的“自由”和高效。

另一方面,在机器学习领域,我需要用到大量与机器学习和数据分析相关的包,例如:pyTorch, numpy, pandas, scikit-learn, jupyter...等。这些包极大地简化了机器学习和数据挖掘的开发工作,非常方便好用。

然而,现在我却想从Python转向Rust,因为在大型项目中Python始终显得力不从心。
$$
\ast \ast \ast
$$

Python的痛点

猴子补丁(Monkey Patch)

猴子补丁的意思是说动态语言可以在不改动源代码的情况下扩展或修改运行时代码。

Python的这一特性给与我们很大的自由和灵活性,让我们可以通过一些奇技淫巧来让程序跑起来。举个例子:很多代码用到 import json,后来发现 ujson 性能更高,如果觉得把每个文件的 import json 改成 import ujson as json 成本较高,或者只是单纯地想测试一下用 ujson 替换json 是否符合预期,只需要在入口加上:

import json
import ujson
def monkey_patch_json():
  json.__name__ = 'ujson'
  json.dumps = ujson.dumps
  json.loads = ujson.loads
monkey_patch_json()

但是这个特性太灵活,一旦我们在编码过程中不仔细或协作过程中缺乏沟通就很容易带来未知错误,且这种错误往往还很难定位。例如:代码中同一变量赋2个不同类型的值。这是很糟糕的编程习惯,但是随着代码量的增长,项目中几乎不可避免地会出现,更糟糕地是没人记得住所有他们用过的变量是什么类型。当新人接手程序后,他们会疑惑“为什么这里要给变量赋一个不同类型的值”。

缺乏参数类型校验

这点跟上面的猴子补丁类似,都是由语言的动态性带来的。例如,我们有一个函数,将传入的两个整数相加:

def add(num1: int, num2: int) -> int:
    return num1 + num2

但当我们调用它时,Python解释器不会检查参数类型,typing hints形同虚设。我们可以这样调用上面的函数

add("2", 3)

很明显,执行上面的代码会报错。为了让程序更加健壮,我们需要在返回前加入额外的判断逻辑

def add(num1: int, num2: int) -> int:
    if type(num1) != int or type(num2) != int:
        # 参数类型不匹配就抛出错误!
        raise IntNumberError()
    return num1 + num2

现在代码看起来好很多。但是事情远没有结束--由于我们在代码里加入了if分支,这就意味着我们的测试用例也要随之更新,至少要加入2个测试用例,一个num1非整数,另一个num2非整数。这些后续工作经常被忘记,以至于测试覆盖不完整。

允许跨作用域访问

请看下面的代码

for i in range(3):
    pass
print(i)

运行后控制台会输出2。但变量i理应只在for循环作用域下有效。这种作用域错误让代码变得很难维护和debug。

Python的这个设计让我非常不理解,印象中没有任意一门其他语言会这样。在我10年的Python开发生涯中,经常见到有人在if子句中定义变量,然后在if-else子句外使用它。这种写法就让很多Python新手无法理解,增加了代码的阅读和维护成本。

运行缓慢

Python运行慢是公认的。尤其是当项目庞大且复杂时,Python明显比其他主流编程语言要慢。当然我们可以用PyPynumba等工具提升Python程序的执行速度,但是相比起来还是杯水车薪。

太多隐含规则

Python中有很多反直觉的设定。比如下面的代码:

def change(lst, st):
    lst.append(4)
    st = "new string"

x = [1, 2, 3]
s = "old string"
print(x, s)
change(x, s)
print(x, s)

我们将一个list和一个string传入函数,但两个参数却有不同的行为。输出结果是:

[1, 2, 3] old string
[1, 2, 3, 4] old string

我们发现list的值变了,而string的值却不变。这是因为Python在传递参数时隐性地传递了list的引用,而string传递的却是拷贝。这就是为什么两个参数在函数中的行为不同。

Python的动态性确实非常灵活且强大,但确实也带来了很多“坑”。这些隐形的“坑”对一个Python新手来说太过隐晦,无形中增加了开发者的心智负担和dubug的成本。为此我专门总结了Python中常见的“坑”,大家可以阅读我写的 《Python避坑指南》《Python避坑指南(续)》

Rust之剑

说完Python我们再来看看Rust。

Rust语言诞生于2010年,是一种多范式、系统级、高级通用编程语言,旨在提高性能和安全性,特别是无畏并发。

Rust从语法和编译器层面帮我们消除了C/C++语言编程中常见的空指针和悬垂指针问题。编译器还会自动帮助我们检查变量生命周期和所有者。在大多数情况下,如果我们的Rust代码能够编译通过,那么我们的代码80%~90%不会存在内存安全问题。

除了内存安全外,Rust还解决了上面提到的Python的5个痛点。

猴子补丁

Rust是一门静态编程语言。这就决定了Rust不能使用猴子补丁。

  • 首先,Rust中的变量都有严格的数据类型,我们不能将不同数据类型的数据赋给同一变量。
  • 其次,变量默认是不可变的,如果我们想定义可变的变量,必须显式的用关键字mut声明。

参数类型

函数参数也跟上面保持一致的原则。Rust是静态语言,传递函数参数时也需要指明参数类型。如果传递的参数类型不匹配,编译器在编译时就会检查出来。这就意味着编译器会帮我们检查潜在的类型错误,我们再也不必写额外的if子句来做类型检查,相应的后续单元测试也可以省了。这让我们的测试可以聚焦于算法和逻辑,而不必为类型检测等细枝末节浪费时间。

作用域

Rust没有GC。当变量离开其作用域时,其生命周期结束,Rust会自动释放它。(这里的解释并不严谨,因为Rust中生命周期和作用域是两个概念,但在大多数代码中两者可以划等号。)

因此,上面Python的示例代码改写成Rust代码的话,在编译时就会报错。

for i in 0..3 {
   
    println!("{}", i);
}
println!("{}", i); // 编译时这里会报错

运行速度

我在上一篇文章《Rust让科学计算速度提升200倍》中详细对比了Python、Rust和C在科学计算上的效率。测试结果Rust比Python快200倍!类似性能比较的博文网上还有很多,这里我就不再深入比较了。结论是Rust几乎跟C/C++一样快。这里温馨提示一下,编译Rust程序时千万别忘了加--release,release编译和debug编译出来的程序性能差距很大。

隐含规则

Rust也有很多隐含规则,但是跟Python不同,这些隐含规则都是在编译器层面。相反Rust在语言层面一致性相当高。Rust的编译器非常的强大且对开发者友好,他被设计成开发者的伙伴,专门帮开发者发现潜在错误。

上面提到的Python语言的错误在Rust中绝对不会出现:

  1. 在定义Rust函数时我们就要声明参数的类型。这里的类型不仅指数据类型,还包括传递方式。如果我们想传指针(Rust中叫引用),我们需要在参数前加&
  2. 如果我们想让传递的参数可修改,就必须在显式地加上mut
  3. 如果我们传递给函数的不是引用,那么变量的所有权也会一同传递进函数,这意味着当函数结束,变量就会被丢弃,无法再使用。

总之,Python中的此类问题在Rust中都不存在。我们清晰地知道数据在函数间是如何传递和使用的,程序的一切都在我们的掌控之中。
$$
\ast \ast \ast
$$

结论

与Python相比,Rust还年轻。很多库还在开发中,但Rust社区非常活跃并且增长迅猛。很多大厂都是Rust基金会的成员,都在积极地用Rust重构底层基础设施和关键系统应用。

我用Rust重写了马尔可夫链蒙特卡罗(MCMC)方法解结构方程的程序,整个过程让我非常享受。尤其是最后爆发出的性能提升让我深感惊喜。

今天,我依然会用Python或其他语言来完成某些工作,这主要是因为某些库Rust上还没有。不过机器学习常用的库比如numpypandasscikit-learn, pytorch在Rust上都有类似替代的库。可以说目前用Rust可以方便地完成80%Python的功能。后面几章我会专注介绍Python常用机器学习库的Rust替代方案,内容如下表:

Python库 Rust替代方案 教程
numpy ndarray Rust机器学习之ndarray
pandas Polars Rust机器学习之Polars
scikit-learn Linfa Rust机器学习之Linfa
matplotlib plotters Rust机器学习之plotters
pytorch tch-rs Rust机器学习之tch-rs
networks petgraph Rust机器学习之petgraph

敬请大家关注。

目录
相关文章
|
4月前
|
存储 JavaScript Java
(Python基础)新时代语言!一起学习Python吧!(四):dict字典和set类型;切片类型、列表生成式;map和reduce迭代器;filter过滤函数、sorted排序函数;lambda函数
dict字典 Python内置了字典:dict的支持,dict全称dictionary,在其他语言中也称为map,使用键-值(key-value)存储,具有极快的查找速度。 我们可以通过声明JS对象一样的方式声明dict
325 1
|
4月前
|
算法 Java Docker
(Python基础)新时代语言!一起学习Python吧!(三):IF条件判断和match匹配;Python中的循环:for...in、while循环;循环操作关键字;Python函数使用方法
IF 条件判断 使用if语句,对条件进行判断 true则执行代码块缩进语句 false则不执行代码块缩进语句,如果有else 或 elif 则进入相应的规则中执行
560 1
|
5月前
|
数据采集 机器学习/深度学习 人工智能
Python:现代编程的首选语言
Python:现代编程的首选语言
562 102
|
5月前
|
人工智能 自然语言处理 算法框架/工具
Python:现代编程的首选语言
Python:现代编程的首选语言
313 103
|
5月前
|
机器学习/深度学习 人工智能 数据挖掘
Python:现代编程的首选语言
Python:现代编程的首选语言
252 82
|
4月前
|
存储 Java 索引
(Python基础)新时代语言!一起学习Python吧!(二):字符编码由来;Python字符串、字符串格式化;list集合和tuple元组区别
字符编码 我们要清楚,计算机最开始的表达都是由二进制而来 我们要想通过二进制来表示我们熟知的字符看看以下的变化 例如: 1 的二进制编码为 0000 0001 我们通过A这个字符,让其在计算机内部存储(现如今,A 字符在地址通常表示为65) 现在拿A举例: 在计算机内部 A字符,它本身表示为 65这个数,在计算机底层会转为二进制码 也意味着A字符在底层表示为 1000001 通过这样的字符表示进行转换,逐步发展为拥有127个字符的编码存储到计算机中,这个编码表也被称为ASCII编码。 但随时代变迁,ASCII编码逐渐暴露短板,全球有上百种语言,光是ASCII编码并不能够满足需求
230 4
|
6月前
|
机器学习/深度学习 自然语言处理 数据可视化
Python:简洁而强大的通用语言
Python:简洁而强大的通用语言
|
6月前
|
机器学习/深度学习 人工智能 运维
Python:简洁高效的万能语言
Python:简洁高效的万能语言
|
6月前
|
机器学习/深度学习 人工智能 数据可视化
Python:简洁高效的万能“胶水语言”
Python:简洁高效的万能“胶水语言”

推荐镜像

更多