Python 数值中的下划线是怎么回事？-阿里云开发者社区

Python 数值中的下划线是怎么回事？

2024-02-29 70

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Python 数值中的下划线是怎么回事？

概要和原理

本 PEP 提议扩展 Python 的语法，使得在“字符串变成数”（number-from-string）构造器中，下划线可以作为视觉分隔符，对整数、浮点和复数字面量的数字进行分组。

（Python猫注：关于 Python 的数值类型，可以查看 PEP -314 1）

这是其它现代语言的一个常见特性，有助于理解长的或者值应该被直观地分成几部分的字面量，如十六进制表示法中的字节或单词。

例子：

# grouping decimal numbers by thousands
amount = 10_000_000.0
# grouping hexadecimal addresses by words
addr = 0xCAFE_F00D
# grouping bits into nibbles in a binary literal
flags = 0b_0011_1111_0100_1110
# same, for string conversions
flags = int('0b_1111_0000', 2)

规范

目前的提议是在数字之间和在数字字面量的基本标识符之后，允许有一个下划线。下划线没有语义上的意义，数字字面量会被解析得就像没有下划线一样。

字面量语法

因此，整型字面量的表示法看起来像这样：

integer: decinteger | bininteger | octinteger | hexinteger
decinteger: nonzerodigit (["_"] digit)* | "0" (["_"] "0")*
bininteger: "0" ("b" | "B") (["_"] bindigit)+
octinteger: "0" ("o" | "O") (["_"] octdigit)+
hexinteger: "0" ("x" | "X") (["_"] hexdigit)+
nonzerodigit: "1"..."9"
digit: "0"..."9"
bindigit: "0" | "1"
octdigit: "0"..."7"
hexdigit: digit | "a"..."f" | "A"..."F"

浮点数和复数的字面量：

floatnumber: pointfloat | exponentfloat
pointfloat: [digitpart] fraction | digitpart "."
exponentfloat: (digitpart | pointfloat) exponent
digitpart: digit (["_"] digit)*
fraction: "." digitpart
exponent: ("e" | "E") ["+" | "-"] digitpart
imagnumber: (floatnumber | digitpart) ("j" | "J")

构造函数

遵循相同的放置规则，下划线可以在以下构造函数中使用：

int()（任意进制）
float()
complex()
Decimal()

进一步的变更

新式的数字转字符串（number-to-string）格式化语法将被扩展，允许 _ 作为千位分隔符。这可以用更具可读性的字面量来轻松地生成代码。[11]

The syntax would be the same as for the comma, e.g. {:10_} for a width of 10 with _ separator.（这句没看懂...不译）

对于 b、x 和 o 格式符，_ 也将支持，并按 4 位数分组。

现有的技术

那些允许下划线分组的语言，实现了大量放置下划线的规则。在语言规范与实际行为相矛盾的情况下，以下会列出实际的行为。(“单个”或“多个”指的是允许多少连续的下划线。)

Ada：单个，仅在数字间 [8]
C# （7.0 版本的提案）：多个，仅在数字间 [6]
C++14：单个，在数字之间（选了其它分隔符） [1]
D：多个，任意位置，包括末尾 [2]
Java：多个，仅在数字间 [7]
Julia：单个，仅在数字间（但不含浮点指数部分） [9]
Perl 5：多个，基本是任意位置，尽管文档说数字间限制 1 个下划线 [3]
Ruby：单个，仅在数字间（尽管文档说“任意位置”）[10]
Rust：多个，任意位置，除了指数“e”与数字间 [4]
Swift：多个，数字之间和末尾（尽管文档说仅在“数字之间”） [5]

被否决的语法

（Python猫注：每个 PEP 在初提出阶段，都可能引起很多关于语法设计的讨论，在正式采纳的 PEP 中，一般会保留一些有代表性的被否决的方案，例如下面的两项）

1、下划线的放置规则

减少下划线的使用限制，而不是上面声明的相对严格的规则。在其它语言中，常见的规则包括：

只允许一个连续的下划线，并且只能在数字之间。
允许多个连续的下划线，但只能在数字之间。
允许多个连续的下划线，在大多数位置，除了字面量的开头，或特殊的位置（例如小数点后）。

本 PEP 中的语法最终被选中，因为它涵盖了常见的用例，并且不会出现被 Python 风格指南所不鼓励使用的语法。

一个不太常见的规则是只允许每 N 位数字有下划线（其中 N 可能是 3 个十进制字面量，或 4 个十六进制字面量）。这是不必要的限制，特别是考虑到这些分隔符位置在不同的文化中是不同的。（Python猫注：例如，我们国家习惯将 4 个数字分为一组，即 10000 是 1 万，而不是英语文化中的 10 thousand）