这是 TVM 算子清单(TOPI)的入门教程。 TOPI 提供了 numpy 风格的通用操作和 schedule,其抽象程度高于 TVM。本教程将介绍 TOPI 是如何使得 TVM 中的代码不那么样板化的。
import tvm import tvm.testing from tvm import te from tvm import topi import numpy as np
让我们回顾一下行求和操作(例如 B = numpy.sum(A, axis=1))。要计算二维 TVM 张量 A 的行之和,应指定符号运算以及 schedule,如下所示:
n = te.var("n") m = te.var("m") A = te.placeholder((n, m), name="A") k = te.reduce_axis((0, m), "k") B = te.compute((n,), lambda i: te.sum(A[i, k], axis=k), name="B") s = te.create_schedule(B.op)
输入以下命令查看可读的 IR 代码:
print(tvm.lower(s, [A], simple_mode=True))
然而,必须为这样一个常用的操作定义 reduce 轴,并用te.compute定义显式计算。幸运的是,可以用topi.sum(类似numpy.sum)来替换这两行:
C = topi.sum(A, axis=1) ts = te.create_schedule(C.op) print(tvm.lower(ts, [A], simple_mode=True))
Numpy 风格的算子重载
可用 topi.broadcast_add 添加两个张量(其 shape 可广播,且是特定的)。TOPI 为此类常见操作提供了算子重载使其更简短。例如:
x, y = 100, 10 a = te.placeholder((x, y, y), name="a") b = te.placeholder((y, y), name="b") c = a + b # 等价于 topi.broadcast_add d = a * b # 等价于 topi.broadcast_mul
TOPI 使用相同的语法重载,将原语 (int, float) 广播到张量 d - 3.14。
前面已经展示了 TOPI 如何使我们免于用低级 API 编写显式的计算过程,但调度过程还是和以前一样。TOPI 还基于给定的上下文提供了更高级的调度方案。可以仅用 topi.generic.schedule_reduce 调度下面以 topi.sum 结尾的一系列操作,以 CUDA 为例:
e = topi.elemwise_sum([c, d]) f = e / 2.0 g = topi.sum(f) with tvm.target.cuda(): sg = topi.cuda.schedule_reduce(g) print(tvm.lower(sg, [a, b], simple_mode=True))
可通过与 numpy 结果对比来验证其正确性,如下所示:
func = tvm.build(sg, [a, b, g], "cuda") dev = tvm.cuda(0) a_np = np.random.uniform(size=(x, y, y)).astype(a.dtype) b_np = np.random.uniform(size=(y, y)).astype(b.dtype) g_np = np.sum(np.add(a_np + b_np, a_np * b_np) / 2.0) a_nd = tvm.nd.array(a_np, dev) b_nd = tvm.nd.array(b_np, dev) g_nd = tvm.nd.array(np.zeros(g_np.shape, dtype=g_np.dtype), dev) func(a_nd, b_nd, g_nd) tvm.testing.assert_allclose(g_nd.numpy(), g_np, rtol=1e-5)
可将 topi.nn.conv2d 和 topi.nn.relu 融合在一起。
备注TOPI 函数都是通用函数,不同的后端实现性能优化的方式不同。所有的后端都必须在 compute 声明和 schedule 范围内调用它们。 TVM 会选择调用目标信息的正确函数。
data = te.placeholder((1, 3, 224, 224)) kernel = te.placeholder((10, 3, 5, 5)) with tvm.target.Target("cuda"): conv = topi.cuda.conv2d_nchw(data, kernel, 1, 2, 1) out = topi.nn.relu(conv) sconv = topi.cuda.schedule_conv2d_nchw([out]) print(tvm.lower(sconv, [data, kernel], simple_mode=True))
- 如何使用 TOPI API 操作 numpy 风格的算子。
- TOPI 如何促进上下文的通用 schedule 和算子融合,来生成优化的内核代码。