PyTorch面试精华


1 PyTorch全局设置

    1.1  全局设置当前设备

    1.2  全局设置浮点精度

    1.3  设置控制台输出格式

2 向量与梯度之核心

    2.1  Tensor的组成与存储

    2.2  Tensor的grad属性

    2.3  Tensor内存布局的调整

    2.4  Tensor的叠加

    2.5  禁用梯度计算

    2.6  向量的保存和加载

    2.7  梯度消失与梯度爆炸

3 神经网络基础

    3.1  线性网络的参数以及初始化

    3.2  PyTorch计算图

    3.3  查看网络权重参数

    3.4  保存模型

    3.5  Adam相关面试题

    3.6  ReLu与非线性的理解

    3.7  Train模式和Eval模式

    3.8  线性网络

    3.9  双线性网络

    3.10  惰性线性层

    3.11  参数向量

    3.12  叶子节点

    3.13  自动求导与链式求导

    3.14  Dropout机制

    3.15  detach原理

    3.16  半精度训练

    3.17  Xavier初始化

    3.18  通道的深刻理解

    3.19  1x1卷积的作用

    3.20  注意力机制

禁用梯度计算

创建时间:2024-09-03 | 更新时间:2024-09-03 | 阅读次数:1118 次

8.1、自动梯度计算

在PyTorch中,任何一个向量tensor都具有自动梯度计算的功能,因为动态计算图是PyTorch天然的特性,但是梯度计算是件十分耗费内存资源任务,所以某些情况下禁用梯度计算十分有必要。

8.2、torch.no_grad()禁用梯度

torch.no_grad()函数是禁用梯度计算的上下文管理器。当我们确信不会调用backward()时,禁用梯度计算很有用,因为它将减少计算的内存消耗。在这种模式下,即使输入的向量的requires_grad=True,每次计算的结果也将为requires_grad=False。但是,有种例外:所有工厂函数或创建新张量的函数,都不受此模式的影响,如下代码所示。

>>> x = torch.tensor([1.], requires_grad=True)
>>> with torch.no_grad():
...     y = x * 2
>>> y.requires_grad
False

>>> @torch.no_grad()
... def doubler(x):
...     return x * 2
>>> z = doubler(x)
>>> z.requires_grad
False

>>> @torch.no_grad
... def tripler(x):
...     return x * 3
>>> z = tripler(x)
>>> z.requires_grad
False

>>> # 工厂函数并不受no_grad的影响
>>> with torch.no_grad():
...     a = torch.nn.Parameter(torch.rand(10))
>>> a.requires_grad
True

8.3、补充说明:工厂函数

工厂函数是用于生成tensor的函数。常见的工厂函数有torch.randtorch.randinttorch.randntorch.eye等。

本教程共30节,当前为第8节!