大香蕉人妻在线,中文无码熟妇人妻

構(gòu)建深度學(xué)習(xí)模型的基本流程就是：搭建計(jì)算圖，求得損失函數(shù)，然后計(jì)算損失函數(shù)對(duì)模型參數(shù)的導(dǎo)數(shù)，再利用梯度下降法等方法來(lái)更新參數(shù)。搭建計(jì)算圖的過(guò)程，稱(chēng)為“正向傳播”，這個(gè)是需要我們自己動(dòng)手的，因?yàn)槲覀冃枰O(shè)計(jì)我們模型的結(jié)構(gòu)。由損失函數(shù)求導(dǎo)的過(guò)程，稱(chēng)為“反向傳播”，求導(dǎo)是件辛苦事兒，所以自動(dòng)求導(dǎo)基本上是各種深度學(xué)習(xí)框架的基本功能和最重要的功能之一，PyTorch也不例外。

一、pytorch自動(dòng)求導(dǎo)初步認(rèn)識(shí)

比如有一個(gè)函數(shù)，y=x的平方（y=x2）,在x=3的時(shí)候它的導(dǎo)數(shù)為6，我們通過(guò)代碼來(lái)演示這樣一個(gè)過(guò)程。

x=torch.tensor(3.0,requires_grad=True)
y=torch.pow(x,2)

#判斷x,y是否是可以求導(dǎo)的
print(x.requires_grad)
print(y.requires_grad)

#求導(dǎo)，通過(guò)backward函數(shù)來(lái)實(shí)現(xiàn)
y.backward()

#查看導(dǎo)數(shù)，也即所謂的梯度
print(x.grad)

最終的運(yùn)行結(jié)果為：

True
True
tensor(6.) #這和我們自己算的是一模一樣的。

這里有一些關(guān)鍵點(diǎn)

1.1 tensor的創(chuàng)建與屬性設(shè)置

先來(lái)看一下tensor的定義：

tensor(data, dtype=None, device=None, requires_grad=False) -> Tensor

參數(shù):
data： (array_like): tensor的初始值. 可以是列表，元組，numpy數(shù)組，標(biāo)量等;
dtype： tensor元素的數(shù)據(jù)類(lèi)型
device： 指定CPU或者是GPU設(shè)備，默認(rèn)是None
requires_grad：是否可以求導(dǎo)，即求梯度，默認(rèn)是False，即不可導(dǎo)的

（1）tensor對(duì)象的requires_grad屬性

每一個(gè)tensor都有一個(gè)requires_grad屬性，表示這個(gè)tensor是否是可求導(dǎo)的，如果是true則可以求導(dǎo)，否則不能求導(dǎo)，語(yǔ)法格式為：

x.requires_grad 判斷一個(gè)tensor是否可以求導(dǎo)，返回布爾值

需要注意的是，只有當(dāng)所有的“葉子變量”，即所謂的leaf variable都是不可求導(dǎo)的，那函數(shù)y才是不能求導(dǎo)的，什么是leaf variable呢？這其實(shí)涉及到“計(jì)算圖”相關(guān)的知識(shí)，但是我們通過(guò)下面的例子一下就能明白了，如下：

#創(chuàng)建一個(gè)二元函數(shù)，即z=f(x,y)=x2+y2，x可求導(dǎo)，y設(shè)置不可求導(dǎo)
x=torch.tensor(3.0,requires_grad=True)
y=torch.tensor(4.0,requires_grad=False)
z=torch.pow(x,2)+torch.pow(y,2)

#判斷x,y是否是可以求導(dǎo)的
print(x.requires_grad)
print(y.requires_grad)
print(z.requires_grad)

#求導(dǎo)，通過(guò)backward函數(shù)來(lái)實(shí)現(xiàn)
z.backward()

#查看導(dǎo)數(shù)，也即所謂的梯度
print(x.grad)
print(y.grad)

運(yùn)行結(jié)果為：

True # x是可導(dǎo)的
False # y是不可導(dǎo)的
True # z是可導(dǎo)的，因?yàn)樗幸粋€(gè) leaf variable 是可導(dǎo)的，即x可導(dǎo)
tensor(6.) # x的導(dǎo)數(shù)
None # 因?yàn)閥不可導(dǎo)，所以是none

如果是上面的 leaf variable變量x也設(shè)置為不可導(dǎo)的，那么z也不可導(dǎo)，因?yàn)閤、y均不可導(dǎo)，那么z自然不可導(dǎo)了。

（2）leaf variable（也是tensor）的requires_grad_()方法

如果某一個(gè)葉子變量，開(kāi)始時(shí)不可導(dǎo)的，后面想設(shè)置它可導(dǎo)，或者反過(guò)來(lái)，該怎么辦呢？tensor提供了一個(gè)方法，即

x.requires_grad_(True/False) 設(shè)置tensor的可導(dǎo)與不可導(dǎo)，注意后面有一個(gè)下劃線(xiàn)哦！

但是需要注意的是，我只能夠設(shè)置葉子變量，即leaf variable的這個(gè)方法，否則會(huì)出現(xiàn)以下錯(cuò)誤：

RuntimeError: you can only change requires_grad flags of leaf variables.

1.2 函數(shù)的求導(dǎo)方法——y.backward()方法

上面只演示了簡(jiǎn)單函數(shù)的求導(dǎo)法則，

需要注意的是：如果出現(xiàn)了復(fù)合函數(shù)，比如 y是x的函數(shù)，z是y的函數(shù)，f是z的函數(shù)，那么在求導(dǎo)的時(shí)候，會(huì)使用 f.backwrad()只會(huì)默認(rèn)求f對(duì)于葉子變量leaf variable的導(dǎo)數(shù)值，而對(duì)于中間變量y、z的導(dǎo)數(shù)值是不知道的，直接通過(guò)x.grad是知道的、y.grad、z.grad的值為none。

下面來(lái)看一下這個(gè)函數(shù)backward的定義：

backward(gradient=None, retain_graph=None, create_graph=False)

它的三個(gè)參數(shù)都是可選的，上面的示例中還沒(méi)有用到任何一個(gè)參數(shù)，關(guān)于這三個(gè)參數(shù)，我后面會(huì)詳細(xì)說(shuō)到，這里先跳過(guò)。

1.3 查看求得的導(dǎo)數(shù)的值——x.grad屬性

通過(guò)tensor的grad屬性查看所求得的梯度值。

總結(jié)：

（1）torch.tensor()設(shè)置requires_grad關(guān)鍵字參數(shù)

（2）查看tensor是否可導(dǎo)，x.requires_grad 屬性

（3）設(shè)置葉子變量 leaf variable的可導(dǎo)性，x.requires_grad_()方法

（4）自動(dòng)求導(dǎo)方法 y.backward() ，直接調(diào)用backward()方法，只會(huì)計(jì)算對(duì)計(jì)算圖葉節(jié)點(diǎn)的導(dǎo)數(shù)。

（5）查看求得的到數(shù)值， x.grad 屬性

易錯(cuò)點(diǎn)：

為什么上面的標(biāo)量x的值是3.0和4.0，而不是整數(shù)呢？這是因?yàn)?，要想使x支持求導(dǎo)，必須讓x為浮點(diǎn)類(lèi)型，也就是我們給初始值的時(shí)候要加個(gè)點(diǎn)：“.”。不然的話(huà)，就會(huì)報(bào)錯(cuò)。即，不能定義[1,2,3]，而應(yīng)該定義成[1.,2.,3.]，前者是整數(shù)，后者才是浮點(diǎn)數(shù)，浮點(diǎn)數(shù)才能求導(dǎo)。

二、求導(dǎo)的核心函數(shù)——backwrad函數(shù)詳解

2.1 默認(rèn)的求導(dǎo)規(guī)則

在pytorch里面，默認(rèn)：只能是【標(biāo)量】對(duì)【標(biāo)量】，或者【標(biāo)量】對(duì)向【量/矩陣】求導(dǎo)！這個(gè)很關(guān)鍵，很重要！

（1）標(biāo)量對(duì)標(biāo)量求導(dǎo)

參見(jiàn)上面的例子，x,y,z都是標(biāo)量，所以求導(dǎo)過(guò)程也很簡(jiǎn)單，不再贅述。

（2）標(biāo)量對(duì)向量/矩陣求導(dǎo)

為什么標(biāo)量對(duì)于向量/矩陣是默認(rèn)的呢？因?yàn)樵谏疃葘W(xué)習(xí)中，我們一般在求導(dǎo)的時(shí)候是對(duì)損失函數(shù)求導(dǎo)，損失函數(shù)一般都是一個(gè)標(biāo)量，即將所有項(xiàng)的損失加起來(lái)，但是參數(shù)又往往是向量或者是矩陣，所以這就是默認(rèn)的了。看下面的例子。

比如有一個(gè)輸入層為3節(jié)點(diǎn)的輸入層，輸出層為一個(gè)節(jié)點(diǎn)的輸出層，這樣一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)，針對(duì)以組樣本而言，有

X=（x1,x2,x3）=(1.5,2.5,3.5)，X是（1,3）維的，輸出層的權(quán)值矩陣為W=（w1,w2,w3）T=(0.2,0.4,0.6)T，這里表示初始化的權(quán)值矩陣，T表示轉(zhuǎn)置，則W表示的是（3,1）維度，偏置項(xiàng)為b=0.1,是一個(gè)標(biāo)量，則可以構(gòu)建一個(gè)模型如下：

Y=XW+b，其中W,b就是要求倒數(shù)的變量，這里Y是一個(gè)標(biāo)量，W是向量，b是標(biāo)量，W,b是葉節(jié)點(diǎn)，leaf variable，

將上面展開(kāi)得到：

Y=x1w1+x2w2x3w3+b （這里的1,2,3是下標(biāo)，不是次方哦！難得用公式截圖）

自己手動(dòng)計(jì)算得到，

Y對(duì)w1的導(dǎo)數(shù)為1.5

Y對(duì)w2的導(dǎo)數(shù)為2.5

Y對(duì)w3的導(dǎo)數(shù)為3.5

Y對(duì)b的導(dǎo)數(shù)為1

下面我們來(lái)驗(yàn)證一下：

#創(chuàng)建一個(gè)多元函數(shù)，即Y=XW+b=Y=x1*w1+x2*w2*x3*w3+b，x不可求導(dǎo)，W,b設(shè)置可求導(dǎo)
X=torch.tensor([1.5,2.5,3.5],requires_grad=False)
W=torch.tensor([0.2,0.4,0.6],requires_grad=True)
b=torch.tensor(0.1,requires_grad=True)
Y=torch.add(torch.dot(X,W),b)


#判斷每個(gè)tensor是否是可以求導(dǎo)的
print(X.requires_grad)
print(W.requires_grad)
print(b.requires_grad)
print(Y.requires_grad)


#求導(dǎo)，通過(guò)backward函數(shù)來(lái)實(shí)現(xiàn)
Y.backward()

#查看導(dǎo)數(shù)，也即所謂的梯度
print(W.grad)
print(b.grad)

運(yùn)行結(jié)果為：

False
True
True
True
tensor([1.5000, 2.5000, 3.5000])
tensor(1.)

我們發(fā)現(xiàn)這和我們自己算的結(jié)果是一樣的。

（3）標(biāo)量對(duì)向量/矩陣求導(dǎo)的進(jìn)一步理解

比如有下面的一個(gè)復(fù)合函數(shù)，而且是矩陣，定義如下：

x 是一個(gè)（2,3）的矩陣，設(shè)置為可導(dǎo)，是葉節(jié)點(diǎn)，即leaf variable
y 是中間變量,由于x可導(dǎo)，所以y可導(dǎo)
z 是中間變量,由于x，y可導(dǎo)，所以z可導(dǎo)
f 是一個(gè)求和函數(shù)，最終得到的是一個(gè)標(biāo)量scaler

x = torch.tensor([[1.,2.,3.],[4.,5.,6.]],requires_grad=True)
y = torch.add(x,1)
z = 2*torch.pow(y,2)
f = torch.mean(z)

則x,y,z,f實(shí)際上的函數(shù)關(guān)系如下：

$X=\left[\begin{array}{ccc} X_{11} & X_{12} & X_{13} \\ X_{21} & X_{22} & X_{23} \end{array}\right]$

$\mathrm{y}=\left[\begin{array}{lll} y_{11} & y_{12} & y_{13} \\ y_{21} & y_{22} & y_{23} \end{array}\right]$

$\mathrm{Z}=\left[\begin{array}{lll} Z_{11} & Z_{12} & Z_{13} \\ Z_{21} & Z_{22} & Z_{23} \end{array}\right]$

$f$ 為：

$\begin{aligned} & f=\frac{\sum_{i=1}^{6} z_{i}}{6}=\frac{z_{11}+z_{12}+z_{13}+z_{21}+z_{22}+z_{23}}{6} \\ =& \frac{2\left(\mathrm{y}_{11}^{2}+\mathrm{y}_{12}^{2}+\mathrm{y}_{13}^{2}+\mathrm{y}_{21}^{2}+\mathrm{y}_{22}^{2}+\mathrm{y}_{23}^{2}\right)}{6} \\ =& \frac{2\left[\left(x_{11}+1\right)^{2}+\left(x_{12}+1\right)^{2}+\left(x_{13}+1\right)^{2}+\left(x_{21}+1\right)^{2}+\left(x_{22}+1\right)^{2}+\left(x_{23}+1\right)^{2}\right]}{6} \end{aligned}$

可見(jiàn)現(xiàn)在我么自己都可以手動(dòng)求出函數(shù)f對(duì)于x11,x12,x13,x21,x22,x23的導(dǎo)數(shù)了，那我們通過(guò)torch來(lái)試一試。

print(x.requires_grad)
print(y.requires_grad)
print(z.requires_grad)
print(f.requires_grad)
print('===================================')
f.backward()
print(x.grad)

運(yùn)行結(jié)果為：

True
True
True
True
===================================
tensor([[1.3333, 2.0000, 2.6667],
[3.3333, 4.0000, 4.6667]])

現(xiàn)在我們是不是更加了解自動(dòng)求導(dǎo)的規(guī)則了呢？

標(biāo)量如何對(duì)標(biāo)量、向量、矩陣求導(dǎo)數(shù)?。?！

2.2 向量/矩陣對(duì) 向量/矩陣求導(dǎo)——通過(guò)backward的第一個(gè)參數(shù)gradient來(lái)實(shí)現(xiàn)

（1）求導(dǎo)的一個(gè)規(guī)則

比如有下面的例子：

x 是一個(gè)（2,3）的矩陣，設(shè)置為可導(dǎo)，是葉節(jié)點(diǎn)，即leaf variable
y 也是一個(gè)（2,3）的矩陣，即
y=x2+x (x的平方加x)
實(shí)際上，就是要y的各個(gè)元素對(duì)相對(duì)應(yīng)的x求導(dǎo)

x = torch.tensor([[1.,2.,3.],[4.,5.,6.]],requires_grad=True)
y = torch.add(torch.pow(x,2),x)

gradient=torch.tensor([[1.0,1.0,1.0],[1.0,1.0,1.0]])

y.backward(gradient)

print(x.grad)

運(yùn)行結(jié)果為：

tensor([[ 3., 5., 7.],
[ 9., 11., 13.]])

這其實(shí)跟我們自己算的是一樣的，

相較于上面的標(biāo)量對(duì)于向量或者是矩陣求導(dǎo)，關(guān)鍵是backward（）函數(shù)的第一個(gè)參數(shù)gradient，那么這個(gè)參數(shù)是什么意思呢？

為了搞清楚傳入的這個(gè)gradient參數(shù)到底做了什么工作，我們進(jìn)一步做一個(gè)實(shí)驗(yàn)，有下面的一個(gè)向量對(duì)向量的求導(dǎo)，即

x = torch.tensor([1.,2.,3.],requires_grad=True)
y = torch.pow(x,2)

gradient=torch.tensor([1.0,1.0,1.0])
y.backward(gradient)
print(x.grad)

得到的結(jié)果：

tensor([2., 4., 6.]) 這和我們期望的是一樣的

因?yàn)檫@里的gradient參數(shù)全部是1，所以看不出差別，現(xiàn)在更改一下gradient的值，如下：

gradient=torch.tensor([1.0,0.1,0.01])

輸出為：

tensor([2.0000, 0.4000, 0.0600])

從結(jié)果上來(lái)看，就是第二個(gè)導(dǎo)數(shù)縮小了十倍，第三個(gè)導(dǎo)數(shù)縮小了100倍，這個(gè)倍數(shù)和gradient里面的數(shù)字是息息相關(guān)的。

如果你想讓不同的分量有不同的權(quán)重，從效果上來(lái)理解確實(shí)是這樣子的，比如我是三個(gè)loss，loss1，loss2，loss3，它們的權(quán)重可能是不一樣的，我們就可以通過(guò)它來(lái)設(shè)置，即

dy/dx=0.1*dy1/dx+1.0*dy2/dx+0.0001*dy3/dx。

需要注意的是，gradient的維度是和最終的需要求導(dǎo)的那個(gè)y的維度是一樣的，從上面的兩個(gè)例子也可以看出來(lái)。

總結(jié)：gradient參數(shù)的維度與最終的函數(shù)y保持一樣的形狀，每一個(gè)元素表示當(dāng)前這個(gè)元素所對(duì)應(yīng)的權(quán)重

2.3 自動(dòng)求導(dǎo)函數(shù)backward的第二、第三個(gè)參數(shù)

（1）保留運(yùn)算圖——retain_graph

在構(gòu)建函數(shù)關(guān)系的時(shí)候，特別是多個(gè)復(fù)合函數(shù)的時(shí)候，會(huì)有一個(gè)運(yùn)算圖，比如下面：

在這里插入圖片描述

則有如下一些函數(shù)關(guān)系：

p=f(y)——>y=f(x)

q=f(z)——>z=f(x)

一個(gè)計(jì)算圖在進(jìn)行反向求導(dǎo)之后，為了節(jié)省內(nèi)存，這個(gè)計(jì)算圖就銷(xiāo)毀了。如果你想再次求導(dǎo)，就會(huì)報(bào)錯(cuò)。

就比如這里的例子而言，

你先求p求導(dǎo)，那么這個(gè)過(guò)程就是反向的p對(duì)y求導(dǎo)，y對(duì)x求導(dǎo)。求導(dǎo)完畢之后，這三個(gè)節(jié)點(diǎn)構(gòu)成的計(jì)算子圖就會(huì)被釋放：

在這里插入圖片描述

那么計(jì)算圖就只剩下z、q了，已經(jīng)不完整，無(wú)法求導(dǎo)了。所以這個(gè)時(shí)候，無(wú)論你是想再次運(yùn)行p.backward()還是q.backward()，都無(wú)法進(jìn)行，因?yàn)閤已經(jīng)被銷(xiāo)毀了，報(bào)錯(cuò)如下：

RuntimeError: Trying to backward through the graph a second time, but the buffers have already been freed. Specify retain_graph=True when calling backward the first time.

那怎么辦呢？遇到這種問(wèn)題，我們可以通過(guò)設(shè)置 retain_graph=True 來(lái)保留計(jì)算圖，

即更改你的backward函數(shù)，添加參數(shù)retain_graph=True，重新進(jìn)行backward，這個(gè)時(shí)候你的計(jì)算圖就被保留了，不會(huì)報(bào)錯(cuò)。但是這樣會(huì)吃?xún)?nèi)存！，尤其是，你在大量迭代進(jìn)行參數(shù)更新的時(shí)候，很快就會(huì)內(nèi)存不足，所以這個(gè)參數(shù)在絕大部分情況下是不要去使用的。

（2）高階導(dǎo)數(shù)——create_graph

create_graph參數(shù)的資料現(xiàn)在很少，我也還沒(méi)有搜尋到一些更詳細(xì)的用法，它的官方描述是這樣的：

更高層次的計(jì)算圖會(huì)創(chuàng)建出來(lái)，允許計(jì)算高階導(dǎo)數(shù)，如二階導(dǎo)數(shù)、三階導(dǎo)數(shù)等等，下面有一個(gè)簡(jiǎn)單的小例子：

x = torch.tensor(5.0,requires_grad=True)
y = torch.pow(x,3)

grad_x = torch.autograd.grad(y, x, create_graph=True)
print(grad_x) # dy/dx = 3 * x^2，即75

grad_grad_x = torch.autograd.grad(grad_x[0],x)
print(grad_grad_x) # 二階導(dǎo)數(shù) d(2x)/dx = 30

運(yùn)行結(jié)果為：

(tensor(75., grad_fn=<MulBackward0>),)
(tensor(30.),)

三、關(guān)于向量對(duì)向量求導(dǎo)的解釋

補(bǔ)充說(shuō)明：關(guān)于向量對(duì)向量求梯度的進(jìn)一步繞論：

比如說(shuō)下面一個(gè)三維向量求梯度：

然后，要計(jì)算z關(guān)于x或者y的梯度，需要將一個(gè)外部梯度傳遞給z.backward()函數(shù)，如下所示：

z.backward(torch.FloatTensor([1.0, 1.0, 1.0])

反向函數(shù)傳遞的張量就像梯度加權(quán)輸出的權(quán)值。從數(shù)學(xué)上講，這是一個(gè)向量乘以非標(biāo)量張量的雅可比矩陣(本文將進(jìn)一步討論)，因此它幾乎總是一個(gè)維度的單位張量，與 backward張量相同，除非需要計(jì)算加權(quán)輸出。

注意：向后圖是由autograd類(lèi)在向前傳遞過(guò)程中自動(dòng)動(dòng)態(tài)創(chuàng)建的。Backward()只是通過(guò)將其參數(shù)傳遞給已經(jīng)生成的反向圖來(lái)計(jì)算梯度。

數(shù)學(xué)—雅克比矩陣和向量

從數(shù)學(xué)上講，autograd類(lèi)只是一個(gè)雅可比向量積計(jì)算引擎。雅可比矩陣是一個(gè)非常簡(jiǎn)單的單詞，它表示兩個(gè)向量所有可能的偏導(dǎo)數(shù)。它是一個(gè)向量相對(duì)于另一個(gè)向量的梯度。

注意：在這個(gè)過(guò)程中，PyTorch從不顯式地構(gòu)造整個(gè)雅可比矩陣。直接計(jì)算JVP (Jacobian vector product)通常更簡(jiǎn)單、更有效。

如果一個(gè)向量X = [x1, x2，…xn]通過(guò)f(X) = [f1, f2，…fn]來(lái)計(jì)算其他向量，則雅可比矩陣(J)包含以下所有偏導(dǎo)組合：
$\mathbf{J}=\left[\begin{array}{ccc} \frac{\partial \mathbf{f}}{\partial x_{1}} & \cdots & \frac{\partial \mathbf{f}}{\partial x_{n}} \end{array}\right]=\left[\begin{array}{ccc} \frac{\partial f_{1}}{\partial x_{1}} & \cdots & \frac{\partial f_{1}}{\partial x_{n}} \\ \vdots & \ddots & \vdots \\ \frac{\partial f_{m}}{\partial x_{1}} & & \frac{\partial f_{m}}{\partial x_{n}} \end{array}\right]$

注意：雅可比矩陣實(shí)現(xiàn)的是 n維向量到 m 維向量的映射。

雅克比矩陣

上面的矩陣表示f(X)相對(duì)于X的梯度。

假設(shè)一個(gè)啟用PyTorch梯度的張量X：

X = x1,x2,…,xn

X經(jīng)過(guò)一些運(yùn)算形成一個(gè)向量Y

Y = f(X) = [y1, y2，…,ym]

然后使用Y計(jì)算標(biāo)量損失l。假設(shè)向量v恰好是標(biāo)量損失l關(guān)于向量Y的梯度，如下：（注意體會(huì)這句話(huà)，這個(gè)很重要?。?br> $v=\left(\frac{\partial l}{\partial y_{1}} \quad \cdots \quad \frac{\partial l}{\partial_{y_{i}}}\right)^{T}$

向量v稱(chēng)為grad_tensor（梯度張量），并作為參數(shù)傳遞給backward() 函數(shù)。

為了得到損失的梯度l關(guān)于權(quán)重X的梯度，雅可比矩陣J是向量乘以向量v

$J \cdot v=\left(\begin{array}{ccc} \frac{\partial y_{1}}{\partial x_{1}} & \cdots & \frac{\partial y_{m}}{\partial x_{1}} \\ \vdots & \ddots & \vdots \\ \frac{\partial y_{1}}{\partial x_{n}} & \cdots & \frac{\partial y_{m}}{\partial x_{n}} \end{array}\right)\left(\begin{array}{c} \frac{\partial l}{\partial y_{1}} \\ \vdots \\ \frac{\partial l}{\partial y_{m}} \end{array}\right)=\left(\begin{array}{c} \frac{\partial l}{\partial x_{1}} \\ \vdots \\ \frac{\partial l}{\partial e_{j}} \end{array}\right)$
這種計(jì)算雅可比矩陣并將其與向量v相乘的方法使PyTorch能夠輕松地為非標(biāo)量輸出提供外部梯度。

四、求導(dǎo)的另外兩種方法

方法一：通過(guò) torch.autograd.backward(）求導(dǎo)

前面介紹的求導(dǎo)的基本公式為：

y.backward(grad_tensors=None, retain_graph=None, create_graph=False),這三個(gè)參數(shù)我在前面已經(jīng)說(shuō)了，

反向求導(dǎo)它等價(jià)于：

torch.autograd.backward(tensors,grad_tensors=None, retain_graph=None, create_graph=False), 這里的tensors參數(shù)就相當(dāng)于是y,

所以：

y.backward(） #標(biāo)量y 等價(jià)于

torch.autograd.backward(y)。

需要注意的是，這個(gè)函數(shù)只是提供求導(dǎo)功能，并不返回值，返回的總是None，如下例子：

import torch

x=torch.tensor([1.0,2.0,3.0],requires_grad=True)
y=torch.tensor([4.0,5.0,6.0],requires_grad=True)

z=torch.sum(torch.pow(x,2)+torch.pow(y,3)) # z=x2+y3

torch.autograd.backward([z]) # 求導(dǎo)，等價(jià)于z.backward()

print(x.grad) # 獲取求導(dǎo)的結(jié)果
print(y.grad)

輸出

tensor([2., 4., 6.])
tensor([ 48., 75., 108.])

注意事項(xiàng)：

（1）該方法只負(fù)責(zé)求導(dǎo)，返回的總是None，

（2）當(dāng)向量對(duì)向量求導(dǎo)的時(shí)候，需要傳遞參數(shù)grad_tensor，這個(gè)參數(shù)的含義其實(shí)和前一篇文章的y.backward()里面的那個(gè)是一個(gè)含義；

（3）retain_graph=None, create_graph=False 也和前面的含義是一樣的

方法二：通過(guò)torch.autograd.grad(）來(lái)求導(dǎo)

除了前面的兩種方法來(lái)求導(dǎo)以外，即

y.backward()

torch.autograd.backward(y) 這兩種方法

還有一種方法，即通過(guò)torch.autograd.grad(）來(lái)求導(dǎo)，先來(lái)看一下這個(gè)函數(shù)的定義。

def grad(outputs, inputs, grad_outputs=None, retain_graph=None, create_graph=False,only_inputs=True, allow_unused=False):

outputs : 函數(shù)的因變量，即需要求導(dǎo)的那個(gè)函數(shù)，在本例子中，為z，當(dāng)然，他可以是一個(gè)tensor，也可以是幾個(gè)tensor，如[tensor1,tensor2,tensor3...]
inputs : 函數(shù)的自變量，在本例中，即對(duì)應(yīng)的是[x,y]，他可以是一個(gè)tensor，也可以是幾個(gè)tensor，如[tensor1,tensor2,tensor3...]
grad_output : 這個(gè)參數(shù)和前面兩種方法中的grad_tensors是同樣的含義，當(dāng)出現(xiàn)向量對(duì)向量求導(dǎo)的時(shí)候需要指定該參數(shù)

依然以這個(gè)例子而言，來(lái)看一下怎么做：

import torch

x=torch.tensor([1.0,2.0,3.0],requires_grad=True)
y=torch.tensor([4.0,5.0,6.0],requires_grad=True)

z=torch.sum(torch.pow(x,2)+torch.pow(y,3)) # z=x2+y3

print(torch.autograd.grad(z,[x,y])) # 求導(dǎo)，并且返回值

輸出

(tensor([2., 4., 6.]), tensor([ 48., 75., 108.]))

注意事項(xiàng)：

該函數(shù)會(huì)自動(dòng)完成求導(dǎo)過(guò)程，而且會(huì)自動(dòng)返回對(duì)于每一個(gè)自變量求導(dǎo)的結(jié)果。這是和前面不一樣的地方。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

如何使用pytorch自動(dòng)求梯度

如何使用pytorch自動(dòng)求梯度

一、pytorch自動(dòng)求導(dǎo)初步認(rèn)識(shí)

1.1 tensor的創(chuàng)建與屬性設(shè)置

1.2 函數(shù)的求導(dǎo)方法——y.backward()方法

二、求導(dǎo)的核心函數(shù)——backwrad函數(shù)詳解

2.1 默認(rèn)的求導(dǎo)規(guī)則

2.2 向量/矩陣對(duì) 向量/矩陣求導(dǎo)——通過(guò)backward的第一個(gè)參數(shù)gradient來(lái)實(shí)現(xiàn)

2.3 自動(dòng)求導(dǎo)函數(shù)backward的第二、第三個(gè)參數(shù)

三、關(guān)于向量對(duì)向量求導(dǎo)的解釋

四、求導(dǎo)的另外兩種方法

方法一：通過(guò) torch.autograd.backward(）求導(dǎo)

方法二：通過(guò)torch.autograd.grad(）來(lái)求導(dǎo)

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

如何使用pytorch自動(dòng)求梯度

一、pytorch自動(dòng)求導(dǎo)初步認(rèn)識(shí)

1.1 tensor的創(chuàng)建與屬性設(shè)置

1.2 函數(shù)的求導(dǎo)方法——y.backward()方法

二、求導(dǎo)的核心函數(shù)——backwrad函數(shù)詳解

2.1 默認(rèn)的求導(dǎo)規(guī)則

2.2 向量/矩陣 對(duì) 向量/矩陣求導(dǎo)——通過(guò)backward的第一個(gè)參數(shù)gradient來(lái)實(shí)現(xiàn)

2.3 自動(dòng)求導(dǎo)函數(shù)backward的第二、第三個(gè)參數(shù)

三、關(guān)于向量對(duì)向量求導(dǎo)的解釋

四、求導(dǎo)的另外兩種方法

方法一：通過(guò) torch.autograd.backward(）求導(dǎo)

方法二：通過(guò)torch.autograd.grad(）來(lái)求導(dǎo)

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

二、求導(dǎo)的核心函數(shù)——backwrad函數(shù)詳解

2.2 向量/矩陣對(duì) 向量/矩陣求導(dǎo)——通過(guò)backward的第一個(gè)參數(shù)gradient來(lái)實(shí)現(xiàn)