色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

<kbd id="eukeq"><code id="eukeq"></code></kbd>

<tr id="eukeq"></tr>

<bdo id="eukeq"><th id="eukeq"></th></bdo>

<s id="eukeq"></s>

登錄注冊寫文章

Transformer DecoderLayer 結(jié)構(gòu)與工作原理詳解

行走中的3卡

Transformer DecoderLayer 結(jié)構(gòu)與工作原理詳解

Q1：DecoderLayer 包含哪些子層？
A1：DecoderLayer 由三大子層組成：

自注意力子層（self?attn）
交叉注意力子層（cross?attn）
前饋網(wǎng)絡(luò)子層（ffn）

每個子層都有獨立的 殘差連接 與 LayerNorm（分別為 norm1、norm2、norm3）。

Q2：自注意力子層的輸入、輸出以及殘差/歸一化過程是怎樣的？
A2：

輸入：解碼器當前時刻的目標序列表示 tgt（形狀 (batch, tgt_len, d_model)）。
計算：self_attn(tgt, tgt, tgt, tgt_mask)，即 Q = K = V = tgt。
殘差 + 歸一化：將自注意力的輸出 output 與原始 tgt 相加，再經(jīng)過 Dropout 與 LayerNorm（norm1），得到 x?（殘差歸一化后的表示），該 x? 將作為后續(xù)交叉注意力的查詢（Q）。

Q3：交叉注意力子層的查詢、鍵、值分別是什么？它們是如何連接的？
A3：

查詢 Q：來自自注意力子層的殘差歸一化輸出 x?（而不是原始自注意力輸出）。
鍵 K 與值 V：均為 編碼器的輸出 src（即 memory），二者相等。
計算：cross_attn(x?, src, src, src_mask)。
殘差 + 歸一化：交叉注意力的輸出 output 與 x? 相加，經(jīng)過 Dropout 與 LayerNorm（norm2），得到 x?，隨后作為前饋網(wǎng)絡(luò)的輸入。

Q4：前饋網(wǎng)絡(luò)子層的結(jié)構(gòu)與殘差/歸一化是怎樣的？
A4：

輸入：交叉注意力子層歸一化后的輸出 x?。
結(jié)構(gòu)：兩層全連接層 Linear(d_model → d_ff) → ReLU → Dropout → Linear(d_ff → d_model)。
殘差 + 歸一化：前饋網(wǎng)絡(luò)的輸出 output 與 x? 相加，經(jīng)過 Dropout 與 LayerNorm（norm3），得到 x?，即 DecoderLayer 的最終輸出。

Q5：每個子層的殘差連接和 LayerNorm 是否相互獨立？
A5：是的。自注意力、交叉注意力、前饋網(wǎng)絡(luò)各自擁有獨立的殘差路徑和對應(yīng)的 LayerNorm（norm1、norm2、norm3），互不共享。

Q6：對原先描述的細節(jié)需要哪些更正？
A6：

原描述中“使用解碼器第一個多頭注意力層的輸出作為 Q”應(yīng)更準確地表述為 “使用自注意力子層經(jīng)過殘差連接和 LayerNorm 之后的輸出 x? 作為 Q”。
其他關(guān)于 K、V 均為編碼器輸出、前饋網(wǎng)絡(luò)輸入為交叉注意力歸一化輸出的描述是正確的。

結(jié)論：DecoderLayer 的工作流程為：
self_attn → norm1 → cross_attn → norm2 → ffn → norm3，每一步均伴隨殘差連接，確保梯度流通并提升模型表達能力。

附錄
Paper: https://arxiv.org/abs/1706.03762
Transformer?from?Scratch: https://github.com/Breeze648/Transformer-from-Scratch

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

Pytorch學(xué)習(xí)記錄-Transformer（數(shù)據(jù)預(yù)處理和模型結(jié)構(gòu)）
Pytorch學(xué)習(xí)記錄-torchtext和Pytorch的實例6 0. PyTorch Seq2Seq項目介紹 ...
我的昵稱違規(guī)了閱讀 6,343評論 1贊 1
Transformer各層網(wǎng)絡(luò)結(jié)構(gòu)詳解！面試必備！(附代碼實現(xiàn))
1. 什么是Transformer 《Attention Is All You Need》是一篇Google提出的...
mantch閱讀 3,478評論 0贊 7

Transformer 中的前饋網(wǎng)絡(luò)、殘差連接與層歸一化（Add & Norm）
Q1: Transformer 論文中架構(gòu)的 add&norm 是什么，有什么用？A1: “Add & Norm”...
行走中的3卡閱讀 43評論 0贊 0
自然語言處理N天-使用Pytorch實現(xiàn)Transformer第一節(jié)
從今天開始，我會再看一遍Transformer（這是第3遍了吧……）。這次是依據(jù)Transformer 模型的 P...
我的昵稱違規(guī)了閱讀 8,195評論 3贊 12
源碼解析目標檢測的跨界之星DETR（四）、Detection with Transformer
Date: 2020/07/25 Coder: CW Foreword: 本文是該系列的重點之一，通過對DETR中...
CW不要無聊的風(fēng)格閱讀 6,507評論 2贊 12

友情鏈接更多精彩內(nèi)容

贊1贊

贊賞

手機看全文

通州市| 海丰县| 赣榆县| 松潘县| 桦甸市| 克什克腾旗| 正蓝旗| 兴国县| 双辽市| 榆中县| 山东| 嵊州市| 雷山县| 郯城县| 诸暨市| 吴旗县| 麦盖提县| 沅陵县| 资溪县| 大田县| 泰安市| 巴楚县| 九寨沟县| 当雄县| 竹溪县| 改则县| 西青区| 改则县| 稻城县| 津市市| 达孜县| 洪泽县| 峨眉山市| 延寿县| 垦利县| 黄冈市| 吴江市| 教育| 甘孜| 封开县| 崇明县|

<input id="go2o6"><object id="go2o6"></object></input>

<noframes id="go2o6"><abbr id="go2o6"></abbr>

<address id="go2o6"><blockquote id="go2o6"></blockquote></address>