1,請(qǐng)闡述Transformer能夠進(jìn)行訓(xùn)練來(lái)表達(dá)和生成信息背后的數(shù)學(xué)假設(shè),什么數(shù)學(xué)模型或者公式支持了Transformer模型的訓(xùn)練目標(biāo)?請(qǐng)展示至少一個(gè)相關(guān)數(shù)學(xué)公式的具體推導(dǎo)過(guò)程。
2,Transformer中的可訓(xùn)練Queries、Keys和Values矩陣從哪兒來(lái)?Transformer中為何會(huì)有Queries、Keys和Values矩陣,只設(shè)置Values矩陣本身來(lái)求Attention不是更簡(jiǎn)單嗎?
3,Transformer的Feed Forward層在訓(xùn)練的時(shí)候到底在訓(xùn)練什么?
4,請(qǐng)具體分析Transformer的Embeddigns層、Attention層和Feedforward層的復(fù)雜度
5,Transformer的Positional Encoding是如何表達(dá)相對(duì)位置關(guān)系的,位置信息在不同的Encoder的之間傳遞會(huì)丟失嗎?
6,Transformer中的Layer Normalization蘊(yùn)含的神經(jīng)網(wǎng)絡(luò)的假設(shè)是什么?為何使用Layer Norm而不是Batch Norm?Transformer是否有其它更好的Normalization的實(shí)現(xiàn)?
獨(dú)立同分布假設(shè)
7,Transformer中的神經(jīng)網(wǎng)絡(luò)為何能夠很好的表示信息?
8,請(qǐng)從數(shù)據(jù)的角度分析Transformer中的Decoder和Encoder的依存關(guān)系
9,請(qǐng)描述Transformer中的Tokenization的數(shù)學(xué)原理、運(yùn)行流程、問(wèn)題及具體改進(jìn)方法
10,請(qǐng)描述一下你認(rèn)為的把self-attention復(fù)雜度從O(n2) 降低到 O(n)有效方案.
11,Bert的CLS能夠有效的表達(dá)Sentence Embeddings嗎?
12,使用BPE (Byte-Pair Encoding) 進(jìn)行Tokenization對(duì)于Cross-lingual語(yǔ)言模型的意義是什么?是否會(huì)有問(wèn)題及如何改進(jìn)?
13,如果使用Transformer對(duì)不同類(lèi)別的數(shù)據(jù)進(jìn)行訓(xùn)練,數(shù)據(jù)集有些類(lèi)別的數(shù)據(jù)量很大(例如有10億條),而大多數(shù)類(lèi)別的數(shù)據(jù)量特別小(例如可能只有100條),此時(shí)如何訓(xùn)練出一個(gè)相對(duì)理想的Transformer模型來(lái)對(duì)處理不同類(lèi)別的任務(wù)?
14,如何使用使用多種類(lèi)小樣本對(duì)Transformer訓(xùn)練而取得很好的分類(lèi)效果,請(qǐng)?jiān)斒霰澈蟮募軜?gòu)設(shè)計(jì)和數(shù)學(xué)機(jī)制
15,在給Transformer輸入Embeddings的時(shí)候是否可以使用多方來(lái)源的詞嵌入訓(xùn)練模型?請(qǐng)闡述背后的數(shù)學(xué)原理及工程上的具體實(shí)現(xiàn)機(jī)制
16,更深更寬的Transformer網(wǎng)絡(luò)是否意味著能夠獲得更強(qiáng)的預(yù)訓(xùn)練模型?請(qǐng)至少?gòu)?個(gè)角度,例如架構(gòu)的工程化落地、參數(shù)的信息表達(dá)能力、訓(xùn)練任務(wù)等,來(lái)展開(kāi)具體的分析
17,如何大規(guī)模降低Transformer中Embedding中的參數(shù)數(shù)量?請(qǐng)至少具體分析一種具體方法背后的數(shù)學(xué)原理和工程實(shí)踐
18,請(qǐng)描述Trasnformer不同的Layer之間的FeedForward神經(jīng)網(wǎng)絡(luò)之間的聯(lián)系,例如在Bert中不同Layer之間的CLS 有什么關(guān)系、對(duì)角矩陣隨著Layer的加深有何變化等
19,如何降低Transformer的Feedforward層的參數(shù)數(shù)量?請(qǐng)?jiān)斒霰澈蟮臄?shù)學(xué)原理和工程實(shí)踐
20,Transformer的Layer深度過(guò)深,例如512個(gè)Layer,會(huì)可能導(dǎo)致什么現(xiàn)象?請(qǐng)?jiān)斒霰澈蟮臄?shù)學(xué)機(jī)制
21,Bert中NSP可能的問(wèn)題有些哪些?這些問(wèn)題背后的數(shù)學(xué)原理是什么?如何改進(jìn)?可以去掉NSP訓(xùn)練任務(wù)嗎?
22,請(qǐng)?jiān)斀夥治鯰ransformer的Batch大小與訓(xùn)練的信息困惑度ppl的關(guān)系并闡明背后的數(shù)學(xué)原理
23,請(qǐng)從數(shù)據(jù)的角度分析一下為何在對(duì)Transformer進(jìn)行參數(shù)的 Quantization的時(shí)候工業(yè)界最終選擇了INT8?包括壓縮的具體過(guò)程、KL散度、長(zhǎng)尾分布等。如何處理Quantization后模型質(zhì)量降低度情況?
24,以Transformer為代表的的Neuron Network逐漸主導(dǎo)了人工智能各領(lǐng)域,例如NLP, CV等的信息表示。請(qǐng)從數(shù)學(xué)的角度闡述為什么Neuron Network能夠代表任意人復(fù)雜度的信息?使用神經(jīng)網(wǎng)絡(luò)表達(dá)信息具體有什么優(yōu)勢(shì)?
25,請(qǐng)描述至少三種判斷Transformer中神經(jīng)元Neuron相對(duì)重要程度的具體方法及其背后的數(shù)學(xué)原理
26,為什么說(shuō)Transformer的注意力機(jī)制是相對(duì)廉價(jià)的?注意力機(jī)制相對(duì)更對(duì)于RNN系列及Convolution系列算法而言在計(jì)算上(尤其是計(jì)算復(fù)雜度)有什么優(yōu)勢(shì)?
27,請(qǐng)用具體例子闡述使用Multi-head的物理機(jī)制和并從數(shù)學(xué)的視角來(lái)推導(dǎo)其有效性的原因
28,請(qǐng)分享一下至少三種提升Transformer預(yù)測(cè)速度的具體的方法及其數(shù)學(xué)原理
29,請(qǐng)分別描述Bert的MLM和NSP技術(shù)(例如Sampling) 的問(wèn)題及具體改進(jìn)方式
30,請(qǐng)闡述使用Transformer實(shí)現(xiàn)Zero-shot Learning數(shù)學(xué)原理和具體實(shí)現(xiàn)流程
31,請(qǐng)至少描述2種對(duì)來(lái)自不同訓(xùn)練模型訓(xùn)練出來(lái)的Embeddings進(jìn)行相似度比較的方法的具體實(shí)現(xiàn)
32,如何使得一個(gè)小模型,例如LSTM,具有一個(gè)大模型,例如Bert的能力?
33,為何訓(xùn)練后的BERT模型不能夠很容易的實(shí)現(xiàn)模型泛化?請(qǐng)從架構(gòu)機(jī)制和數(shù)學(xué)原理部分進(jìn)行分析
34,GPT的auto-regressive語(yǔ)言模型架構(gòu)在信息表示方面有什么架構(gòu)上的缺陷?
35,請(qǐng)描述BERT中MLM實(shí)現(xiàn)中的至少5個(gè)缺陷及可能的解決方案
36,請(qǐng)從數(shù)學(xué)的角度闡明如何實(shí)現(xiàn)對(duì)Transformer任意位置和長(zhǎng)度進(jìn)行Mask的具體實(shí)現(xiàn)方式
37,請(qǐng)描述Encoder和Decoder中Attention機(jī)制的三點(diǎn)不同之處并闡述其數(shù)學(xué)原理
38,請(qǐng)描述Transformer中Decoder的Embedding layers架構(gòu)設(shè)計(jì)、運(yùn)行流程和數(shù)學(xué)原理
39,請(qǐng)描述Transformer進(jìn)行Training的全生命周期的在Decoder中是如何進(jìn)行Embedding的呢?請(qǐng)闡述其流程和數(shù)學(xué)原理
40,請(qǐng)描述Transformer進(jìn)行Inference的全生命周期的在Decoder中是如何進(jìn)行Embedding的呢?請(qǐng)闡述其流程和數(shù)學(xué)原理
41,Transformer如果采用和Inference同樣的流程來(lái)進(jìn)行Training,會(huì)有什么問(wèn)題?請(qǐng)至少指出3點(diǎn)問(wèn)題并說(shuō)明背后的數(shù)學(xué)原理
42,為何Transformer的Matrix Dimensions是3D的?請(qǐng)?jiān)斒雒總€(gè)Dimension大小的改變是如何影響整個(gè)Transformer訓(xùn)練過(guò)程的?請(qǐng)?jiān)斒銎渚唧w的流程和數(shù)學(xué)原理
43,請(qǐng)描述只由一個(gè)Encoder和Decoder的Transformer使用了Attention的三個(gè)地方及其功能
44,請(qǐng)分別描述當(dāng)進(jìn)行Training和Inference的時(shí)候Masking在Transformer三大不同類(lèi)型使用Attention機(jī)制的地方的具體功能和數(shù)學(xué)實(shí)現(xiàn)
45,請(qǐng)描述Transformer的Training Loss具體工作流程和背后的數(shù)學(xué)公式
46,請(qǐng)闡述Multi-head Attention機(jī)制中通過(guò)Linear layer的Matrices計(jì)算Query、Key、Value時(shí)候進(jìn)行l(wèi)ogical partition和physical partition的異同及背后的數(shù)學(xué)原理
47,請(qǐng)闡述Transformer中所有能夠trainable的操作及其功能
48,請(qǐng)闡述Query、Key、Value在Transformer中具體的功能
49,為什么Transformer中的Attention Score能夠衡量不同Words之間Relevance的不同程序呢?請(qǐng)說(shuō)明背后的物理機(jī)制和數(shù)學(xué)原理
50,Transformer是如何知道什么樣的Weights能夠使得其更好的表達(dá)不同信息部分的不同程度的注意力的?請(qǐng)描述其運(yùn)行機(jī)制和背后的數(shù)學(xué)假設(shè)
51,如何減少Transformer中訓(xùn)練后的Word Embeddings的Bias?請(qǐng)闡述其背后的數(shù)學(xué)原理和實(shí)現(xiàn)流程
52,如何解決Self-attention和Word和自己的Attention最大的問(wèn)題?
53,為什么Transformer能夠?qū)LP、CV等任何AI領(lǐng)域的信息進(jìn)行有效表示?
54,為何通過(guò)Ground Truth就能夠訓(xùn)練Transformer使其具有泛化能力?
55,為什么在Transformer的Attention計(jì)算的時(shí)候需要進(jìn)行Scaling操作,請(qǐng)從神經(jīng)網(wǎng)絡(luò)和數(shù)學(xué)原理的角度進(jìn)行解釋
56,在Transformer中,一個(gè)輸入文本詞匯的順序是由position encoding來(lái)表達(dá)還是由multi-head attention來(lái)具體實(shí)現(xiàn)的?請(qǐng)闡述運(yùn)行機(jī)制和數(shù)學(xué)原理
57,請(qǐng)描述multi-head attention的至少三種實(shí)現(xiàn)方式并提供相應(yīng)的示例實(shí)現(xiàn)代碼
58,請(qǐng)描述Transformer中三種類(lèi)型的non-linear操作并闡述請(qǐng)數(shù)學(xué)原理
59,相比于RNN等,為何Transformer論文作者聲稱(chēng)“Attention is all you need”?請(qǐng)重點(diǎn)從數(shù)學(xué)的角度闡述其原因
60,請(qǐng)具體談一下Teacher forcing的數(shù)學(xué)原理及其在Transformer中的至少兩個(gè)地方的應(yīng)用
61,在Transformer的架構(gòu)中Decoder在進(jìn)行Inferencer的時(shí)候同時(shí)接收來(lái)自Encoder和Decoder的輸入信息,以NLP為例,這兩種類(lèi)型的輸入在詞法、語(yǔ)法、語(yǔ)義上是否有所不同?背后的數(shù)學(xué)原理是是什么?
62,請(qǐng)描述BERT的Tokenization機(jī)制的優(yōu)勢(shì)和不足,及針對(duì)不足的解決方案
63,Transformer的Input長(zhǎng)度為何受限?請(qǐng)闡明數(shù)學(xué)原因并提供至少一種可能的解決方案
64,如果使用Pytorch實(shí)現(xiàn)Transformer,如何巧妙的使用或者停用 optimizer.zero_grad()來(lái)訓(xùn)練大模型,例如內(nèi)存只允許一次只能訓(xùn)練一個(gè)Instance?
65,訓(xùn)練Transformer時(shí)候,如果因?yàn)閮?nèi)存大小限制導(dǎo)致連一個(gè)Instance的訓(xùn)練都無(wú)法容納,該如何完成所有Instance的訓(xùn)練,請(qǐng)描述詳細(xì)的工程過(guò)程
66,請(qǐng)從Data Science的角度分析為何Transformer是目前最generic的AI模型?
67,請(qǐng)分析一下是什么能夠從根本上限制Transformer的能力?
68,請(qǐng)描述Transformer訓(xùn)練時(shí)候的Label Smoothing核心功能、運(yùn)行機(jī)制和數(shù)學(xué)原理
69,請(qǐng)描述Beam Search算法在Transformer中的具體應(yīng)用并闡述其有效性的數(shù)學(xué)數(shù)學(xué)假設(shè)和數(shù)學(xué)公式
70,請(qǐng)分析如何使用Transformer來(lái)有效的對(duì)Knowledge Graph中的Edge進(jìn)行Encoding?
71,如何由你使用Transformer來(lái)實(shí)現(xiàn)一個(gè)對(duì)話系統(tǒng),如何判定用戶當(dāng)前的交流的內(nèi)容是否離題,例如在辦理一項(xiàng)業(yè)務(wù)過(guò)程中突然對(duì)話機(jī)器人今天天氣怎么?請(qǐng)闡述架構(gòu)思路及數(shù)學(xué)原理
72,請(qǐng)使用Einsum的方式編碼實(shí)現(xiàn)Transformer的Attention機(jī)制
73,請(qǐng)描述Transformer使用動(dòng)態(tài)Batch Size進(jìn)行訓(xùn)練的原理、流程和數(shù)學(xué)證明
74,如何使用Transformer實(shí)現(xiàn)一個(gè)能夠同時(shí)預(yù)測(cè)Intent和Entity的信息系統(tǒng)?
75,使用一個(gè)Transformer模型同時(shí)預(yù)測(cè)Intent和Entity有什么弊端?請(qǐng)分析該弊端的產(chǎn)生的原因并提出具體的解決方案
76,使用Transformer實(shí)現(xiàn)NLU的時(shí)候需要使用Masking機(jī)制嗎?請(qǐng)解釋工程原因及數(shù)學(xué)原理
77,如何使用Transformer來(lái)描述多輪對(duì)話?請(qǐng)描述工程架構(gòu)和數(shù)學(xué)原理
78,請(qǐng)問(wèn)使用Transformer和CRF做NER哪個(gè)更好?請(qǐng)?zhí)岢鲋辽?個(gè)工程落地的最佳實(shí)踐。
79,請(qǐng)問(wèn)使用手動(dòng)實(shí)現(xiàn)Transformer和使用BERT哪個(gè)做Intent識(shí)別效果更好?請(qǐng)闡述具體的原因和工程實(shí)踐過(guò)程
80,為何Transformer比RNN、LSTM等傳統(tǒng)神經(jīng)網(wǎng)絡(luò)具有更高性價(jià)比且能夠更有效的使用內(nèi)存和計(jì)算資源?
81,Transformer為何只使用Attention機(jī)制就解決了CNN、LSTM、RNN等能解決的一切問(wèn)題及這些傳統(tǒng)網(wǎng)絡(luò)解決不了的問(wèn)題?
82,當(dāng)有新的數(shù)據(jù)的來(lái)訓(xùn)練Transformer模型的時(shí)候,如何如何實(shí)現(xiàn)模型的增量訓(xùn)練?
83,請(qǐng)分析如何使用Transformer探測(cè)Toxic語(yǔ)言,Toxic語(yǔ)言能夠通過(guò)Tansformer移除嗎?請(qǐng)分析工程實(shí)踐和數(shù)學(xué)原理
84,Transformer在通用語(yǔ)言領(lǐng)域(例如,整個(gè)英語(yǔ)語(yǔ)言領(lǐng)域)能否實(shí)現(xiàn)Word Analogy功能,請(qǐng)分析具體的工程原因和數(shù)學(xué)原因
85,如何分類(lèi)語(yǔ)料庫(kù)中的有些Label標(biāo)注是錯(cuò)誤的,如何使用Transformer來(lái)發(fā)現(xiàn)分類(lèi)語(yǔ)料庫(kù)中的Bad Label?請(qǐng)描述具體的工程過(guò)程
86,為何說(shuō)Transformer是一種理想的Bayesian模型實(shí)現(xiàn)?請(qǐng)闡述數(shù)學(xué)原理及具體的場(chǎng)景案例
87,請(qǐng)描述Transformer至少三個(gè)使用Bayesian具體地方并闡述在這些具體地方使用Bayesian的數(shù)學(xué)原理
88,為什么說(shuō)Transformer基于對(duì)Bayesian的時(shí)候極大的降級(jí)了訓(xùn)練時(shí)候的overfitting?請(qǐng)闡述工程工程和數(shù)學(xué)原理
89, 請(qǐng)?jiān)斀饷枋鍪褂肨ransformer進(jìn)行Transfer Learning中具體Prior和Posterior Probability地方及其具體的功能和數(shù)學(xué)原理
90, 請(qǐng)描述Transformer在Training和Inference對(duì)MLE(maximum likelihood estimation)模型具體應(yīng)用
91, 請(qǐng)描述Transformer在Training的時(shí)候具體使用MAP(Maximum A Posteriori) estimation 模型的地方并描述其流程機(jī)制和數(shù)學(xué)原理
92, 請(qǐng)描述Transformer在訓(xùn)練的過(guò)程中什么情況下使用MLE和MAP是基本沒(méi)有區(qū)別的,其背后的數(shù)學(xué)原理是什么?
93, 為什么一般情況下Transformer的訓(xùn)練不會(huì)完全使用Bayesian模型而是更傾向于采用Naive Bayes?請(qǐng)具體闡述其架構(gòu)和背后的數(shù)學(xué)原理
94,請(qǐng)從Bayesian模型的角度分析Transformer中代表模型例如GPT3為何是模型越寬越深越好?
95,請(qǐng)描述Naive Bayes在Transformer的Auto-encoding模型訓(xùn)練時(shí)候的具體應(yīng)用及其有效性的數(shù)學(xué)證明
96,請(qǐng)描述Naive Bayes在Transformer的Auto-regressive模型訓(xùn)練時(shí)候的具體應(yīng)用,這樣能夠在小樣本數(shù)據(jù)的時(shí)候幫助取得優(yōu)質(zhì)德訓(xùn)練效果?其有效性的數(shù)學(xué)證明是什么?
97,請(qǐng)描述Naive Bayes在Transformer的Generative Process的具體流程和有效性的數(shù)學(xué)證明
98,使用Naive Bayes來(lái)完成Transformer的Generative Process會(huì)有什么問(wèn)題?問(wèn)題背后工程實(shí)現(xiàn)限制和數(shù)學(xué)原因是什么?
99,如何使用Transformer和LDA結(jié)合完成信息的多分類(lèi)模型?請(qǐng)實(shí)現(xiàn)示例代碼
100,為何說(shuō)Transformer是目前人工智能領(lǐng)域工程落地實(shí)踐Bayesian理論的典型?請(qǐng)從數(shù)學(xué)的的角度進(jìn)行完整的證明(至少包含Encoder-Decoder、Training、Inference等對(duì)Bayesian Theory的具體實(shí)現(xiàn))
101,在Gavin看來(lái),“Transformer賦予機(jī)器思想。Transformer是實(shí)現(xiàn)多模態(tài)目前最佳的底層引擎,是人工智能、貝葉斯理論、認(rèn)知模型演進(jìn)的統(tǒng)一架構(gòu),是學(xué)術(shù)界(無(wú)意間)基于Bayesian理論通過(guò)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)的(計(jì)算機(jī))認(rèn)知模型持續(xù)的Evolving的理想架構(gòu)體系”,你怎么看?
這些問(wèn)題源自 Gavin 老師, 關(guān)于 Transformer 和注意力機(jī)制提出的問(wèn)題可以查看 Gitee Transformer101Q
標(biāo)簽:Transformer,注意力機(jī)制,Attention機(jī)制,Transfomer課程,Transformer架構(gòu),Transformer模型,對(duì)話機(jī)器人,NLP課程,NLP,自然語(yǔ)言處理,知識(shí)圖譜,命名實(shí)體識(shí)別