NLP 學(xué)習(xí):Transformer 公開課課程大綱(21-30)

關(guān)于 Transformer 和注意力機(jī)制提出的問題可以查看 Gitee Transformer101Q

標(biāo)簽:Transformer,注意力機(jī)制,Attention機(jī)制,Transfomer課程,Transformer架構(gòu),Transformer模型,對話機(jī)器人,NLP課程,NLP,自然語言處理,知識圖譜,命名實體識別

第21章:基于Bayesian Theory的MRC文本理解基礎(chǔ)經(jīng)典模型算法詳解
1,Bayesian prior在模型訓(xùn)練時候?qū)eight控制、訓(xùn)練速度影響等功能詳解
2,Bayesian prior能夠提供模型訓(xùn)練速度和質(zhì)量的數(shù)學(xué)原理剖析
3,從Word2vec走向GloVe:從Local 信息走向Global+Local信息表示模式
4,GloVe 中的Vector相關(guān)性算法
5,GloVe的Co-occurrence matrix解析
6,GloVe的Loss計算
7,神經(jīng)網(wǎng)絡(luò)表達(dá)信息的三大局限剖析
7,使用Convolutions取代神經(jīng)網(wǎng)絡(luò)傳統(tǒng)的matrix multiplication操作
8,文本序列的Vector表示及Convolutions的天然契合點分析
9,Parameter sharing背后的數(shù)學(xué)原理和工程的廣泛應(yīng)用
10,Vector中的參數(shù)真的能夠很好的表達(dá)信息嗎?數(shù)學(xué)原理及工程實踐
11,TextCNN架構(gòu)設(shè)計解析
12,CNN-rand數(shù)學(xué)原理及工程實現(xiàn)
13,CNN-static數(shù)學(xué)原理及工程實現(xiàn)
14,CNN-non-static數(shù)學(xué)原理及工程實現(xiàn)
15,CNN-multiple channel數(shù)學(xué)原理及工程實現(xiàn)
16,處理長短不一的Sentence
17,Kernel設(shè)置的數(shù)學(xué)原理及最佳實踐
18,傳統(tǒng)模型Attention實現(xiàn)本質(zhì):權(quán)重分配
19,通過Soft-Search的方式來構(gòu)建Attention機(jī)制及數(shù)學(xué)原理剖析
20,KQV:Attention-based model based on weight allocation
21,Local-Attention、Global-Attention、Self-Attention對比及最佳實踐
22,基于一維匹配的Attentive Reader架構(gòu)及數(shù)學(xué)原理剖析
23,基于二維匹配的Impatient Reader架構(gòu)及數(shù)學(xué)原理剖析
24,Multi-Hop機(jī)制多次提取更充足信息的Attention實現(xiàn)剖析
25,Multi-Hop機(jī)制多次提取更充足信息的TimeStep狀態(tài)推進(jìn)剖析
26,Pointer network和Attention機(jī)制的對比
27,R-NET:借助pointer network和使用gateway機(jī)制的attention實現(xiàn)
28,R-NET的Encoding Layer解析
29,R-NET的Question-Passage Matching解析
30,R-NET的Passage Self-Matching解析
31,R-NET的Answer Prediction解析
32,F(xiàn)ully-Aware Fusion Network提出的MRC的Fusion層次劃分解析
33,F(xiàn)ully-Aware Fusion Network中的History-of-word機(jī)制來更好的理解語意
34,F(xiàn)ully-Aware Fusion Network的Attention機(jī)制解析
35,F(xiàn)ully-Aware Fusion Network的Encoding Layer:GloVe、CoVe、POS、NER等
36,F(xiàn)ully-Aware Fusion Network的Multi-level Fusion解析
37,F(xiàn)ully-Aware Fusion Network的Fully-Aware Self-Boosted Fusion解析
38,F(xiàn)ully-Aware Fusion Network的Output layer解析
39,QA-Net的架構(gòu)之Embedding Encoder Layer解析
40,QA-Net的架構(gòu)之Context-Query Attention Layer解析
41,QA-Net的架構(gòu)之Model Encoder Layer解析
42,QA-Net的架構(gòu)之Output Layer解析

第22章:揭秘針對Cloze Tests基于Attention機(jī)制的的MRC領(lǐng)域開山之作:Teaching Machines to Read and Comprehend架構(gòu)設(shè)計及完整源碼實現(xiàn)
1,對Text提供精細(xì)化的語言理解能力和推理能力的MRC為何需要Neural Networks和Attention機(jī)制的支持?
2,基于大規(guī)模訓(xùn)練數(shù)據(jù)集的集特征工程和分類于一體的深度學(xué)習(xí)MRC
3,數(shù)據(jù)集結(jié)構(gòu)分析
4,Two-layer Deep LSTM Reader的Input和Output分析
5,Two-layer Deep LSTM Reader中article和question的Concatenation操作
6,Two-layer Deep LSTM Reader中的Embedding Layer解析
7,具有Attention功能的Two-layer Deep LSTM Reader架構(gòu)解析
8,Two-layer Deep LSTM Reader的classification解析
9,Attentive Reader的Input時候?qū)ocument和Question分別作LSTM建模
10,Attentive Reader使用加法操作實現(xiàn)Attention機(jī)制進(jìn)行Classification操作
11,Impatient Reader的Output中的Attention數(shù)學(xué)原理和操作解析
12,對模型復(fù)雜度及數(shù)據(jù)量的最佳實踐思考
13,為何Attention機(jī)制在閱讀理解中是有效的?數(shù)學(xué)原理和工程實踐
14,CNN Daily Mail數(shù)據(jù)Padding、Batch等預(yù)處理操作
15,QADataset完整源碼解析
16,QAIterator完整源碼解析
17,Context和Question進(jìn)行Concatenation操作完整源碼解析
18,Deep LSTM中的Word Embedding Layer實現(xiàn)
19,Deep LSTM中的Contextual Embedding Layer實現(xiàn)
20,Deep LSTM中的Output Layer實現(xiàn)
21,Deep LSTM中的Dropout
22,Deep LSTM中的Modeling Layer源碼實現(xiàn)
23,AttentiveReader中的Word Embedding Layer實現(xiàn)
24,AttentiveReader中的Contextual Embedding Layer實現(xiàn)
25,AttentiveReader中的Modeling Layer實現(xiàn)
26,AttentiveReader中的Attention機(jī)制實現(xiàn)
27,ImpatientReader中的Embedding Layers實現(xiàn)
28,ImpatientReader中的Mdoeling Layer實現(xiàn)
29,ImpatientReader中的Attention源碼完整實現(xiàn)
30,training方法的源碼完整實現(xiàn)
31,對整個整個算法完整源碼實現(xiàn)的調(diào)試及分析

第23章:MRC經(jīng)典的Span Extraction模型Bi-DAF 算法架構(gòu)、運(yùn)行機(jī)制及數(shù)學(xué)原理
1,雙向Attention Flow:Query2Context、Context2Query數(shù)學(xué)原理及工程實現(xiàn)
2,Bi-DAF能夠正式確立編碼-交互-輸出三層架構(gòu)閱讀理解模型背后的原因分析
3,Bi-DAF模型本身的五層架構(gòu)及其背后數(shù)學(xué)原理解析
4,不同粒度的多階段Embeddings層的架構(gòu)設(shè)計和數(shù)學(xué)原理
5,Bonus:多階段Embeddings在智能對話信息表示中的應(yīng)用剖析
6,Character Embedding數(shù)學(xué)原理及Char-CNN實現(xiàn)解析
7,Word Embedding數(shù)學(xué)原理及GloVe實現(xiàn)解析
8,雙向LSTM架構(gòu)機(jī)制及數(shù)學(xué)原理剖析
9,使用Highway Network解決梯度問題的數(shù)學(xué)原理及實現(xiàn)解析
10,組合Char embedding和word embedding
11,Contextual Embedding數(shù)學(xué)原理及實現(xiàn)解析
12,Bi-DAF中的Context2Query實現(xiàn)解析
13,Bi-DAF中的Query2Context實現(xiàn)解析
14,Trainable Matrix for attention mechanism
15,Modeling層架構(gòu)和數(shù)學(xué)原理剖析
16,輸出層的Start index計算數(shù)學(xué)原理解析
17,輸出層的End index計算數(shù)學(xué)原理解析
18,Training Loss計算解析
19,參數(shù)設(shè)置
20,Bi-DAF在信息抽取時候的Assumption存在的問題分析
21,為何Bi-DAF不擅長回答Why類型的問題?如何改進(jìn)?

第24章:基于SQuAD對Bi-DAF進(jìn)行MRC源碼完整實現(xiàn)、測試和調(diào)試
1,SQuAD訓(xùn)練集和驗證集數(shù)據(jù)分析及answer的Index機(jī)制分析
2,從JSON文件中獲取樣本信息
3,Tokenization代碼實現(xiàn)
4,遍歷處理data中的paragraphs下context及qas
5,對data中answer的start index、text、end index的處理及word的處理
6,構(gòu)建基于Batch的Iterator
7,Padding源碼實現(xiàn)及測試
8,Character Embedding Layer對Char進(jìn)行Vector編碼實現(xiàn)和測試
9,Word Embedding Layer對word進(jìn)行Vector編碼實現(xiàn)及測試
10,dropout操作
11,Convolutions操作實現(xiàn)
12,Transformer數(shù)據(jù)流源代碼剖析
13,Concatenate Context和Question完整源碼實現(xiàn)
14,通過基于ReLU的highway network來整合信息完整源碼實現(xiàn)及測試
15,highway network中的門控機(jī)制數(shù)學(xué)原理及其在AI中的廣泛應(yīng)用
16,通過LSTM對Contextual Embedding Layer進(jìn)行編碼完整實現(xiàn)及測試
17,Context Matrix和Question Matrix可視化分析
18,attention flow layer中相似矩陣S的源碼實現(xiàn)
19,Context2Query完整源碼實現(xiàn)及測試
20,Query2Context完整源碼實現(xiàn)及測試
21,attention flow layer中信息前向和增強(qiáng)信息表示的G的融合源碼實現(xiàn)
22,Modeling Layer完整源碼實現(xiàn)調(diào)試分析
23,output layer中p1的計算實現(xiàn)
24,output layer中p2的計算實現(xiàn)
25,Cross Entropy Loss p1的細(xì)節(jié)說明
26,在驗證集上進(jìn)行Test源碼完整實現(xiàn)
27,Mask機(jī)制的具體作用剖析及調(diào)試分析
28,對Answer進(jìn)行Normalization操作
29,EM (Exact Match) 數(shù)學(xué)公式解析及源碼實現(xiàn)
30,F(xiàn)1對MRC的應(yīng)用數(shù)學(xué)公式解析及源碼實現(xiàn)
31,Evaluation完整源碼實現(xiàn)及調(diào)試
32,Soft Evaluation的重大意義思考
33,Bi-DAF全流程調(diào)試及深度分析

第25章:閱讀理解MRC模型集成、蒸餾、部署及源碼實現(xiàn)
1,模型集成ensemble有效性背后的Bayesian數(shù)學(xué)原理深度剖析
2,模型擾動造成的方差數(shù)學(xué)原理剖析
3,方差與normalization
4,基于投票思想的模型集成方法及其在多選題和完形填空中的應(yīng)用
5,基于bagging思想的模型集成方法
6,基于boosting思想的集成方法
7,基于stacking思想的模型集成方法
8,Blending機(jī)制
9,閱讀理解中的模型ensemble:BERT + Linguistic Knowledge + Ensemble Algorithm
10,用小模型去學(xué)習(xí)大模型的預(yù)測結(jié)果及泛化能力
11,Teacher model - distilled model架構(gòu)解析
12,soft labels、hard label
13,soft predictions、hard prediction
14,信息對齊:樣本、中間結(jié)果、網(wǎng)絡(luò)結(jié)構(gòu)
15,DistillBERT用于Knowledge Distillation
16,server framework + deep learning framework API
17,server framework + deep learning serving
18,modeling完整代碼解析
19,data utils源碼解析
20,model utils源碼解析
21,classifier utils源碼解析
22,classifier源碼解析
23,squad_utils源碼解析
24,run_squad源碼解析
25,estimator源碼解析
26,train方法源碼解析
27,modeling_bert
28,modeling_roberta
29,ensemble源碼解析
30,evaluate源碼解析

第26章:跨語言Cross-linagual預(yù)訓(xùn)練模型XLM架構(gòu)內(nèi)幕及完整源碼實現(xiàn)
1,cross-lingual pretraining背后的數(shù)學(xué)原理剖析
2,XLM中CLM設(shè)計內(nèi)幕和數(shù)學(xué)原理解析
3,XLM中MLM設(shè)計內(nèi)幕和數(shù)學(xué)原理解析
4,XLM 中TLM設(shè)計內(nèi)幕和數(shù)學(xué)原理解析
5,XLMTokenizer源碼實現(xiàn)解析
6,XLMWithLMHeadModel源碼實現(xiàn)解析
7,XLMPredLayer源碼實現(xiàn)解析
8,XLMModel源碼實現(xiàn)解析
9,XLMPreTrainedModel源碼實現(xiàn)解析
10,TransformerFFN源碼實現(xiàn)解析
11,MultiHeadAttention源碼實現(xiàn)解析
12,XLMForSequenceClassification源碼實現(xiàn)解析
13,XLMForTokenClassification源碼實現(xiàn)解析
14,XLMForMultipleChoice源碼實現(xiàn)解析
15,XLMForQuestionAnsweringSimple源碼實現(xiàn)解析
16,XLMForQuestionAnswering源碼實現(xiàn)解析

第27章:處理長文本的模型BigBird架構(gòu)內(nèi)幕及完整源碼實現(xiàn)
1,Sparse attention機(jī)制內(nèi)幕及數(shù)學(xué)原理剖析
2,全局global attention的數(shù)據(jù)原理及實現(xiàn)機(jī)制
3,Block sparse attention數(shù)學(xué)原理及實現(xiàn)機(jī)制
4,Sliding attention數(shù)學(xué)原理及實現(xiàn)機(jī)制
5,Random attention數(shù)學(xué)原理及實現(xiàn)機(jī)制
6,Time & Memory Complexity分析
7,BigBirdTokenizer源碼完整實現(xiàn)剖析
8,BigBirdEmbeddings源碼完整實現(xiàn)剖析
9,BigBirdAttention源碼完整實現(xiàn)剖析
10,BigBirdSelfAttention源碼完整實現(xiàn)剖析
11,BigBirdBlockSparseAttention源碼完整實現(xiàn)剖析
12,BigBirdIntermediate源碼完整實現(xiàn)剖析
13,BigBirdOutput源碼完整實現(xiàn)剖析
14,BigBirdLayer源碼完整實現(xiàn)剖析
15,BigBirdEncoder源碼完整實現(xiàn)剖析
16,BigBirdPredictionHeadTransform源碼完整實現(xiàn)剖析
17,BigBirdLMPredictionHead源碼完整實現(xiàn)剖析
18,BigBirdOnlyMLMHead源碼完整實現(xiàn)剖析
19,BigBirdOnlyNSPHead源碼完整實現(xiàn)剖析
20,BigBirdPreTrainingHeads源碼完整實現(xiàn)剖析
21,BigBirdPreTrainedModel源碼完整實現(xiàn)剖析
22,BigBirdForPreTrainingOutput源碼完整實現(xiàn)剖析
23,BigBirdModel源碼完整實現(xiàn)剖析
24,BigBirdForPreTraining源碼完整實現(xiàn)剖析
25,BigBirdForMaskedLM源碼完整實現(xiàn)剖析
26,BigBirdForCausalLM源碼完整實現(xiàn)剖析
27,BigBirdClassificationHead源碼完整實現(xiàn)剖析
25,BigBirdForQuestionAnsweringModelOutput源碼完整實現(xiàn)剖析
26,BigBirdForSequenceClassification源碼完整實現(xiàn)剖析
27,BigBirdForMultipleChoice源碼完整實現(xiàn)剖析
28,BigBirdForTokenClassification源碼完整實現(xiàn)剖析
29,BigBirdForQuestionAnsweringHead源碼完整實現(xiàn)剖析
30,BigBirdForQuestionAnswering源碼完整實現(xiàn)剖析

第28章:使用Local dependency輕量級Transformer模型ConvBERT架構(gòu)內(nèi)幕及完整源碼實現(xiàn)
1,BERT依賴global self-attention而帶來的問題分析
2,BERT不同Layer的computation redundancy分析
3,使用local dependency的數(shù)學(xué)原理分析
4,local dependency的工程實踐
5,convolution head數(shù)學(xué)原理剖析
6,構(gòu)建mixed attention block分析
7,ConvBertTokenizer源碼解析
8,把TF模型的checkpoints加載入pytorch模型中
9,ConvBertEmbeddings完整源碼分析
10,ConvBertPreTrainedModel完整源碼分析
11,SeparableConv1D完整源碼分析
12,ConvBertAttention完整源碼分析
13,ConvBertSelfAttention完整源碼分析
14,ConvBertSelfOutput完整源碼分析
15,GroupedLinearLayer完整源碼分析
16,ConvBertIntermediate完整源碼實現(xiàn)分析
17,ConvBertLayer完整源碼實現(xiàn)分析
18,ConvBertOutput完整源碼實現(xiàn)分析
19,ConvBertEncoder完整源碼實現(xiàn)分析
20,ConvBertPredictionHeadTransform完整源碼實現(xiàn)分析
21,ConvBertModel完整源碼實現(xiàn)分析
22,ConvBertGeneratorPredictions完整源碼實現(xiàn)分析
23,ConvBertForMaskedLM完整源碼實現(xiàn)分析
24,ConvBertClassificationHead完整源碼實現(xiàn)分析
25,ConvBertForSequenceClassification完整源碼實現(xiàn)分析
26,ConvBertForMultipleChoice完整源碼實現(xiàn)分析
27,ConvBertForTokenClassification完整源碼實現(xiàn)分析
28,ConvBertForQuestionAnswering完整源碼實現(xiàn)分析
29,ConvBertConfig代碼分析

第29章:使用Control code的文本生成Transformer模型CTRL架構(gòu)內(nèi)幕及完整源碼實現(xiàn)
1,能夠使用第一個Token作為control code的數(shù)學(xué)原理分析
2,控制生成內(nèi)容的style、content及task-specific行為的架構(gòu)設(shè)計
3,control code的來源:co-occure
4,生產(chǎn)coherent內(nèi)容的關(guān)鍵是什么?
5,基于CLM的CTRL 設(shè)計實現(xiàn)
6,syntactically coherent text與semantically coherent text
7,CTRLTokenizer源碼完整實現(xiàn)解析
8,CTRLTokenizer源碼完整實現(xiàn)解析
9,positional_encoding源碼完整實現(xiàn)解析
10,scaled_dot_product_attention源碼完整實現(xiàn)解析
11,MultiHeadAttention源碼完整實現(xiàn)解析
12,EncoderLayer源碼完整實現(xiàn)解析
13,CTRLPreTrainedModel源碼完整實現(xiàn)解析
14,CTRLLMHeadModel源碼完整實現(xiàn)解析
15,CTRLModel源碼完整實現(xiàn)解析
16,CTRLForSequenceClassification源碼完整實現(xiàn)解析

第30章:使用disentangled attention機(jī)制Transformer模型DeBERTa架構(gòu)內(nèi)幕及完整源碼實現(xiàn)
1,使用兩個vector來編碼每個word的content和position
2,在pretraining階段使用output enhanced mask decoder取代softmax layer對masked words預(yù)測的數(shù)學(xué)原理剖析
3,DebertaEmbeddings完整源碼實現(xiàn)解析
4,DebertaPreTrainedModel完整源碼實現(xiàn)解析
5,Disentangled Attention算法剖析
6,DebertaTokenizer完整源碼實現(xiàn)解析
7,XDropout完整源碼實現(xiàn)解析
8,StableDropout完整源碼實現(xiàn)解析
9,XSoftmax完整源碼實現(xiàn)解析
10,ContextPooler完整源碼實現(xiàn)解析
11,DebertaLayerNorm完整源碼實現(xiàn)解析
12,DebertaSelfOutput完整源碼實現(xiàn)解析
13,build_relative_position完整源碼實現(xiàn)解析
14,DebertaAttention完整源碼實現(xiàn)解析
15,DebertaIntermediate完整源碼實現(xiàn)解析
16,DebertaOutput完整源碼實現(xiàn)解析
17,DebertaLayer完整源碼實現(xiàn)解析
18,DebertaEncoder完整源碼實現(xiàn)解析
19,DisentangledSelfAttention完整源碼實現(xiàn)解析
20,DebertaModel完整源碼實現(xiàn)解析
21,DebertaForMaskedLM完整源碼實現(xiàn)解析
22,DebertaPredictionHeadTransform完整源碼實現(xiàn)解析
23,DebertaLMPredictionHead完整源碼實現(xiàn)解析
24,DebertaOnlyMLMHead完整源碼實現(xiàn)解析
25,DebertaForSequenceClassification完整源碼實現(xiàn)解析
26,DebertaForTokenClassification完整源碼實現(xiàn)解析
27,DebertaForQuestionAnswering完整源碼實現(xiàn)解析

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容