transformers(Transformers的基本概念)

來源：互聯網轉載時間：2024-05-11 03:45:01

什么是 Transformers?

這看起來很恐怖,不是嗎?如果我告訴您所有這些都可以歸結為一個公式,是不是就簡單一些了?

Attention(Q, K, V) = ∑? (Similarity (Q, K?) * V?)

是的, 上圖的復雜體系結構所做的一切,都是為了確保此公式正常運行。那么這些Q,K和V是什么?這些不同類型的注意力是什么?讓我們深入研究!我們將采用自下而上的方法。

輸入/輸出的嵌入

這些可以是Word2Vec,GloVe,Fastext或任何類型的詞嵌入,我們可以在其中將文本轉換為某種形式的有意義的向量。(PS-單詞嵌入沒有上下文。每個單詞只有一個固定的嵌入)

位置編碼(PE):

在RNN(LSTM,GRU)中,時間步長的概念按順序編碼,因為輸入/輸出流一次一個。對于Transformer,作者將時間編碼為正弦波,作為附加的額外輸入。這樣的信號被添加到輸入和輸出以表示時間的流逝。

pos是單詞的位置i是這個向量的維數。也就是說,PE的每一個維度對應一個正弦曲線。波長以幾何級數的形式從2倍級到1萬·2倍級。對于偶數(2i)我們使用正弦,對于奇數(2i + 1)我們使用余弦。通過這種方式,我們能夠為輸入序列的每個標記提供不同的編碼,因此現在可以并行地傳遞輸入。這個博客(https://kazemnejad.com/blog/transformer_architecture_positional_encoding/)很好地解釋了PE背后的數學原理。

但是,最近的體系結構使用的是“學習的” PE,而不是可以推廣到任意長度序列的PE。而且效果很好。也就是說,他們不需要將序列推廣到比訓練中看到的序列更長的序列。那是因為這些模型的輸入大小是固定的(例如BERT的512個令牌)。因此,在測試期間,他們不會看到更長的序列作為輸入。

注意力的類型

編碼器自注意力

這是一種雙向注意(也是唯一一種雙向注意力機制,這就是為什么它是BERT中使用的唯一注意力類型),其中每個單詞都彼此關聯。它確實捕獲了一個句子中的雙上下文信息,甚至bi-LSTM也無法捕獲(因為bi-LSTM將Forward AR和Backward AR的結果結合在一起,而不是在其核心生成雙上下文信息。這也是從本質上有些人認為ELMo嵌入不是真正的雙向的原因。

這種關注的主要目的是在輸入中所有其他單詞的基礎上,根據每個單詞在其上下文中的重要性加權,提供按比例表示。

解碼器自注意力

Transformer中的解碼器本質上是自回歸的,也就是說,輸出中的每個單詞都與其所有先前的單詞相關聯,但在進行預測時不與任何將來的單詞相關聯(AR也可以相反,也就是說,給定將來的單詞 ,預測前一個字)。如果將其與將來的單詞聯系起來,最終將導致數據泄漏,并且該模型將無法學到任何東西。

編碼器-解碼器注意:(交叉注意而不是自注意)

使用注意力的目的是找到輸入中所有單詞的當前輸出單詞的鏈接?；旧?我們試圖在這里找到的是每個輸入字對當前輸出字的影響。

通過僅使用最后一個解碼器層中的“查詢”部分以及使用編碼器中的“鍵和值”部分,可以做到這一點。(因為Query用作所考慮單詞的表示形式,Key是所有單詞的表示形式,并且用于查找所有單詞相對于所考慮單詞的權重,Value也是所有單詞的表示形式,但用于找到最終的加權和)

下面的GIF很好地總結了所有三種類型的注意力。

查詢(Q),鍵(K)和值(V)

查詢,鍵和值的概念來自檢索系統。例如,當您鍵入查詢以在YouTube上搜索某些視頻時,搜索引擎將針對數據庫中與候選視頻相關的一組鍵(視頻標題,說明等)映射您的查詢,然后向您顯示最匹配的視頻(值)。

Q,K和V基本上是原始單詞嵌入之上的線性層,可減小原始單詞嵌入的尺寸(為什么要縮減?我稍后會討論原因)。我們已經將原始單詞嵌入投影到了三個不同的(也許是相同的)低維空間中。

基本上,這樣想。每當您需要查找兩個向量之間的相似性時,我們只需獲取它們的點積即可。為了找到第一個單詞的輸出,我們只考慮第一個單詞的表示形式Q,并將其點積與輸入中每個單詞的表示形式K取乘積。這樣,我們就可以知道輸入中每個單詞相對于第一個單詞的關系。

取點積后,我們將結果除以sqrt(d?),其中d?是向量K的維數。這樣做是為了穩定梯度,因為點積可能非常大。

我們將上述值的softmax歸一化。這樣做是因為現在將這些術語視為每個單詞相對于第一個單詞的權重。

還記得我在帖子開頭所說的話嗎?那個Transformers就是關于∑?(相似度(Q,K?)*V?)的。好了,我們現在已經完成了方程的∑?相似度(Q,K?)部分?，F在,我們有了一個分布,該分布描述了輸入中每個單詞相對于第一個單詞的重要性。

為了使方程完整,我們將權重(softmax)與相應的表示V相乘,然后將它們加起來。因此,我們對第一個單詞的最終表示將是所有輸入的加權總和,每個輸入單詞均通過相對于第一個單詞的相似性(重要性)加權。

我們對所有單詞重復此過程。以矢量形式,我們可以用下面給出的方程式來表示它。

下圖很好地總結了整個過程。(稍后我會講到mask遮罩,它只出現在解碼器部分)

多頭注意力

直到現在,我們的談話都是關于單頭的注意力的。單頭注意力能夠將注意力集中在特定的一組單詞上。如果我們想擁有多個集合,每個集合對不同的單詞集合給予不同的關注呢?(有點類似于我們所做的集合體,有多個類似的模型,但他們每個人都學習不同的東西)一旦我們有多個擴展點積的注意,我們連接結果,多個權重矩陣(因此每個頭可以基于其重要性加權)來產生最終的輸出Self-Attention層。

有一個問題仍然沒有得到回答。為什么Q、V和K需要被降維向量,即使這樣可能會導致原始單詞的信息丟失?答案就是多頭的自我注意力。假設來自Word2Vec的嵌入輸入是(1 x 512),并且我們有8個頭注意力。然后我們保持Q K V的維數是1x(512/8)也就是1x64。這樣,我們就可以在不增加任何計算能力的情況下使用多頭注意力?，F在,它學習了24種不同的權重,而不是僅僅3種。

自我注意力的mask遮罩(僅適用于解碼器):

Transformers解碼器本質上是自回歸的,因為如果我們讓它在自我注意的過程中看所有的單詞,它就學不到任何東西。為了避免這種情況,我們在計算自我注意的同時,在序列中隱藏未來詞。

一旦我們計算出序列中所有單詞的縮放分數,我們就應用“向前看”遮罩來獲得遮罩分數。

現在當我們計算隱藏分數的softmax時,負無窮被歸零,留下零的注意力分數給序列中所有未來的記號。

總結一下(6個簡單要點):

通過剛才的介紹,我們對Transformer的所有構建塊都非常熟悉,那么現在該對它們進行總結了!到現在為止做得很好。:)

1、將輸入序列中所有單詞的單詞嵌入添加到它們各自的位置編碼中,以獲取我們的Transformer的最終輸入。

2、Transformer是一個Seq2Seq模型,因此它由編碼器和解碼器兩部分組成。編碼器由N個相同的層組成(原論文中N = 6)。每層包含以下組件:

多頭自我注意力層(編碼器):獲取每個單詞的輸入向量,并將其轉換為表示形式,其中包含有關每個單詞應如何與序列中所有其他單詞相伴的信息。
加法和歸一化:多頭自我關注層和位置前饋網絡的輸出均由該層處理。它包含一個殘差連接(以確保漸變不會被卡住并保持流動)和歸一化層(以防止值變化太大,從而可以更快地進行訓練并充當正則化功能)。
逐點完全連接層:此層分別且相同地應用于每個單詞向量。它由兩個線性變換組成,兩個線性變換之間使用ReLU激活。

3、計算完所有N層編碼器的輸出后,最終(鍵,值)對將傳遞到解碼器的每個“編碼器-解碼器注意”塊。這樣就完成了我們的Transformer的編碼器部分。

4、由于解碼器本質上是自回歸的,因此它將先前輸出的列表作為輸入。然后將令牌轉換為詞嵌入,然后將其添加到它們各自的位置編碼中,以獲取解碼器的最終輸入。

5.解碼器還包含N個相同的層(原始論文中N = 6)。每層包含以下組件:

多頭自我注意力層(解碼器):為解碼器中的每個位置生成表示形式,以對解碼器中的所有位置進行編碼,直到該位置為止。我們需要阻止解碼器中的向左信息流,以保留自回歸屬性。
多頭交叉注意力層(編碼器-解碼器):這是Transformer的一部分,其中輸入和輸出字之間發生映射。(K,V)對來自Encoder,Q值來自Decoder的上一層,然后計算交叉注意力。
加法和歸一化:類似于編碼器。
逐點完全連接層:類似于編碼器。

6.計算完解碼器所有N層的輸出后,該輸出將通過一個用作分類器的線性層。分類器的大小與vocab大小一樣大。然后將其饋入softmax層,以在解碼器的所有輸出上獲得概率分布。然后,我們采用概率最高的索引,該索引處的單詞就是我們的預測單詞。

Transformer的缺點

所有的好事都有不好的一面。Transformer也是如此。

不用說,Transformer是非常大的模型,因此它們需要大量的計算能力和大量的數據進行訓練。(與Transformers相比,reformer的存儲效率更高且速度更快。它們基本上已經用局部敏感哈希(LSH)代替了點積的關注。而且,他們使用了可逆殘差層而不是標準殘差。)

對于用于諸如解析之類的任務的分層數據,RNN似乎要優于Transformers。一些相關的工作可以在本文(https://www.aclweb.org/anthology/D18-1503/)中找到。

Transformer處理圖片

圖像不是序列。但是可以將圖像解釋為一系列區塊,然后通過Transformer編碼器對其進行處理。只需將圖像劃分為小塊,并提供這些小塊的線性嵌入序列即可作為Transformer Encoder的輸入。圖像區塊與NLP下游任務中的標記(單詞)的處理方式相同。此方法可以用來替代當前廣泛使用的基于CNN的圖像處理管道中的特征提取方法。視覺處理的Transformer基于此概念。

感謝各位的閱讀,以上就是“Transformers的基本概念”的內容了,經過本文的學習后,相信大家對Transformers的基本概念這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是本站,小編將為大家推送更多相關知識點的文章,歡迎關注!

本文由 貴州做網站公司 整理發布，部分圖文來源于互聯網，如有侵權，請聯系我們刪除，謝謝！

標簽：transformers-

上一篇：traceroute(TraceRoute的意思是什么)

下一篇：win7沒有本地連接(win7網絡沒有本地連接怎么解決)

網站建設網站推廣 SEO 網站運營網絡營銷

c語言中正確的字符常量是什么

2024-12-15

c語言中正確的字符常量是用一對單引號將一個字符括起表示合法的字符常量。例如‘a’。數值包括整型、浮點型。整型可用十進制，八進制，十六進制。八進制前面要加0，后面...

天津專升本最新信息2022年

2024-12-15

2022年天津專場考試原定于3月19日舉行，受疫情影響確定延期，但目前延期后的考試時間推遲。符合報名條件的考生，須在規定時間登錄招考資訊網(www.zha...

喜聞樂見的意思是

2024-12-15

：喜歡聽，樂意看。指很受歡迎?！巴卣官Y料”喜聞樂見：[ xǐ wén lè jiàn ]詳細解釋1. 【解釋】：喜歡聽，樂意看。指很受歡迎。2. 【示例】：這是...

肆無忌憚by姜之魚(你不乖by臣年免費閱讀)

2023-09-08

今天給大家推薦三本姜祉羽現在的詞《褻瀆》《小男人腰》《放肆》。作者筆下的女性不是柔弱的，也是甜美的！明目張膽男盧，華聲總裁，女林楚穎，娛樂公司老板。這個男人和這個女人是世交。女人在巴黎的時候，和男人有過一些交集?；貒?，他們的公司都處于上升期，勢均力敵，所以打算結婚，聯手互利共贏。這個女人的性格真的很吸引人。她有脾氣，偶爾工作，任性，一句毒舌就能把人氣貼在墻上，不會讓自己吃虧。她棱角分明，真實，呢...

熱錢是什么意思？貨幣升值為什么導致熱錢流入？

2023-09-05

熱錢又可以被稱之為游資或者是被稱之為投機型的短期資金。熱錢最主要的目的就是可以用盡量少的時間以錢來生錢，是一種只為追求高的回報而在股票市場當中迅速流動的短期投機性的資金。熱錢最主要的一個目的也就是純粹的投機盈利，而不是制造就業或者是商品以及服務。在2010年10月份以來，新增外匯占款近四年，第一次出現了負增長，海外熱錢撤離到了中國，對于中國的經濟造成了不同程度的影響。甄別熱錢以及確定熱錢金額的大小...

家族信托有什么潛在的風險？家族信托的優點和缺點概括

2023-08-23

家族信托有什么潛在的風險第一項風險在于設立端，缺乏專業的頂層規劃設計。很多人認為家族信托是一個產品，關心的其收益率問題。其實，家族信托與理財產品相去甚遠。家族信托主要是為了實現家族財富的風險隔離與跨代傳承，短期的收益不是也不應當成為其核心目標。要想讓家族信托跨越委托人的生命周期，長久地守護住財產，首先要確保這個家族信托的合法有效性，并能夠提前預見未來極端事件并做出安排。第二項風險在于運營端，受托...