av资源新版天堂在线,1024精品久久久久久久久,日本高清视频一区

注：其他有很多公式是用markdown寫的，但頭條顯示不了，推薦大家在微信公眾號閱讀～

微信公眾號：浩波的筆記

文章鏈接：Word2Vec詳解：https://mp.weixin.qq.com/s?__biz=MzU1MjE1Nzk1OA==&mid=2247484504&idx=1&sn=920e796a3adda8b812ea74be87bd9e08&chk**=fb871231ccf09b27ab0bbaf25e5c565d3e388ec95584998cc58bebd09a8bef72be95b5a16051&token=279089019&lang=zh_CN#rd

word2vec可以在百萬數(shù)量級的詞典和上億的數(shù)據(jù)集上進行高效地訓(xùn)練；并且，該工具得到的訓(xùn)練結(jié)果——詞向量（word embedding），可以很好地度量詞與詞之間的相似性。隨著深度學(xué)習(xí)（Deep Learning）在自然語言處理中應(yīng)用的普及，很多人誤以為word2vec是一種深度學(xué)習(xí)算法。其實word2vec算法的背后是一個淺層神經(jīng)網(wǎng)絡(luò)。

另外需要強調(diào)的一點是，word2vec是一個計算word vector的開源工具。當(dāng)我們在說word2vec算法或模型的時候，其實指的是其背后用于計算word vector的CBoW模型和Skip-gram模型。很多人以為word2vec指的是一個算法或模型，這也是一種謬誤。接下來，本文將從統(tǒng)計語言模型出發(fā)，盡可能詳細地介紹word2vec工具背后的算法模型的來龍去脈。

Statistical Language Model

在深入word2vec算法的細節(jié)之前，我們首先回顧一下自然語言處理中的一個基本問題：如何計算一段文本序列在某種語言下出現(xiàn)的概率？之所為稱其為一個基本問題，是因為它在很多NLP任務(wù)中都扮演著重要的角色。例如，在機器翻譯的問題中，如果我們知道了目標語言中每句話的概率，就可以從候選**中挑選出最合理的句子做為翻譯結(jié)果返回。

統(tǒng)計語言模型給出了這一類問題的一個基本解決框架。對于一段文本序列

它的概率可以表示為：

即將序列的聯(lián)合概率轉(zhuǎn)化為一系列條件概率的乘積。問題變成了如何去預(yù)測這些給定previous words下的條件概率：

由于其巨大的參數(shù)空間，這樣一個原始的模型在實際中并沒有什么用。我們更多的是采用其簡化版本一一Ngram模型：

常見的如bigram模型 (N=2) 和trigram模型 (N=3) 。事實上，由于模型復(fù)雜度和預(yù)測精度的限制，我們很少會考慮N>3的模型。我們可以用最大似然法去求解Ngram模型的參數(shù)一一等價于去統(tǒng)計每個Ngram的條件詞頻。型進一步發(fā)展出了back-off trigram模型 (用低階的bigram和unigram代替零概率的trigram) 和interpolated trigram模型（將條件概率表示為unigram、bigram、trigram三者的線性函數(shù)）。

Distributed Representation

不過，Ngram模型仍有其局限性。首先，由于參數(shù)空間的爆炸式增長，它無法處理更長程的context（N>3）。其次，它沒有考慮詞與詞之間內(nèi)在的聯(lián)系性。例如，考慮"the cat is walking in the bedroom"這句話。如果我們在訓(xùn)練語料中看到了很多類似“the dog is walking in the bedroom”或是“the cat is running in the bedroom”這樣的句子，那么，即使我們沒有見過這句話，也可以從“cat”和“dog”（“walking”和“running”）之間的相似性，推測出這句話的概率。然而， Ngram模型做不到。

這是因為，Ngram本質(zhì)上是將詞當(dāng)做一個個孤立的原子單元（atomic unit）去處理的。這種處理方式對應(yīng)到數(shù)學(xué)上的形式是一個個離散的one-hot向量（除了一個詞典索引的下標對應(yīng)的方向上是1 ，其余方向上都是0）。例如，對于一個大小為5的詞典：{"I", "love", "nature", "luaguage", "processing"}，“nature”對應(yīng)的one-hot向量為：[0,0,1,0,0] 。顯然，one-hot向量的維度等于詞典的大小。這在動輒上萬甚至百萬詞典的實際應(yīng)用中，面臨著巨大的維度災(zāi)難問題（The Curse of Dimensionality）

于是，人們就自然而然地想到，能否用一個連續(xù)的稠密向量去刻畫一個word的特征呢？這樣，我們不僅可以直接刻畫詞與詞之間的相似度，還可以建立一個從向量到概率的平滑函數(shù)模型，使得相似的詞向量可以映射到相近的概率空間上。這個稠密連續(xù)向量也被稱為word的distributed representation。

事實上，這個概念在信息檢索（Information Retrieval）領(lǐng)域早就已經(jīng)被廣泛地使用了。只不過，在IR領(lǐng)域里，這個概念被稱為向量空間模型（Vector Space Model，以下簡稱V**）。

V**是基于一種Statistical Semantics Hypothesis[4]：語言的統(tǒng)計特征隱藏著語義的信息（Statistical pattern of human word usage can be used to figure out what people mean）。例如，兩篇具有相似詞分布的文檔可以被認為是有著相近的主題。這個Hypothesis有很多衍生版本。其中，比較廣為人知的兩個版本是Bag of Words Hypothesis和Distributional Hypothesis。前者是說，一篇文檔的詞頻（而不是詞序）代表了文檔的主題；后者是說，上下文環(huán)境相似的兩個詞有著相近的語義。后面我們會看到，word2vec算法也是基于Distributional的假設(shè)。

那么，V**是如何將稀疏離散的one-hot詞向量映射為稠密連續(xù)的Distributional Representation的呢？

簡單來說，基于Bag of Words Hypothesis，我們可以構(gòu)造一個term-document矩陣A：矩陣的行Ai,:: 對應(yīng)著詞典里的一個word；矩陣的列A:,j對應(yīng)著訓(xùn)練語料里的一篇文檔；矩陣里的元素Ai,j代表著wordwi在文檔Dj中出現(xiàn)的次數(shù)（或頻率）。那么，我們就可以提取行向量做為word的語義向量（不過，在實際應(yīng)用中，我們更多的是用列向量做為文檔的主題向量）。

類似地，我們可以基于Distributional Hypothesis構(gòu)造一個word-context的矩陣。此時，矩陣的列變成了context里的word，矩陣的元素也變成了一個context窗口里word的共現(xiàn)次數(shù)。

注意，這兩類矩陣的行向量所計算的相似度有著細微的差異：term-document矩陣會給經(jīng)常出現(xiàn)在同一篇document里的兩個word賦予更高的相似度；而word-context矩陣會給那些有著相同context的兩個word賦予更高的相似度。后者相對于前者是一種更高階的相似度，因此在傳統(tǒng)的信息檢索領(lǐng)域中得到了更加廣泛的應(yīng)用。

不過，這種co-occurrence矩陣仍然存在著數(shù)據(jù)稀疏性和維度災(zāi)難的問題。為此，人們提出了一系列對矩陣進行降維的方法（如LSI／LSA等）。這些方法大都是基于SVD的思想，將原始的稀疏矩陣分解為兩個低秩矩陣乘積的形式。

Neural Network Language Model

接下來，讓我們回到對統(tǒng)計語言模型的討論。鑒于Ngram等模型的不足，2003年，Bengio等人發(fā)表了一篇開創(chuàng)性的文章：A neural probabilistic language model。在這篇文章里，他們總結(jié)出了一套用神經(jīng)網(wǎng)絡(luò)建立統(tǒng)計語言模型的框架（Neural Network Language Model，以下簡稱NNLM），并首次提出了word embedding的概念（雖然沒有叫這個名字），從而奠定了包括word2vec在內(nèi)后續(xù)研究word representation learning的基礎(chǔ)。

NNLM模型的基本思想可以概括如下：

假定詞表中的每一個word都對應(yīng)著一個連續(xù)的特征向量；
假定一個連續(xù)平滑的概率模型，輸入一段詞向量的序列，可以輸出這段序列的聯(lián)合概率；
同時學(xué)習(xí)詞向量的權(quán)重和概率模型里的參數(shù)。

值得注意的一點是，這里的詞向量也是要學(xué)習(xí)的參數(shù)。

在03年的論文里，Bengio等人采用了一個簡單的前向反貴神經(jīng)網(wǎng)絡(luò) 來擬合一個詞序列的條件概率。整個模型的網(wǎng)絡(luò)結(jié)構(gòu)見下圖:

我們可以將整個模型拆分成兩部分加以理解：

首先是一個線性的Embedding層。它將輸入的N?1個one-hot詞向量，通過一個共享的D×V的矩陣C，映射為N?1個分布式的詞向量（distributed vector）。其中，V是詞典的大小，D是Embedding向量的維度（一個先驗參數(shù)）。C矩陣里存儲了要學(xué)習(xí)的word vector。
其次是一個簡單的前向反饋神經(jīng)網(wǎng)絡(luò)g。它由一個tanh隱層和一個softmax輸出層組成。通過將Embedding層輸出的N?1個詞向量映射為一個長度為V的概率分布向量，從而對詞典中的word在輸入context下的條件概率做出預(yù)估：

我們可以通過最小化一個cross-entropy的正則化損失函數(shù)來調(diào)整模型的參數(shù)theta：

其中，模型的參數(shù)θ包括了Embedding層矩陣C的元素，和前向反饋神經(jīng)網(wǎng)絡(luò)模型g里的權(quán)重。這是一個巨大的參數(shù)空間。不過，在用SGD學(xué)習(xí)更新模型的參數(shù)時，并不是所有的參數(shù)都需要調(diào)整（例如未在輸入的context中出現(xiàn)的詞對應(yīng)的詞向量）。計算的瓶頸主要是在softmax層的歸一化函數(shù)上（需要對詞典中所有的word計算一遍條件概率）。

然而，拋卻復(fù)雜的參數(shù)空間，我們不禁要問，為什么這樣一個簡單的模型會取得巨大的成功呢？

仔細觀察這個模型就會發(fā)現(xiàn)，它其實在同時解決兩個問題：一個是統(tǒng)計語言模型里關(guān)注的條件概率的計算; 一個是向量空間模型里關(guān)注的詞向量的表達。而這兩個問題本質(zhì)上并不**。通過引入連續(xù)的詞向量和平滑的概率模型，我們就可以在一個連續(xù)空間里對序列概率進行建模，從而從根本上緩解數(shù)據(jù)稀政性和維度災(zāi)難的問題。另一方面，以條件概率為學(xué)習(xí)目標去更新詞向量的權(quán)重, 具有更強的導(dǎo)向性, 同時也與V**里的Distributional Hypothesis不謀而合。

在主角正式登場前，我們先看一下NNLM存在的幾個問題。

一個問題是，同Ngram模型一樣，NNLM模型只能處理定長的序列。在03年的論文里，Bengio等人將模型能夠一次處理的序列長度N提高到了5，雖然相比bigram和trigram已經(jīng)是很大的提升，但依然缺少靈活性。

因此，Mikolov等人在2010年提出了一種RNNLM模型[7]，用遞歸神經(jīng)網(wǎng)絡(luò)代替原始模型里的前向反饋神經(jīng)網(wǎng)絡(luò)，并將Embedding層與RNN里的隱藏層合并，從而解決了變長序列的問題。

另一個問題就比較嚴重了。NNLM的訓(xùn)練太慢了。即便是在百萬量級的數(shù)據(jù)集上，即便是借助了40個CPU進行訓(xùn)練，NNLM也需要耗時數(shù)周才能給出一個稍微靠譜的解來。顯然，對于現(xiàn)在動輒上千萬甚至上億的真實語料庫，訓(xùn)練一個NNLM模型幾乎是一個impossible mission。

這時候，還是那個Mikolov站了出來。他注意到，原始的NNLM模型的訓(xùn)練其實可以拆分成兩個步驟：

用一個簡單模型訓(xùn)練出連續(xù)的詞向量
基于詞向量的表達，訓(xùn)練一個連續(xù)的Ngram神經(jīng)網(wǎng)絡(luò)模型。
而NNLM模型的計算瓶頸主要是在第二步。

如果我們只是想得到word的連續(xù)特征向量，是不是可以對第二步里的神經(jīng)網(wǎng)絡(luò)模型進行簡化呢？

Mikolov是這么想的，也是這么做的。他在2013年一口氣推出了兩篇paper，并開源了一款計算詞向量的工具——至此，word2vec橫空出世，主角閃亮登場。

1 Word2Vec模型總述

Word2Vec 簡單講其實就是通過學(xué)習(xí)文本然后用詞向量的方式表征詞的語義信息，即通過 Embedding 把原先詞所在空間映射到一個新的空間中去, 使得語義上相似的單詞在該空間內(nèi) 距離相近。以傳統(tǒng)神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)的神經(jīng)概率語言模型，缺點主要是計算量太大，集中體現(xiàn)在：隱層和輸出層之間的矩陣運算和輸出層上的 Softmax 歸一化運算上。因此 Word2Vec 就是針對這兩點來優(yōu)化神經(jīng)概率語言模型的。Word2Vec 中兩個重要的模型是： CBOW 模型和 Skip-gram 模型。對于這兩個模型, Word2Vec 給出了兩套框架，分別是基于 Hierarchical Softmax 和 Negative Sampling 來設(shè)計的，本文硫理的是第一種類型。

2 CBOW模型

2.1 基于模型的網(wǎng)絡(luò)結(jié)構(gòu) CBOW 模型的全稱是 Continous bag-of-words，它包括三層結(jié)構(gòu)分別是：輸入層。投影層和輸出層。

輸入層：包含 Context 中個詞的詞向量其中表示詞向量的長度。
投影層：將輸入層的個向量做求和累加處理，即

Sample:

輸出層：輸出層對應(yīng)一顆 Huffman 樹，它是以語料中出現(xiàn)過的詞當(dāng)葉子節(jié)點，以各詞在語料庫中出現(xiàn)的次數(shù)當(dāng)權(quán)值構(gòu)造而成。在這顆 Huffman 樹中，葉子結(jié)點共個分別對應(yīng)詞典 mathcal 中的詞，非葉結(jié)點個 (上圖中**的結(jié)點) 。

2.2 梯度的計算 為了后續(xù)方便描述問題，首先對模型中用到的符號做一個統(tǒng)一的說明：

從根節(jié)點到出發(fā)到達對應(yīng)葉子結(jié)點的路徑; 路徑中包含節(jié)點的個數(shù) 路徑中的個結(jié)點, 其中表示根結(jié)點, 表示詞對應(yīng)的結(jié)點; 其中詞對應(yīng)的 Huffman 編碼, 它由位編碼構(gòu)成表示路徑中第個結(jié)點對應(yīng)的編碼（根結(jié)點不對應(yīng)編碼其中路徑中非葉子結(jié)點對應(yīng)的向量, 表示路徑中第個非葉子結(jié)點對應(yīng)的向量。

所以 Hierarchical Softmax 的思想，即對于詞典 D 中的任意詞樹中必然存在唯一一條從根結(jié)點到詞對應(yīng)葉子結(jié)點的路徑。路徑上存在個分支, 將每個分支看作一次二分類，那么每一次分類就對應(yīng)一個概率，最后將這些概率連乘得到

其中。通過對數(shù)極大似然化處理可得模型的目標函數(shù)為:

Word 極大化化目標函數(shù)使用的算法是是隨機梯度上升法, 首先考慮關(guān) 于的梯度計算:

于是, 的更新公式為:

然后再考慮關(guān)于的梯度計算:

如果觀察到中和具有對稱性, 那么計算相應(yīng)梯度會更方便。由于表示的是 Context 中所有詞向量的蛋加, 那么如何根據(jù) 來更新每一個分量呢? 中的做法非常的樸素, 直接取

2.3 CBOW模型更新相關(guān)參數(shù)偽代碼

FOR
FOR Context DO

3 Skip-gram模型

同模型一樣, Skip-gram 模型的網(wǎng)絡(luò)結(jié)構(gòu)也包括三層結(jié)構(gòu)分別是輸入層、投影層和輸出層：

輸入層：只含有當(dāng)前樣本的中心詞的詞向量
投影層：該層為恒等投影，其實這層可有可無，在這里只是為了方便和 CBOW 模型的網(wǎng)絡(luò) 結(jié)構(gòu)做對比。

在這里插入圖片描述

Sample:

輸出層：和 CBOW 模型一樣，輸出層也是一顆 Huffman 樹。

3.2 梯度的計算

對于 Skip-gram 模型已知的是當(dāng)前詞需要對其上下文 Context 中的詞進行預(yù) 測，所以關(guān)鍵是條件概率函數(shù) 的構(gòu)造, Skip-gram 模型中將其定義為:

上式中的可以類比上節(jié)介紹的 Hierarchical Softmax 的思想, 因此可得:

通過對數(shù)極大似然化處理可得 Skip-gram 模型的目標函數(shù)為：

首先考慮關(guān)于的梯度計算:

于是, 的更新公式為:

然咸再考慮對關(guān)于的梯度計算亦可根據(jù)對稱性直接得出

于是, 的更新公式為:

3.3 Skip-gram 模型更新相關(guān)參數(shù)偽代碼 ?FOR Context DO

4 總結(jié) 的基本功能就是把自然語言中的每一個詞，表示成一個統(tǒng)一意義統(tǒng)一維度的詞向量，因為只有把自然語言轉(zhuǎn)化為向量的形式，才能在此之上構(gòu)建相關(guān)的算法，至于向量中的每個維度具體是什么含義，得自己探索了~

本文原作者為陳品正，轉(zhuǎn)載請注明：出處！如該文有不妥之處，請聯(lián)系站長刪除，謝謝合作~

原創(chuàng)文章，作者：陳品正，如若轉(zhuǎn)載，請注明出處：http://www.uuuxu.com/20220512316568.html

欧美精品123_精品露脸国产偷人在视频_日韩美女免费线视频_成人av三级

NLP–Word2Vec詳解

NLP–Word2Vec詳解

相關(guān)推薦