word2vec本質上來說就是一個矩陣分解的模型,簡單地說,矩陣刻畫了每個詞和其上下文的詞的集合的相關情況。對這個矩陣進行分解,只取每個詞對應在隱含空間的向量。
所以word2vec適合的情況就是對于一個序列的數據,在序列局部數據間存在著很強的關聯。典型的就是文本的序列了,鄰近的詞之間關聯很強,甚至可以通過一個詞的上下文大概預測出中間那個詞是什么。學習到的詞向量代表了詞的語義,可以用來做分類、聚類、也可以做詞的相似度計算。此外,Word2vec本身的層次分類器或者采樣方式實際上對熱門item做了很大的懲罰,所以不會像一般的矩陣分解一樣,最后算出來語義接近的都是熱門詞,這也是word2vec很好的一個特性。
對于短文本分類,直接把文檔里面所有的word對應的向量線性相加,作為文本的特征訓練分類器,效果也很不錯。這種方式其實在word2vec的訓練過程中也有使用。另外如果換成非線性分類器,比如rbf kernel SVM,分類準確度還能再高,這個也是符合預期的。
其他序列的數據也是可以這樣做的,記得去年KDD上有一篇DeepWalk的文章,在社交網絡上進行隨機游走生成一組組節點的序列,然后通過word2vec訓練每個節點對應的向量。但是我用這個方法在qq的社交網絡上面做了一些實驗,發現效果非常不理想,可能和qq社交網絡的復雜性有關。
我非常滿意的一個應用是把word2vec應用在用戶app下載序列上,根據用戶下載app的順序,把app看做單詞,也是可以形成這樣的序列數據,進而訓練處每個app對應的向量。利用這個向量計算app之間的相似度,效果非常好,能夠把真正內容相關的app聚合在一起,同事規避熱門app的影響。類似的場景應該還有很多,而且應用也很廣泛,比如說推薦系統、廣告系統都可以用上。
本文由 貴州做網站公司 整理發布,部分圖文來源于互聯網,如有侵權,請聯系我們刪除,謝謝!
c語言中正確的字符常量是用一對單引號將一個字符括起表示合法的字符常量。例如‘a’。數值包括整型、浮點型。整型可用十進制,八進制,十六進制。八進制前面要加0,后面...
2022年天津專場考試原定于3月19日舉行,受疫情影響確定延期,但目前延期后的考試時間推遲。 符合報名條件的考生,須在規定時間登錄招考資訊網(www.zha...
:喜歡聽,樂意看。指很受歡迎?!巴卣官Y料”喜聞樂見:[ xǐ wén lè jiàn ]詳細解釋1. 【解釋】:喜歡聽,樂意看。指很受歡迎。2. 【示例】:這是...
(資料圖片)2022年10月10日24時國內汽柴油價格將迎來新一輪調整?,F在已經進入到2022年第19次油價調整的統計之中,新一輪油價統計數據以下跌開局,而且來到今天第二個工作日的統計,油價預期跌幅已經超過下跌標準紅線,預計下調油價60元/噸,折約升價下跌0.04元~0.05元的幅度。就目前統計數據來看,油價下跌對比上漲更容易一些。但目前距離下一次調整仍有半個多月時間,仍需關注后續國際油價走勢,最...
廣發行積分兌換方法有哪些?兌換積分可通過發現精彩APP、廣發官網、廣發手機銀行、線下積分購物、廣發電話客服五種渠道兌換禮品。具體操作方法可見視頻,最新的兌換業務變動請以廣發官網公布為準。廣發信用卡積分怎么免費兌換禮品?【1】首先需要用戶登錄廣發銀行信用卡積分商城,登錄個人賬戶之后輸入信用卡信息【2】然后找到頁面的“積分兌換”進入到兌換頁面【3】進入積分兌換頁面之后,點擊&l...
歐洲債券和外國債券的區別是什么?1、外國債券一般是通過 市場所在國家的金融機構為主要承銷商組成承銷辛迪加承銷,而歐洲債券由多個國家的金融機構組成國際性承銷辛迪加承銷;2、外國債券是由市場所在國家的證券主管機構進行監管,公募發行則管理較為嚴格,需要向證券主管機構注冊并進行登記,發行后可申請在證券交易所上市;私募發行不需要注冊登記,但不能上市掛牌交易。歐洲債券發行時不用在債券面值貨幣國或發行市場所在地...