進行nlp任務都需要進行Tokenize,Tokenize可以理解為是把長句子拆分成有”意義"的小部件,這里的有"意義"是指最終能夠使得計算機理解。
使用nltk進行tokenize
import nltksentence = = 'hello,world'tokens = nltk.word_tokenize(sentence)print(tokens)#['hello',',','world']
區別1:分詞方式不同,中文更難
英文有天然的空格作為分隔符,但是中文沒有。所以如何切分是一個難點,再加上中文里一詞多意的情況非常多,導致很容易出現歧義。下文中難點部分會詳細說明。
區別2:英文單詞有多種形態
英文單詞存在豐富的變形變換。為了應對這些復雜的變換,英文NLP相比中文存在一些獨特的處理步驟,我們稱為詞形還原(Lemmatization)和詞干提取(Stemming)。中文則不需要
詞性還原:does,done,doing,did 需要通過詞性還原恢復成 do。
詞干提取:cities,children,teeth 這些詞,需要轉換為 city,child,tooth”這些基本形態
區別3:中文分詞需要考慮粒度問題
例如「中國科學技術大學」就有很多種分法:
粒度越大,表達的意思就越準確,但是也會導致召回比較少。所以中文需要不同的場景和要求選擇不同的粒度。這個在英文中是沒有的。
有時候Tokenize沒那么簡單,在社交網絡上,亂七八糟的不合語法不合正常邏輯的語言很多:比如@某人,表情符號,URL,#話題符號
這種情況下應該使用正則表達式輔助進行文本的預處理
一文看懂NLP里的分詞(中英文區別+3 大難點+3 種典型方法)
本文由 貴州做網站公司 整理發布,部分圖文來源于互聯網,如有侵權,請聯系我們刪除,謝謝!
網絡推廣與網站優化公司(網絡優化與推廣專家)作為數字營銷領域的核心服務提供方,其價值在于通過技術手段與策略規劃幫助企業提升線上曝光度、用戶轉化率及品牌影響力。這...
在當今數字化時代,公司網站已成為企業展示形象、傳遞信息和開展業務的重要平臺。然而,對于許多公司來說,網站建設的價格是一個關鍵考量因素。本文將圍繞“公司網站建設價...
在當今的數字化時代,企業網站已成為企業展示形象、吸引客戶和開展業務的重要平臺。然而,對于許多中小企業來說,高昂的網站建設費用可能會成為其發展的瓶頸。幸運的是,隨...
域名為什么是www?3W是萬維網...
朋友圈封面灰色是屏蔽了還是刪除了?1. 打開微信主頁上的通訊錄。2. 打開另一方的配置文件界面。3. 選擇朋友圈以打開朋友圈。4. 朋友圈顯示一條橫線,這條橫線設置了權限,因此無法看到內容。但專輯封面依然清晰可見。5. 然后打開查看設置的權限,朋友圈封面是灰色的。6. 所以朋友圈是灰色的。如果可以看到對方朋友圈的內容,則表示沒有權限集或已被刪除??赡苁菍Ψ礁鼡Q了專輯封面,或者系統有問題。刷新并再次...
淘寶上的省錢小助手可靠嗎?你好,我想就這個問題發表我個人的看法]以上是我個人的看法。歡迎大家討論和發表意見無障礙智能助手,可手動開啟。有一個關閉助手要取消淘寶助手,可以在淘寶設置中將其關閉淘寶手機助手是淘寶商家不可或缺的工具之一,但也有很多人反映很難簡單的進入退出。關閉程序后,后臺仍在運行,提示欄中的花仍在。每次都必須關閉背景或強制任務在過程中結束嗎?這是不是太麻煩了?事實上,不是。出現類似情況的...