1. <nobr id="easjo"><address id="easjo"></address></nobr>

      <track id="easjo"><source id="easjo"></source></track>
      1. 
        

      2. <bdo id="easjo"><optgroup id="easjo"></optgroup></bdo>
      3. <track id="easjo"><source id="easjo"><em id="easjo"></em></source></track><option id="easjo"><span id="easjo"><em id="easjo"></em></span></option>
          貴州做網站公司
          貴州做網站公司~專業!靠譜!
          10年網站模板開發經驗,熟悉國內外開源網站程序,包括DEDECMS,WordPress,ZBlog,Discuz! 等網站程序,可為您提供網站建設,網站克隆,仿站,網頁設計,網站制作,網站推廣優化等服務。我們專注高端營銷型網站,企業官網,集團官網,自適應網站,手機網站,網絡營銷,網站優化,網站服務器環境搭建以及托管運維等。為客戶提供一站式網站解決方案?。?!

          NLP-中文分詞技術及應用

          來源:互聯網轉載 時間:2023-09-07 21:02:38

          摘要:中文分詞是中文信息處理的重要基礎,本文詳細闡述了目前主要的幾種中文分詞算法的技術原理 、中文分詞目前的瓶頸和評價準則,以及中文分詞的具體應用。

          中文分詞指將一個漢字序列切分成一個個單獨的詞?,F有的中文分詞算法有五大類:基于詞典的方法,基于統計的方法,基于規則的方法,基于字標注的方法,基于人工智能技術(基于理解)的方法。中文分詞目前主要有四個瓶頸,分別是分詞歧義、未登錄詞識別、分詞粒度問題、錯別字和諧音字規范化。中文分詞有五大評價準則:分詞正確率,切分速度,功能完備性,易擴充性和可維護性,可移植性。中文信息處理包括三個層次:詞法分析,句法分析,語義分析,其中中文分詞是詞法分析的第一步,非常重要。中文分詞是大部分下游應用的基礎,這些下游應用小到POS詞性標注、NER命名實體識別,大到自動分類、自動摘要、自動校對、語言模型、機器翻譯、搜索引擎、語音合成等等。

          一、 中文分詞是什么

          中文分詞是中文信息處理的基本技術,指將一個漢字序列切分成一個個單獨的詞。分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程。

          詞是最小的能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區分標記。

          二、中文分詞的技術原理

          2.1 中文分詞算法

          現有的中文分詞算法有五大類:基于詞典的分詞方法,基于統計的分詞方法,基于規則的分詞方法,基于字標注的分詞方法,基于人工智能技術(基于理解)的分詞方法。

          圖1:中文分詞算法總結

          2.1.1 基于詞典的方法

          基于詞典的方法:字符串匹配,機械分詞方法

          原理:按照一定策略將待分析的漢字串與一個“大機器詞典”中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功。

          • 按照掃描方向的不同:正向匹配 & 逆向匹配

          • 按照長度的不同:最大匹配 & 最小匹配

          • 按照是否與詞性標注過程相結合:單純分詞方法 & 分詞與標注相結合

          1.正向最大匹配算法(MM)

          步驟

          • 從左向右取待切分漢語句的m個字符作為匹配字段,m為大機器詞典中最長詞條個數

          • 查找大機器詞典并進行匹配,若匹配成功,則將這個匹配字段作為一個詞切分出來;若匹配不成功,則將這個匹配字段的最后一個字去掉,剩下的字符串作為信我的匹配字段,進行再次匹配,重復以上過程直到切分出所有詞為止

          2.鄰近匹配算法

          鄰近匹配算法

          • 對正向最大匹配算法的改進,因為正向正向最大匹配算法對每個不存在的長字符串都要進行一次二分搜索,算法復雜度太高,可以利用同一個首字符下的詞條按升序排列這一條件,在找到某個字符串后,在其后增加一個字得到一個新字串,如果新字串在詞典中出現,那么新詞一定在原字串的后面,且相隔位置不會太遠

          • 優點:可以加快匹配進程

          3.逆向最大匹配算法(RMM)

          逆向最大匹配算法

          • 是正向最大匹配的逆向思維(最大匹配的順序不是從首字母開始,而是從末尾開始,由右向左),匹配不成功,將匹配字段的最前一個字去掉

          • 優點:逆向最大匹配算法要優于正向最大匹配算法(實踐證明)

          4.雙向最大匹配法(Bi-directction Matching method,BM)

          雙向最大匹配法:將正向最大匹配法得到的分詞結果和逆向最大匹配法的到的結果進行比較,從而決定正確的分詞方法。

          中文中90.0%左右的句子,正向最大匹配法和逆向最大匹配法完全重合且正確,只有大概9.0%的句子兩種切分方法得到的結果不一樣,但其中必有一個是正確的(歧義檢測成功),只有不到1.0%的句子,或者正向最大匹配法和逆向最大匹配法的切分雖重合卻是錯的,或者正向最大匹配法和逆向最大匹配法切分不同但兩個都不對(歧義檢測失敗)。這正是雙向最大匹配法在實用中文信息處理系統中得以廣泛使用的原因所在。

          5.最短路徑匹配算法(Shortest path match)

          最短路徑匹配算法

          • 根據詞典,找出字串中所有可能的詞(也稱全分詞),然后構造詞語切分有向無環圖

          • 每一個詞對應圖中的一條有向邊。若賦給相應的邊長一個權值(該權值可以是常數,也可以是構成的詞的屬性值),然后針對該切分圖,在起點到終點的所有路徑中,求出最短路徑,該最短路徑上包含的詞就是該句子的切分結果

          • 最短路徑匹配算法的規則是使切分處理的詞數最少,符合漢語自身的語言規律

          • 缺點:在實際應用中,同樣不能正確切分出許多不完全符合規則的句子。如果有多條最短路徑,往往只能保留其中一個結果,這樣對其他同樣符合要求的結果不公平,也缺乏理論依據。

          6.基于字符串匹配的分詞方法的優缺點

          優點:簡單,易于實現

          缺點

          • 匹配速度慢

          • 存在交集型和組合型歧義切分問題

          • 詞本身沒有一個標準的定義,沒有統一標準的詞集

          • 不同詞典產生的歧義也不同

          • 缺乏自學習的智能性

          2.1.2 基于統計的分詞(無字典分詞)

          主要思想

          • 上下文中,相鄰的字同時出現的次數越多,就越可能構成一個詞。因此字與字相鄰出現的概率或頻率能較好的反映詞的可信度。

          • 可以對訓練文本中相鄰出現的各個字的組合的頻度進行統計,計算它們之間的互現信息?;ガF信息體現了漢字之間結合關系的緊密程度。當緊密程度高于某一個閾值時,便可以認為此字組可能構成了一個詞。該方法又稱為無字典分詞。

          主要統計模型有:N 元文法模型、隱Markov 模型和最大熵模型等。

          在實際應用中一般是將其與基于詞典的分詞方法結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。

          1.N-gram模型思想

          N-gram模型思想:第n個詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積 。

          2.隱馬爾科夫模型(HMM,HiddenMarkov Model)

          原理:根據觀測值序列找到真正的隱藏狀態值序列。

          2.1.3 基于規則的分詞(基于語義)

          原理:通過模擬人對句子的理解,達到識別詞的效果,基本思想是語義分析,句法分析,利用句法信息和語義信息對文本進行分詞。

          優點:自動推理,并完成對未登錄詞的補充。

          語義分詞法引入了語義分析,對自然語言自身的語言信息進行更多的處理,如擴充轉移網絡法、知識分詞語義分析法、鄰接約束法、綜合匹配法、后綴分詞法、特征詞庫法、矩陣約束法、語法分析法等。

          • 擴充轉移網絡法:以有限狀態機概念為基礎。有限狀態機只能識別正則語言,對有限狀態機作的第一次擴充使其具有遞歸能力,形成遞歸轉移網絡 (RTN)。在RTN 中,弧線上的標志不僅可以是終極符(語言中的單詞)或非終極符(詞類),還可以調用另外的子網絡名字分非終極符(如字或字串的成詞條件)。這樣,計算機在運行某個子網絡時,就可以調用另外的子網絡,還可以遞歸調用。詞法擴充轉移網絡的使用, 使分詞處理和語言理解的句法處理階段交互成為可能,并且有效地解決了漢語分詞的歧義。

          • 矩陣約束法:其基本思想是先建立一個語法約束矩陣和一個語義約束矩陣, 其中元素分別表明具有某詞性的詞和具有另一詞性的詞相鄰是否符合語法規則, 屬于某語義類的詞和屬于另一詞義類的詞相鄰是否符合邏輯,機器在切分時以之約束分詞結果。

          2.1.4 基于字標注的中文分詞方法

          基于字標注的中文分詞方法

          • 實質上是構詞方法,即把分詞過程視作字在字符串中的標注問題;分詞的過程就成為字重組的簡單過程

          • 基于規則/統計的分詞方法的弊端:一般都依賴于一個事先編制好的詞典,而自動分詞的過程就是通過詞表和相關信息來做出詞語切分的決策

          • 本分詞法的優點:能夠平衡地看待詞表詞和未登錄詞的識別問題。因為文本中的詞表詞和未登錄詞都是用統一的字標注過程來實現,在學習架構上,既可以不必專門強調詞表詞信息,也不用專門設計特定的未登錄詞(如人名、地名、機構名)識別模塊。這使得分詞系統的設計大大簡化。在字標注過程中,所有的字根據預定義的特征進行詞位特性的學習,獲得一個概率模型。然后,在待分字串上,根據字與字之間的結合緊密程度,得到一個詞位的標注結果。最后,根據詞位定義直接獲得最終的分詞結果。

          2.1.5 基于人工智能技術的中文分詞方法(基于理解)

          基于人工智能技術的中文分詞方法

          • 原理:在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象

          • 通常包括三個部分: 分詞子系統、句法語義子系統和總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程

          • 條件:需要使用大量的語言知識和信息

          • 目前基于理解的分詞方法主要有:專家系統分詞法,神經網絡分詞法,神經網絡專家系統集成式分詞法

            ?

          1.神經網絡分詞算法

          神經網絡分詞算法

          • 原理:以模擬人腦運行,分布處理和簡歷數值計算模型工作,將分詞知識的隱式方法存入神經網內部,通過自學習和訓練內部權值,以達到正確的分詞結果

          • 關鍵在于知識庫(權重鏈表)的組織和網絡推理機制的建立

          • 算法的分詞過程是一個生成分詞動態網的過程,該過程是分步進行的:首先以確定待處理語句的權字串為基礎,來確定網絡處理單元;然后根據鏈接權重表激活輸入/輸出單元之間的鏈接,該過程可以采用某種激活方式,取一個漢字作為關鍵字,確定其鏈接表,不斷匹配

          • 優點:神經網絡分詞法具有自學習、自組織功能,可以進行并行、非線性處理,并且反應迅速、對外界變換敏感

          • 缺點:目前的基于神經網絡的分詞算法存在著網絡模型表達復雜,學習算法收斂速度較慢,訓練時間長,并且對已有的知識維護更新困難等不足。

          2.專家系統分詞算法

          專家系統分詞算法

          • 原理:從模擬人腦功能出發,構造推理網絡,將分詞過程看做是知識推理過程

          • 該方法將分詞所需要的語法、語意以及句法知識從系統的結構和功能上分離處理,將知識的表示、知識庫的邏輯結構與維護作為首要考慮的問題。知識庫按常識性知識與啟發性知識分別進行組織。知識庫是專家系統具有“智能”的關鍵行部件

          • 優點:專家系統分詞算法是一種統一的分詞算法,不僅使整個分詞處理過程簡明,也使整個系統的運行效率提高

          3.神經網絡專家系統集成式分詞法

          神經網絡專家系統集成式分詞法

          • 原理:首先啟動神經網絡進行分詞,當神經網絡對新出現的詞不能給出準確切分時,激活專家系統進行分析判斷,依據知識庫進行推理,得出初步分析,并啟動學習機制對神經網絡進行訓練

          • 優點:可以較充分發揮神經網絡與專家系統二者優勢,進一步提高分詞效率

          2.2 中文分詞瓶頸

          1.分詞歧義

          分詞歧義:指在一個句子中,一個字串可以有多種不同的切分方法,一個句子經常對應幾個合法詞序列,因此,漢語分詞中的一個重要問題就是在所有這些可能的序列中選出一個正確的結果。

          • 分詞歧義是中文分詞的主要困難

          • 交集性歧義:可用動態規劃來解決

          e.g. “北京大學生前來報到”,容易被劃分成“北京大學/生前/來/報到”

          • 組合型歧義:指同一個子串既可合又可分;可用統計語言模型來解決

          eg.“學生會宣傳部”中的“學生會”是一個詞,“學生會主動完成作業”里的“學生 會”就必須拆開

          統計語言模型:對于任意兩個詞語 w1、 w2 ,統計在語料庫中詞語 w1 后面恰好是 w2 的概率 P(w1, w2) 。這樣便會生成一個很大的二維表。再定義一個句子的劃分方案的得分為 P(?, w1) · P(w1, w2) · … · P(wn-1, wn) ,其中 w1, w2, …, wn 依次表示分出的詞。我們同樣可以利用動態規劃求出得分最高的分詞方案。

          2.未登錄詞識別

          未登錄詞識別

          • 未登錄詞包括:中外人名、中國地名、機構組織名、事件名、貨幣名、縮略語、派生詞、各種專業術語以及在不斷發展和約定俗成的一些新詞語,是種類繁多,形態組合各異,規模宏大的一個領域。對這些詞語的自動辨識,是一件非常困難的事。

          • 中文沒有首字母大寫,計算機很難分辨人名地名等專有名詞

            • 人名剛好與上下文組合成詞:比如“高通向人大常委會提交報告”

            • 人名剛好是常用詞:比如“汪洋”

            • 品牌名、機構名、地名等專有名詞的識別

            • 縮略詞的識別

            • 網絡新詞更難識別:甚至沒有固定的生產機制

            ?

          3.錯別字、諧音字規范化

          當處理不規范文本(如網絡文本和語音轉錄文本)時,輸入的句子中不可避免會存在一些錯別字或刻意的諧音字(如香菇—>想哭),這些詞對分詞系統造成很大干擾。

          4.分詞粒度問題

          對“詞語的最小單位”的定義存在主觀性,導致多人標注的語料存在大量不一致現象,即表達相同意思的同一字串,在語料中存在不同的切分方式。

          2.3 中文分詞的評價準則

          中文分詞主要有五項評價準則:分詞正確率,切分速度,功能完備性,易擴充性和可維護性,可移植性。

          1.分詞正確率

          中文分詞是中文信息處理的重要基礎,因此分詞準確性對整體的信息處理任務來說十分重要。

          為了獲得分詞系統切分正確率,應該進行整體測試,歧義測試和專業詞測試。自動分詞系統的切分正確率的基本公式為:

          其中,S1,S2,S3。分別為總體測試、歧義測試和專業詞測試的正確率;Bi(i=1,2,3)為三種測試加的權值。

          2.切分速度

          切分速度對中文信息處理任務也非常重要。比如對于搜索引擎來說,如果分詞速度太慢,即使準確性再高,也是不可用的,因為搜索引擎需要處理數以億計的網頁,如果分詞耗用的時間過長,會嚴重影響搜索引擎內容更新的速度。

          切分速度

          • 指單位時間內所處理的漢字個數

          • 在分詞正確率基本滿足要求的情況下,切分速度是另一個很重要的指標,特別對于算法不單一,使用輔助手段, 諸如聯想,基于規則,神經網絡,專家系統等方法更應注意這一點

          • 通常中文信息處理的文本數量是相當大的,因此必須考慮方法是否能使系統總開銷合理。在人機交互方式下處理歧義問題的策略和人機接口的設計,有時會嚴重影響切分速度,這也是應考慮的因素

          3.功能完備性

          自動分詞方法除了完成分詞功能外,還應具備詞庫增刪、修改、查詢和批處理等功能。

          4.易擴充性和可維護性

          易擴充性和可維護性是提供數據存儲和計算功能擴充要求的軟件屬性,包括詞庫的存儲結構,輸入/輸出形式的變化等方面的擴展和完善。這項指標與系統清晰性、模塊性、簡 單性、結構性、完備性以及自描述性等軟件質量準則有直接的聯系,對于研究實驗性質的軟件是非常重要的,因為這類軟件需要不斷提高與改進,使之適應中文信息 處理的各種應用。

          5.可移植性

          可移植性:指方法能從一個計算機系統或環境轉移到另一個系統或環境的容易程度。一個好的分詞方法不應該只能在一個環境下運行,而應該稍作修改便可在另一種環境下運行,使它更便于推廣。

          三、中文分詞技術的應用

          3.1 中文分詞是中文信息處理的基礎

          中文分詞是中文信息處理的基礎,是自然語言處理的基礎模塊,中文信息處理包括三個層次:詞法分析,句法分析,語義分析。中文分詞是詞法分析的第一步。

          圖2:自然語言句子級分析技術

          Level1:詞法分析 (Lexical Analysis)

          • 分詞(word segmentation):將輸出的子串切分成單獨的詞語

          • 詞性標注(part-of-speech tag):為每個詞賦予一個類別,如名詞、動詞、形容詞 etc.;一般屬于相同詞性的詞,在句子中承擔類似的角色

          Level2:句法分析(synactic parsing):對輸入的文本句子進行分析以得到句子的句法結構的處理過程;句法分析的輸出結果常作為語義分析的輸入

          • 短語結構句法分析(phrase-structure syntactic parsing):識別出句子中的酸雨結果以及短語間的層次句法關系

          • 依存句法分析(dependency syntactic parsing):識別句子中詞匯與詞匯之間的相互依存關系,屬于淺層句法分析

          • 深層文法句法分析:利用深層文法,如詞匯化樹鄰接文法、詞匯功能文法、組合范疇文法等,對句子進行深層的句法和語義分析

          Level3:語義分析semantic parsing):理解句子表達的真實語義

          • 語義角色標注(semantic role labeling):屬于淺層語義分析技術

          三個層級的聯合方式

          • 級聯:分詞、詞性標注、句法分析、語義分析分別訓練模型;實際使用時,逐一使用各模塊進行分析,最終得到所有結果

          • 聯合模型:多任務聯合學習和解碼,如分詞詞性聯合、詞性句法聯合、分析詞性句法聯合、句法語義聯合等,聯合模型通??娠@著提高分析質量(但復雜度高,速度慢)

          3.2 具體應用(以搜索引擎為例)

          中文分詞是大部分下游應用的基礎,這些下游應用小到POS詞性標注、NER命名實體識別,大到自動分類、自動摘要、自動校對、語言模型、機器翻譯、搜索引擎、語音合成等等。

          下面以搜索引擎為例,具體闡述中文分詞在搜索引擎中的應用。

          搜索引擎針對用戶提交查詢的關鍵詞串進行的查詢處理后,根據用戶的關鍵詞串用各種匹配方法進行分詞。

          搜索引擎的查詢處理

          • 1.首先到數據庫里索引相關信息

            • 若用戶提交的字符串不超過3個漢字,則直接去數據庫索引

            • 分詞:若超過4個字符串,則用分隔符(如空格、標點)把用戶提交的字符串分割成N個子查詢串

          • 2.再檢測用戶提供的字符串里有無重復詞匯

            • 若有,則丟棄,默認為一個詞匯

            • 檢查用戶提交的字符串有無字母和數字,若有則把字母和數字當做一個詞

          REFERENCE

          中文分詞算法基本介紹

          中文分詞技術介紹-月光博客

          中文信息處理發展報告


          btw:歡迎關注 ~

          Github: https://github.com/ScarlettYellow

          個人博客:https://scarletthuang.cn/


          網絡推廣與網站優化公司(網絡優化與推廣專家)作為數字營銷領域的核心服務提供方,其價值在于通過技術手段與策略規劃幫助企業提升線上曝光度、用戶轉化率及品牌影響力。這...

          在當今數字化時代,公司網站已成為企業展示形象、傳遞信息和開展業務的重要平臺。然而,對于許多公司來說,網站建設的價格是一個關鍵考量因素。本文將圍繞“公司網站建設價...

          在當今的數字化時代,企業網站已成為企業展示形象、吸引客戶和開展業務的重要平臺。然而,對于許多中小企業來說,高昂的網站建設費用可能會成為其發展的瓶頸。幸運的是,隨...

          yy飛機票怎么發?機票格式:輸入法要用中文,先輸入“yy”,再輸入“:”,再輸入“//”,最后輸入你想去的ID。交付后的格式是飛機票的格式,一點就飛。yy群里怎么發這種飛機票?機票格式:輸入法要用中文,先輸入“yy”,再輸入“:”,再輸入“//”,最后輸入你想去的ID。交付后的格式是飛機票的格式,一點就飛。YY說的飛機票是什么意思?即使有人邀請你去他的YY,你也可以送一張機票給你的朋友~他接受了就...

          echo off是什么語言?Echo off不是語言,是Dos命令行,意思是關閉Echo。bat批處理腳本中經常使用Echo。該命令的功能是顯示信息或回應命令開或關。簡單地說,有兩種用途,:。第一種用法是直接輸出字符串,比如在DOS終端輸入echo 123456,執行回車后,終端屏幕上會顯示字符串123456。該函數通常用于提示用戶或調試腳本。第二種用法是關閉后續命令的回顯。比如在DOS終端輸入命...

          蘇州新區屬于哪個區 江蘇蘇州新區在哪里?蘇州新區指的是哪? 蘇州新區位于江蘇省最南端地級市蘇州西側??拷?,擁有國家科技城,主要產業包括先進制造業、制藥業、現代服務業等高新技術產業。蘇州新區東臨京杭大運河,西臨太湖。旅游資源豐富,不僅有以孫武聞名的穹窿山,還有以紅楓聞名的靈巖山,還有充滿現代氣息的蘇州樂園。蘇州新區是人杰地靈的風水寶地。 蘇州新區叫虎丘區嗎?虎丘區也叫新區嗎? 新區可稱叫...

          TOP
          国产初高中生视频在线观看|亚洲一区中文|久久亚洲欧美国产精品|黄色网站入口免费进人
          1. <nobr id="easjo"><address id="easjo"></address></nobr>

              <track id="easjo"><source id="easjo"></source></track>
              1. 
                

              2. <bdo id="easjo"><optgroup id="easjo"></optgroup></bdo>
              3. <track id="easjo"><source id="easjo"><em id="easjo"></em></source></track><option id="easjo"><span id="easjo"><em id="easjo"></em></span></option>