1. <nobr id="easjo"><address id="easjo"></address></nobr>

      <track id="easjo"><source id="easjo"></source></track>
      1. 
        

      2. <bdo id="easjo"><optgroup id="easjo"></optgroup></bdo>
      3. <track id="easjo"><source id="easjo"><em id="easjo"></em></source></track><option id="easjo"><span id="easjo"><em id="easjo"></em></span></option>
          貴州做網站公司
          貴州做網站公司~專業!靠譜!
          10年網站模板開發經驗,熟悉國內外開源網站程序,包括DEDECMS,WordPress,ZBlog,Discuz! 等網站程序,可為您提供網站建設,網站克隆,仿站,網頁設計,網站制作,網站推廣優化等服務。我們專注高端營銷型網站,企業官網,集團官網,自適應網站,手機網站,網絡營銷,網站優化,網站服務器環境搭建以及托管運維等。為客戶提供一站式網站解決方案?。?!

          基于SNS文本數據挖掘:分析關鍵詞分詞技巧

          來源:互聯網轉載 時間:2024-10-09 21:04:07

          作為中文系應用語言學專業的學生以及一名數學 Geek ,我非常熱衷于用計算的方法去分析漢語資料。漢語是一種獨特而神奇的語言。對漢語資料進行自然語言處理時,我們會遇到很多其他語言不會有的困難,比如分詞 ——漢語的詞與詞之間沒有空格,那計算機怎么才知道,已結婚的和尚未結婚的青年都要實行計劃生育究竟說的是已/結婚/的/和/尚未/結婚/的/青年,還是已/結婚/的/和尚/未/結婚/的/青年呢?這就是所謂的分詞歧義難題。不過,現在很多語言模型已經能比較漂亮地解決這一問題了。但在中文分詞領域里,還有一個比分詞歧義更令人頭疼的東西——未登錄詞。中文沒有首字母大寫,專名號也被取消了,這叫計算機如何辨認人名地名之類的東西?更慘的則是機構名、品牌名、專業名詞、縮略語、網絡新詞等等,它們的產生機制似乎完全無規律可尋。最近十年來,中文分詞領域都在集中攻克這一難關。自動發現新詞成為了關鍵的環節。

          挖掘新詞的傳統方法是,先對文本進行分詞,然后猜測未能成功匹配的剩余片段就是新詞。這似乎陷入了一個怪圈:分詞的準確性本身就依賴于詞庫的完整性,如果詞庫中根本沒有新詞,我們又怎么能信任分詞結果呢?此時,一種大膽的想法是,首先不依賴于任何已有的詞庫,僅僅根據詞的共同特征,將一段大規模語料中可能成詞的文本片段全部提取出來,不管它是新詞還是舊詞。然后,再把所有抽出來的詞和已有詞庫進行比較,不就能找出新詞了嗎?有了抽詞算法后,我們還能以詞為單位做更多有趣的數據挖掘工作。這里,我所選用的語料是人人網 2011 年 12 月前半個月部分用戶的狀態。非常感謝人人網提供這份極具價值的網絡語料。

          要想從一段文本中抽出詞來,我們的靠前個問題就是,怎樣的文本片段才算一個詞?大家想到的靠前個標準或許是,看這個文本片段出現的次數是否足夠多。我們可以把所有出現頻數超過某個閾值的片段提取出來,作為該語料中的詞匯輸出。不過,光是出現頻數高還不夠,一個經常出現的文本片段有可能不是一個詞,而是多個詞構成的詞組。在人人網用戶狀態中,的電影出現了389 次,電影院只出現了175 次,然而我們卻更傾向于把電影院當作一個詞,因為直覺上看,電影和院凝固得更緊一些。

          為了證明電影院一詞的內部凝固程度確實很高,我們可以計算一下,如果電影和院真的是各自獨立地在文本中隨機出現,它倆正好拼到一起的概率會有多小。在整個 2400 萬字的數據中,電影一共出現了 2774 次,出現的概率約為 0.000113 。院字則出現了 4797 次,出現的概率約為 0.0001969 。如果兩者之間真的毫無關系,它們恰好拼在了一起的概率就應該是 0.000113 × 0.0001969 ,約為 2.223 × 10-8 次方。但事實上,電影院在語料中一共出現了 175 次,出現概率約為 7.183 × 10-6 次方,是預測值的 300 多倍。類似地,統計可得的字的出現概率約為 0.0166 ,因而的和電影隨機組合到了一起的理論概率值為 0.0166 × 0.000113 ,約為 1.875 × 10-6 ,這與的電影出現的真實概率很接近——真實概率約為 1.6 × 10-5 次方,是預測值的 8.5 倍。計算結果表明,電影院更可能是一個有意義的搭配,而的電影則更像是的和電影這兩個成分偶然拼到一起的。

          當然,作為一個無知識庫的抽詞程序,我們并不知道電影院是電影加院得來的,也并不知道的電影是的加上電影得來的。錯誤的切分方法會過高地估計該片段的凝合程度。如果我們把電影院看作是電加影院所得,由此得到的凝合程度會更高一些。因此,為了算出一個文本片段的凝合程度,我們需要枚舉它的凝合方式——這個文本片段是由哪兩部分組合而來的。令 p(x) 為文本片段 x 在整個語料中出現的概率,那么我們定義電影院的凝合程度就是 p(電影院) 與 p(電) · p(影院) 比值和 p(電影院) 與 p(電影) · p(院) 的比值中的較小值,的電影的凝合程度則是 p(的電影) 分別除以 p(的) · p(電影) 和 p(的電) · p(影) 所得的商的較小值??梢韵氲?,凝合程度最高的文本片段就是諸如蝙蝠、蜘蛛、彷徨、忐忑、玫瑰之類的詞了,這些詞里的每一個字幾乎總是會和另一個字同時出現,從不在其他場合中使用。

          光看文本片段內部的凝合程度還不夠,我們還需要從整體來看它在外部的表現??紤]被子和輩子這兩個片段。我們可以說買被子、蓋被子、 進被子、好被子、這被子等等,在被子前面加各種字;但輩子的用法卻非常固定,除了一輩子、這輩子、上輩子、下輩子,基本上輩子前面不能加別的字了。輩子這個文本片段左邊可以出現的字太有限,以至于直覺上我們可能會認為,輩子并不單獨成詞,真正成詞的其實是 一輩子、這輩子之類的整體??梢?,文本片段的自由運用程度也是判斷它是否成詞的重要標準。如果一個文本片段能夠算作一個詞的話,它應該能夠靈活地出現在各種不同的環境中,具有非常豐富的左鄰字***和右鄰字***。

          信息熵是一個非常神奇的概念,它能夠反映知道一個事件的結果后平均會給你帶來多大的信息量。如果某個結果的發生概率為 p ,當你知道它確實發生了,你得到的信息量就被定義為 - log(p) 。 p 越小,你得到的信息量就越大。如果一顆骰子的六個面分別是 1 、 1 、 1 、 2 、 2 、 3 ,那么你知道了投擲的結果是 1 時可能并不會那么吃驚,它給你帶來的信息量是 - log(1/2) ,約為 0.693 。知道投擲結果是 2 ,給你帶來的信息量則是 - log(1/3) ≈ 1.0986 。知道投擲結果是 3 ,給你帶來的信息量則有 - log(1/6) ≈ 1.79 。但是,你只有 1/2 的機會得到 0.693 的信息量,只有 1/3 的機會得到 1.0986 的信息量,只有 1/6 的機會得到 1.79 的信息量,因而平均情況下你會得到 0.693/2 + 1.0986/3 + 1.79/6 ≈ 1.0114 的信息量。這個 1.0114 就是那顆骰子的信息熵?,F在,假如某顆骰子有 100 個面,其中 99 個面都是 1 ,只有一個面上寫的 2

          知道骰子的拋擲結果是 2 會給你帶來一個巨大無比的信息量,它等于 - log(1/100) ,約為 4.605 ;但你只有百分之一的概率獲取到這么大的信息量,其他情況下你只能得到 - log(99/100) ≈ 0.01005 的信息量。平均情況下,你只能獲得 0.056 的信息量,這就是這顆骰子的信息熵。再考慮一個最極端的情況:如果一顆骰子的六個面都是 1 ,投擲它不會給你帶來任何信息,它的信息熵為 - log(1) = 0 。什么時候信息熵會更大呢?換句話說,發生了怎樣的事件之后,你最想問一下它的結果如何?直覺上看,當然就是那些結果最不確定的事件。沒錯,信息熵直觀地反映了一個事件的結果有多么的隨機。

          網絡推廣與網站優化公司(網絡優化與推廣專家)作為數字營銷領域的核心服務提供方,其價值在于通過技術手段與策略規劃幫助企業提升線上曝光度、用戶轉化率及品牌影響力。這...

          在當今數字化時代,公司網站已成為企業展示形象、傳遞信息和開展業務的重要平臺。然而,對于許多公司來說,網站建設的價格是一個關鍵考量因素。本文將圍繞“公司網站建設價...

          在當今的數字化時代,企業網站已成為企業展示形象、吸引客戶和開展業務的重要平臺。然而,對于許多中小企業來說,高昂的網站建設費用可能會成為其發展的瓶頸。幸運的是,隨...

          5g手機打游戲怎么樣?在5g手機上玩游戲,如果用wifi,和在4g手機上是一樣的。如果用流量的話,如果你的手機正好充滿了5g信號,那么在這種情況下,你的5g網絡玩游戲肯定比4g網絡好,因為5g信號下延遲更低,網速更快,所以體驗更好。5個G 的手游?像《和平精英》和《英雄聯盟》手游這樣的游戲,內存都有5個G。即使玩古典記憶,游戲的動畫也很好看,上手體驗也很好。這些游戲,目前網上呼聲很高,能排到前五...

          查看筆記本顯卡功耗?1.可以根據顯卡的供電接口來確定。比如PCI-E最高可以供電75W,加上顯卡的供電接口,一個顯卡6pin 8pin最大功耗是300W。2.可以根據顯卡型號查詢顯卡的功耗值;3.顯卡的功耗在運行過程中是變化的,但不是固定的。顯卡上會有一個固定的功率值。cpu和顯卡功率大概是多少?一般CPU和顯卡的總功率不會超過300瓦。因為CPU的原因,如果不買超頻k段的,通常他的工號在85瓦...

          edge瀏覽器進不去知網什么原因?因為用戶輸入了錯誤的賬號和密碼,會導致用戶無法 我登錄不了知網。用戶可以在登錄界面點擊忘記密碼,根據提示輸入新密碼,這樣用戶就可以修改知網賬號的密碼了。microsoft edge怎么打不開?你能解決的問題。;不要使用邊緣瀏覽器:1.右鍵單擊 "這臺電腦 "。在菜單欄中,單擊屬性。edge無法正常啟動?首先,注意清理瀏覽器 s緩存,并盡可能刪除緩存中的圖片和視頻,...

          TOP
          国产初高中生视频在线观看|亚洲一区中文|久久亚洲欧美国产精品|黄色网站入口免费进人
          1. <nobr id="easjo"><address id="easjo"></address></nobr>

              <track id="easjo"><source id="easjo"></source></track>
              1. 
                

              2. <bdo id="easjo"><optgroup id="easjo"></optgroup></bdo>
              3. <track id="easjo"><source id="easjo"><em id="easjo"></em></source></track><option id="easjo"><span id="easjo"><em id="easjo"></em></span></option>