1. <nobr id="easjo"><address id="easjo"></address></nobr>

      <track id="easjo"><source id="easjo"></source></track>
      1. 
        

      2. <bdo id="easjo"><optgroup id="easjo"></optgroup></bdo>
      3. <track id="easjo"><source id="easjo"><em id="easjo"></em></source></track><option id="easjo"><span id="easjo"><em id="easjo"></em></span></option>
          貴州做網站公司
          貴州做網站公司~專業!靠譜!
          10年網站模板開發經驗,熟悉國內外開源網站程序,包括DEDECMS,WordPress,ZBlog,Discuz! 等網站程序,可為您提供網站建設,網站克隆,仿站,網頁設計,網站制作,網站推廣優化等服務。我們專注高端營銷型網站,企業官網,集團官網,自適應網站,手機網站,網絡營銷,網站優化,網站服務器環境搭建以及托管運維等。為客戶提供一站式網站解決方案?。?!

          ChineseWiki︱百萬中文維基百科詞條下載與整理

          來源:互聯網轉載 時間:2024-01-29 08:27:40

          維基百科中文詞條

          維基百科開源的中文詞條內容,收集了99W+詞條,當然比百度少了不少。 有效處理該原始語料的方法主要有兩個:1、Wikipedia Extractor;2、gensim的wikicorpus庫。 兩種處理都比較粗糙,導致:

          • Wikipedia Extractor提取出來的結果,會去掉很多空格與括號里面的內容;
          • gensim.corpora.wikicorpus.WikiCorpus處理,問題更嚴重,因為它連所有標點都去掉了。

          本篇code見:mattzheng/ChineseWiki 先下載語料文件:下載地址

          zhwiki-20180301-pages-articles-multistream.xml.bz2 是主文件; zhwiki-20180301-pages-articles-multistream-index.txt.bz2 是每個詞條的編號信息。

          本篇主要是寫如何進行整理:

          • 1、繁簡轉化庫——opencc的安裝與使用
          • 2、wiki中文詞條整理
          • 3、關鍵詞檢索模塊

          額外的還有一些其他輔助信息:

          • 1、重定向匹配表,中文維基重定向的同義詞表
          • 2、詞條的編號信息,官方提供 zhwiki-20180301-pages-articles-multistream-index.txt.bz2 23.6 MB

          1、繁簡轉化庫——opencc的安裝與使用

          其中繁體轉簡體中文的庫,opencc的安裝,網上的說明程序真尼瑪多,沒一個搞的定的,吐槽一下!!! 直接來看github原文,安裝方式:

          pip install opencc-python-reimplemented

          或者把github下載下來用python setup.py install安裝,哪有網上教程那么麻煩!

          使用也不太一樣:

          from opencc import OpenCC openCC = OpenCC('s2t')  # convert from Simplified Chinese to Traditional Chinese# can also set conversion by calling set_conversion# openCC.set_conversion('s2tw')to_convert = '開放中文轉換'converted = openCC.convert(to_convert)

          支持的轉換模式有:

          'hk2s': Traditional Chinese (Hong Kong standard) to Simplified Chinese's2hk': Simplified Chinese to Traditional Chinese (Hong Kong standard)'s2t': Simplified Chinese to Traditional Chinese's2tw': Simplified Chinese to Traditional Chinese (Taiwan standard)'s2twp': Simplified Chinese to Traditional Chinese (Taiwan standard, with phrases)'t2hk': Traditional Chinese to Traditional Chinese (Hong Kong standard)'t2s': Traditional Chinese to Simplified Chinese't2tw': Traditional Chinese to Traditional Chinese (Taiwan standard)'tw2s': Traditional Chinese (Taiwan standard) to Simplified Chinese'tw2sp': Traditional Chinese (Taiwan standard) to Simplified Chinese (with phrases)

          此處補充,如何判斷一個句子中是否有繁體字

          當有繁體字時候,可以編碼為’big5hkscs’。

          line = '我們今天去吃飯了' l = '我們今天去吃飯了' #print(line.encode('utf-8')) #print(l.encode('utf-8')) try:     print(l.encode('big5hkscs'))     print(line.encode('big5hkscs')) except:     print(111)

          2、wiki中文詞條整理

          參考并整理代碼參考蘇神的:獲取并處理中文維基百科語料

          先從官網下載了zhwiki-20180301-pages-articles-multistream.xml.bz2文件,然后先用wiki_parser.py將其進行解析,變成以下格式:

          === 詞源 ===英語詞語Philosophy(philosophia)源于古希臘語中的φιλοσοφ?α,意思為「愛智慧」,有時也譯為「智慧的朋友」=== 主分支 ===哲學可以分為很多不同的分支,主要包括形而上學、知識論、倫理學、邏輯學和美學。* 形而上學/宇宙論* 知識論

          然后筆者的做法是利用給每一行進行打標wiki_clean.py,因為每一行通過符號是可以直接從屬關系。記號遵從以下表格:

          內容級別

          內容

          標記

          1級標題

          【政治學】

          1

          2級標題

          == 歷史 ==

          2

          3級標題

          === 古典時期 ===

          3

          4級標題

          ==== 古典時期 ====

          4

          平行關系

          * 知識論

          5

          正文

          英語詞語Philosophy

          0

          最后生成的如下表格:

          3、關鍵詞檢索模塊

          本模塊目前還在考慮,遇到了中文分詞一樣的問題,如果給入的數據是:'民用無人機到自主駕駛汽車',那么我們應該是想了解這句話里面的:無人機;自主駕駛汽車,但最后會分出:民用;無人機;自主;駕駛;汽車;無人... 概念從屬關系,駕駛汽車與汽車,肯定想知道駕駛汽車

          目前做到的效果是:

          search_txt = '民用無人機到自主駕駛汽車'search(search_txt)

          結果輸出:

          {'無人機': '各種類型的無人機。rn無人機(Uncrewed vehicle、Unmanned vehicle、Drone)或稱無人載具是一種無搭載人員的載具。通常使用遙控、導引或自動駕駛來控制??稍诳茖W研究、軍事、休閑娛樂用途上使用。rn在日常用語中,“無人機”被特指為“無人飛行載具”。rn', '汽車': 'Benz Patent-Motorwagen Nummer 1,第一輛“現代汽車”。rn1927年的汽車,福特T型車。rn1942年的汽車,納許大使。rn1980年的汽車,大眾帕薩特rn1999年的汽車,西雅特托萊多rn2008年的超級跑車,科尼賽克CCX。rn日產Maxima SRrn怪獸卡車rn汽車或稱機動車(英式英語:car;美式英語:automobile;美國口語:auto),即本身具有動力得以驅動,不須依軌道或電纜,得以動力行駛之車輛。廣義來說,具有四輪或以上行駛的車輛,普遍多稱為汽車。雖然,長久以來學術各界對「誰是第一位汽車發明者」皆有不同的看法及論述,未有完全一致性的看法,但是,絕大部份學者皆將德國工程師卡爾·本茨視為第一位發明者。美國人亨利·福特首先大量生產平價汽車,是使汽車得以普及化的人。rn', '駕駛': '駕駛,指的是人類在操縱交通工具或一些機械設備時的行為,可分為機動車駕駛、船舶駕駛、列車駕駛、航空器駕駛、其它駕駛,這些一般都屬于真實駕駛,可采用手動駕駛或自動駕駛的方式進行駕駛。對于通過電子系統以游戲等方式進行模擬真實駕駛情況的行為,則被稱為虛擬駕駛。對于交通工具或一些機械設備的駕駛者,被稱為駕駛員。對于駕駛交通工具或一些機械設備時應隨身攜帶的證件,則被稱為駕駛證。rn'}
          標簽:中文維基百科-

          網絡推廣與網站優化公司(網絡優化與推廣專家)作為數字營銷領域的核心服務提供方,其價值在于通過技術手段與策略規劃幫助企業提升線上曝光度、用戶轉化率及品牌影響力。這...

          在當今數字化時代,公司網站已成為企業展示形象、傳遞信息和開展業務的重要平臺。然而,對于許多公司來說,網站建設的價格是一個關鍵考量因素。本文將圍繞“公司網站建設價...

          在當今的數字化時代,企業網站已成為企業展示形象、吸引客戶和開展業務的重要平臺。然而,對于許多中小企業來說,高昂的網站建設費用可能會成為其發展的瓶頸。幸運的是,隨...

          QQ群禁止瀏覽如何解散群~或刪除群?如果是自己創建的群,可以解散: 在面板的群欄目里找到該群右鍵單擊群圖標“解散該群”進入解散頁面后按提示操作即可。 注意:該操作不可逆,將解除群內所有成員的群友關系,同時刪除群空間的所有資料。 如果是別人的群,直接退出就可以了:右鍵單擊群圖標退出該群。群解散怎么解?可以先發個公告,告訴大家由于某某理由,這個群要解散了。然后再發一段表示謝意的話,也表示一下歉意。然后...

          如何進入黑客圈子?我做了20多年的黑客,比如海陽頂級ASP木馬和端口轉發工具lcx.exe文件這都是我的工作。我的標題是在黑客領域,最近它一直朝著黑客教學的方向發展。不久前,我回答了一個問題,如何從零開始成為黑客?在寫了這個答案之后,我開始改進我的標題中的兩篇文章系列,那就是零基礎學習網絡滲透系列和我們的不同黑客教程系列。我認為這已經足夠基本,可以引導你開始學習,學習之后,你可以去各種黑客論壇。它...

          京東路的日子歌曲歌詞?歌名:《北京東路的日子》原唱:許藝豪、陸天舒、姜偉民、張、梁靜媛、游、徐藝軒歌詞:王元音樂:王元編曲:孫蕾歌詞:當初,我們都是孩子。成為天使的最后愿望。歌謠中的歌謠隱藏著童話的影子。我的孩子應該飛向哪里?當初,我們都是孩子。成為天使的最后愿望。歌謠中的歌謠隱藏著童話的影子。我的孩子應該飛向哪里?當有一天你聽到有人在說那些奇怪的語言。當有一天你看到滿大街的書還是先學著找樂子當有...

          TOP
          国产初高中生视频在线观看|亚洲一区中文|久久亚洲欧美国产精品|黄色网站入口免费进人
          1. <nobr id="easjo"><address id="easjo"></address></nobr>

              <track id="easjo"><source id="easjo"></source></track>
              1. 
                

              2. <bdo id="easjo"><optgroup id="easjo"></optgroup></bdo>
              3. <track id="easjo"><source id="easjo"><em id="easjo"></em></source></track><option id="easjo"><span id="easjo"><em id="easjo"></em></span></option>