維基百科開源的中文詞條內容,收集了99W+詞條,當然比百度少了不少。 有效處理該原始語料的方法主要有兩個:1、Wikipedia Extractor;2、gensim的wikicorpus庫。 兩種處理都比較粗糙,導致:
本篇code見:mattzheng/ChineseWiki 先下載語料文件:下載地址
zhwiki-20180301-pages-articles-multistream.xml.bz2 是主文件; zhwiki-20180301-pages-articles-multistream-index.txt.bz2 是每個詞條的編號信息。
本篇主要是寫如何進行整理:
額外的還有一些其他輔助信息:
其中繁體轉簡體中文的庫,opencc的安裝,網上的說明程序真尼瑪多,沒一個搞的定的,吐槽一下!!! 直接來看github原文,安裝方式:
pip install opencc-python-reimplemented
或者把github下載下來用python setup.py install
安裝,哪有網上教程那么麻煩!
使用也不太一樣:
from opencc import OpenCC openCC = OpenCC('s2t') # convert from Simplified Chinese to Traditional Chinese# can also set conversion by calling set_conversion# openCC.set_conversion('s2tw')to_convert = '開放中文轉換'converted = openCC.convert(to_convert)
支持的轉換模式有:
'hk2s': Traditional Chinese (Hong Kong standard) to Simplified Chinese's2hk': Simplified Chinese to Traditional Chinese (Hong Kong standard)'s2t': Simplified Chinese to Traditional Chinese's2tw': Simplified Chinese to Traditional Chinese (Taiwan standard)'s2twp': Simplified Chinese to Traditional Chinese (Taiwan standard, with phrases)'t2hk': Traditional Chinese to Traditional Chinese (Hong Kong standard)'t2s': Traditional Chinese to Simplified Chinese't2tw': Traditional Chinese to Traditional Chinese (Taiwan standard)'tw2s': Traditional Chinese (Taiwan standard) to Simplified Chinese'tw2sp': Traditional Chinese (Taiwan standard) to Simplified Chinese (with phrases)
當有繁體字時候,可以編碼為’big5hkscs’。
line = '我們今天去吃飯了' l = '我們今天去吃飯了' #print(line.encode('utf-8')) #print(l.encode('utf-8')) try: print(l.encode('big5hkscs')) print(line.encode('big5hkscs')) except: print(111)
參考并整理代碼參考蘇神的:獲取并處理中文維基百科語料
先從官網下載了zhwiki-20180301-pages-articles-multistream.xml.bz2
文件,然后先用wiki_parser.py
將其進行解析,變成以下格式:
=== 詞源 ===英語詞語Philosophy(philosophia)源于古希臘語中的φιλοσοφ?α,意思為「愛智慧」,有時也譯為「智慧的朋友」=== 主分支 ===哲學可以分為很多不同的分支,主要包括形而上學、知識論、倫理學、邏輯學和美學。* 形而上學/宇宙論* 知識論
然后筆者的做法是利用給每一行進行打標wiki_clean.py
,因為每一行通過符號是可以直接從屬關系。記號遵從以下表格:
內容級別 | 內容 | 標記 |
---|---|---|
1級標題 | 【政治學】 | 1 |
2級標題 | == 歷史 == | 2 |
3級標題 | === 古典時期 === | 3 |
4級標題 | ==== 古典時期 ==== | 4 |
平行關系 | * 知識論 | 5 |
正文 | 英語詞語Philosophy | 0 |
最后生成的如下表格:
本模塊目前還在考慮,遇到了中文分詞一樣的問題,如果給入的數據是:'民用無人機到自主駕駛汽車'
,那么我們應該是想了解這句話里面的:無人機;自主駕駛汽車
,但最后會分出:民用;無人機;自主;駕駛;汽車;無人...
概念從屬關系,駕駛汽車與汽車
,肯定想知道駕駛汽車
目前做到的效果是:
search_txt = '民用無人機到自主駕駛汽車'search(search_txt)
結果輸出:
{'無人機': '各種類型的無人機。rn無人機(Uncrewed vehicle、Unmanned vehicle、Drone)或稱無人載具是一種無搭載人員的載具。通常使用遙控、導引或自動駕駛來控制??稍诳茖W研究、軍事、休閑娛樂用途上使用。rn在日常用語中,“無人機”被特指為“無人飛行載具”。rn', '汽車': 'Benz Patent-Motorwagen Nummer 1,第一輛“現代汽車”。rn1927年的汽車,福特T型車。rn1942年的汽車,納許大使。rn1980年的汽車,大眾帕薩特rn1999年的汽車,西雅特托萊多rn2008年的超級跑車,科尼賽克CCX。rn日產Maxima SRrn怪獸卡車rn汽車或稱機動車(英式英語:car;美式英語:automobile;美國口語:auto),即本身具有動力得以驅動,不須依軌道或電纜,得以動力行駛之車輛。廣義來說,具有四輪或以上行駛的車輛,普遍多稱為汽車。雖然,長久以來學術各界對「誰是第一位汽車發明者」皆有不同的看法及論述,未有完全一致性的看法,但是,絕大部份學者皆將德國工程師卡爾·本茨視為第一位發明者。美國人亨利·福特首先大量生產平價汽車,是使汽車得以普及化的人。rn', '駕駛': '駕駛,指的是人類在操縱交通工具或一些機械設備時的行為,可分為機動車駕駛、船舶駕駛、列車駕駛、航空器駕駛、其它駕駛,這些一般都屬于真實駕駛,可采用手動駕駛或自動駕駛的方式進行駕駛。對于通過電子系統以游戲等方式進行模擬真實駕駛情況的行為,則被稱為虛擬駕駛。對于交通工具或一些機械設備的駕駛者,被稱為駕駛員。對于駕駛交通工具或一些機械設備時應隨身攜帶的證件,則被稱為駕駛證。rn'}
本文由 貴州做網站公司 整理發布,部分圖文來源于互聯網,如有侵權,請聯系我們刪除,謝謝!
網絡推廣與網站優化公司(網絡優化與推廣專家)作為數字營銷領域的核心服務提供方,其價值在于通過技術手段與策略規劃幫助企業提升線上曝光度、用戶轉化率及品牌影響力。這...
在當今數字化時代,公司網站已成為企業展示形象、傳遞信息和開展業務的重要平臺。然而,對于許多公司來說,網站建設的價格是一個關鍵考量因素。本文將圍繞“公司網站建設價...
在當今的數字化時代,企業網站已成為企業展示形象、吸引客戶和開展業務的重要平臺。然而,對于許多中小企業來說,高昂的網站建設費用可能會成為其發展的瓶頸。幸運的是,隨...
QQ群禁止瀏覽如何解散群~或刪除群?如果是自己創建的群,可以解散: 在面板的群欄目里找到該群右鍵單擊群圖標“解散該群”進入解散頁面后按提示操作即可。 注意:該操作不可逆,將解除群內所有成員的群友關系,同時刪除群空間的所有資料。 如果是別人的群,直接退出就可以了:右鍵單擊群圖標退出該群。群解散怎么解?可以先發個公告,告訴大家由于某某理由,這個群要解散了。然后再發一段表示謝意的話,也表示一下歉意。然后...
如何進入黑客圈子?我做了20多年的黑客,比如海陽頂級ASP木馬和端口轉發工具lcx.exe文件這都是我的工作。我的標題是在黑客領域,最近它一直朝著黑客教學的方向發展。不久前,我回答了一個問題,如何從零開始成為黑客?在寫了這個答案之后,我開始改進我的標題中的兩篇文章系列,那就是零基礎學習網絡滲透系列和我們的不同黑客教程系列。我認為這已經足夠基本,可以引導你開始學習,學習之后,你可以去各種黑客論壇。它...
京東路的日子歌曲歌詞?歌名:《北京東路的日子》原唱:許藝豪、陸天舒、姜偉民、張、梁靜媛、游、徐藝軒歌詞:王元音樂:王元編曲:孫蕾歌詞:當初,我們都是孩子。成為天使的最后愿望。歌謠中的歌謠隱藏著童話的影子。我的孩子應該飛向哪里?當初,我們都是孩子。成為天使的最后愿望。歌謠中的歌謠隱藏著童話的影子。我的孩子應該飛向哪里?當有一天你聽到有人在說那些奇怪的語言。當有一天你看到滿大街的書還是先學著找樂子當有...