1. <nobr id="easjo"><address id="easjo"></address></nobr>

      <track id="easjo"><source id="easjo"></source></track>
      1. 
        

      2. <bdo id="easjo"><optgroup id="easjo"></optgroup></bdo>
      3. <track id="easjo"><source id="easjo"><em id="easjo"></em></source></track><option id="easjo"><span id="easjo"><em id="easjo"></em></span></option>
          貴州做網站公司
          貴州做網站公司~專業!靠譜!
          10年網站模板開發經驗,熟悉國內外開源網站程序,包括DEDECMS,WordPress,ZBlog,Discuz! 等網站程序,可為您提供網站建設,網站克隆,仿站,網頁設計,網站制作,網站推廣優化等服務。我們專注高端營銷型網站,企業官網,集團官網,自適應網站,手機網站,網絡營銷,網站優化,網站服務器環境搭建以及托管運維等。為客戶提供一站式網站解決方案?。?!

          搜索引擎原理系列教程:收錄、索引、排名

          來源:互聯網轉載 時間:2024-10-28 08:29:00

          《搜索引擎原理系列教程》這個雖然稱不上書籍,但由于里面信息量以及內容比較實用,也彌補了百度白皮書的一些短板——話語浮于表面,另外值得鼓勵的是,這個教程完全是由一個民間的seo愛好者總結,這份精神值得稱贊。我這里仍然想講三個方面,也是我們SEOER比較關心的三個方面:收錄、索引、排名。

          一、收錄

          搜索引擎搜集網頁過程,收錄其實是個復雜的過程,他簡單的分為這四個步驟:

          1、 調度器是整個搜集過程的核心,它內部保存有一個已訪問URL庫和未訪問URL庫,統稱URL庫。一開始調度器會從未訪問URL庫中取出一條URL,分配給蜘蛛,讓蜘蛛去抓取未抓取過的URL。

          2、 當一個蜘蛛得到URL的時候,它會向返個URL發出請求抓取,流程是:對該URL對應的域名進行DNS解析->得到IP進行Socket連接->連接成功發出http請求->接收網頁信息。

          3、 蜘蛛得到網頁信息后,會返回源代碼給調度器,調度器會將源代碼保存到網頁數據庫中。

          4、 調度器會對抓取到網頁迕行鏈接提取,將未抓取過的URL存放到未訪問URL庫中,并將剛剛抓取完的URL更新到已抓取URL庫中。

          這其中會涉及到去重

          調度器的工作流程

          1、從未訪問URL表中依次取出URL,分配給各個蜘蛛。

          2、蜘蛛得到URL,進行抓取,得到網頁的源代碼,對該源代碼進行URL的提取,獲得該網頁包含的所有URL。

          3、調度器依次查看得到的URL是否在已訪問URL庫中存在。如果存在,則說明已經被抓取過,那么將該URL丟棄;如果不存在,說明這個URL沒有被抓取過,則順序添加到未訪問URL表中,等待之后抓取。

          4、重復步驟1,直到未訪問表為空。

          二、索引

          網頁預處理

          1、給原始網頁建立索引。

          2、針對搜索有網頁庫進行網頁切分,將每一個頁面轉化為一組詞的集合。(正向索引)

          3、將網頁到索引詞的映射轉換為索引詞到網頁的映射,形成倒排文件(包括倒排表和索引詞表)
          總的來說,搜索引擎從網頁數據庫獲取網頁然后進行代碼過濾,然后提取正文信息后進行切詞,之后的步驟就是對關鍵詞集合進行篩選,得到網頁關鍵詞正向索引,最后才將搜索引擎將正向索引轉換未關鍵詞到網頁的倒排索引,正是這個技術,搜索引擎才有可能在1S內給用戶呈現搜索結果。

          另外,這其中搜索引擎做的動作就是網頁凈化和消重,除了去除網頁內噪音內容(如廣告、版權等),提取網頁主題和相關內容外,去除網頁集合中內容重復內容。

          有同學可能會問,搜索引擎如何識別主體內容的呢?事實上,算法是靠建立HTML標簽樹和投票方法識別正文文本。

          比如,我們定一下規則,

          1、如果文本塊文本長度少于10個字,0分。介于10~50個字得5分。介于50~250個字,得8分。超過250個字,得10分。

          2、文本塊文本位置在右側,得0分。在頂部,得3分。在左側,得5分。在中部,得10分。

          那我們就得出,頁面TITLE得分9,正文加粗H1標簽得分8等等,DIV部分的AD部分得分0,丟棄。
          (以上舉例只為了參考,跟實際算法沒有關聯)

          搜索引擎進行網頁消重都要經過3個步驟,首先是特征抽?。ㄟ@其中涉及到I-Match算法、Shingle算法),然后相似度計算、評價是否相似,最后才是消重。

          事實上,搜索引擎算法和用戶交互的過程就是一個查詢的流程,比如用戶搜索“搜索引擎原理”,算法分詞后得到“搜索引擎”,“原理”,在倒排索引表中找到包含這兩個文檔列表,求交,然后將用戶查詢以及上一步找到文檔列表中被一條記錄進行向量化后,求查詢向量和文檔向量的相似度,然后從高到底排序,最后就是我們看到的最終搜索結果。

          三、排名

          最后就舉個例子作為結尾:

          搜索引擎網頁權重=網頁中詞項基本權重+鏈接權重+用戶評價權重

          網頁中詞項基本權重

          1、例如某個關鍵詞”搜索引擎”在<h1><b>搜索引擎</b></h1>的環境下,權重應該為:WBT=W+W, (h1)+W,(b)=10+12+4=26

          2、關鍵詞“搜索引擎”可能還在文檔中其他地方出現n次,每次出現都可以計算一個WBT1、WBT2、WBT3…WBTn,那么可以計算出整個文檔“搜索引擎”這個關鍵詞的權重為︰

          wBT(關鍵詞,網頁)=WBT,+ WBT,+…+WBTT=>wBT

          相關排序–鏈接權值的計算

          相關排序–用戶評價權值的計算

          ….

          最終權值的計算

          搜索引擎可以通過配置KWB、KWL、KWU來設置側重哪些因素影響權重,比如如果搜索引擎設置了KWL為0.8,KWB、KWU均為0.1,那么說明該搜索引擎更側重鏈接對權重的影響,通過這樣的算法,可以很輕松的算法上的調整。

          這是陽光明媚的一天,互聯網里風平浪靜,一切都是欣欣向榮。我就是在這樣一個平凡的日子里誕生了。我給自己起了個名字叫超,不過我的師哥師姐們都喜歡叫我小超。從出生的那...

          網上關于SEO優化的知識很多也很雜,很多新手都不知道如何選擇。本來耗子網站里每篇文章都有的詳細步驟的,考慮到很雜,于是耗子對各種SEO優化基礎知識進行了整理,但...

          今天,我給大家講講如何利用電影貼吧引流輕松變現。這個很適合新手。廢話不多說,直接上干貨。每上映一個新片子,只要這個片子有一定的熱度,馬上該片子的貼吧就會出現各種...

          尊敬的客戶,感謝您訪問邯鄲SEO公司官網。作為一家專業的網站優化公司,我們致力于提供全方位的網站SEO優化服務,幫助您的業務在競爭激烈的市場中脫穎而出。無論您的目標是在百度、谷歌、抖音等搜索引擎上獲得更多曝光,還是通過自媒體推廣提升品牌知名度,我們都能為您量身定制最合適的優化方案。一、邯鄲網站經營及特色介紹1. 百度SEO優化:通過深入研究百度搜索引擎算法,我們能夠為您的網站提供全面的百度SEO優...

          流行的網站開發技術您是否正在尋找網站開發,但不確定選擇哪種網頁開發技術?你是在正確的地方。本文列出了2021年你必須知道的所有流行的網站開發技術。如果您不精通技術并期待與網站建設公司合作,那么這個文章也非常適合您。您可以大致了解這些網頁開發技術。本文涵蓋了網站開發的所有基礎知識。為什么你應該了解網站開發技術?即使您聘請了網站開發公司,學習一點基礎知識也是一個好主意。對網站開發有基本了解的原因有很多...

          DNF有很多設置。這些設置可以讓你在游戲中有不同的感覺。它們非常實用。今天,讓我們談談六種常見但實用的技能,但許多玩家可能沒有使用過一兩種。一鍵聚物事實上,這個功能非常實用。無論是搬磚還是刷深淵,這個設置都應該是最具屬性的。然而,與打開和懸掛不同,每個副本只能使用一次。但當我現場直播時,很多玩家問這是怎么做到的。事實上,這很簡單。我們在設置中設置快捷鍵,找到聊天快捷鍵,輸入“/”和移動物品,在數字...

          TOP
          国产初高中生视频在线观看|亚洲一区中文|久久亚洲欧美国产精品|黄色网站入口免费进人
          1. <nobr id="easjo"><address id="easjo"></address></nobr>

              <track id="easjo"><source id="easjo"></source></track>
              1. 
                

              2. <bdo id="easjo"><optgroup id="easjo"></optgroup></bdo>
              3. <track id="easjo"><source id="easjo"><em id="easjo"></em></source></track><option id="easjo"><span id="easjo"><em id="easjo"></em></span></option>