當前位置: 首頁(yè) > 搜索引擎推廣

搜索引擎推廣

聊聊搜索引擎的幾個(gè)重要概念詞匯

來(lái)源: 上海網(wǎng)站制作    發(fā)布日期: 2017-10-20 15:33    點(diǎn)擊量: 14798

  今天我們上海網(wǎng)站制作公司聊聊關(guān)于搜索引擎搜錄網(wǎng)頁(yè)的幾個(gè)相關(guān)概念,希望能夠讓大家更好理解搜索引擎的工作原理,幫助大家提升網(wǎng)站優(yōu)化方面的技能。搜索引擎相關(guān)的幾個(gè)詞是:爬行,抓取,索引,收錄。


  關(guān)于爬行與抓取

  爬行是指搜索引擎蜘蛛在頁(yè)面上沿著(zhù)鏈接發(fā)現新頁(yè)面,然后“爬”過(guò)去抓取新頁(yè)面。抓取是指蜘蛛發(fā)現新頁(yè)面后,打開(kāi)頁(yè)面,把頁(yè)面HTML代碼存入自己的數據庫。通常引文是用crawlspider(這里是動(dòng)詞)表示搜索引擎的爬行的工作。

顯然,爬行和抓取是相互交織的。抓取是實(shí)際發(fā)生的我們能夠觀(guān)察到的過(guò)程,在原始日志中,蜘蛛的抓取是有完整記錄的,比如:抓取確切時(shí)間、狀態(tài)碼、抓取的文件是哪個(gè)、抓取了多大文件等等。蜘蛛對頁(yè)面的抓取就和瀏覽器讀取文件是完全一樣的。

這里,人們使用爬行這個(gè)詞來(lái)形容搜索引擎對網(wǎng)站的訪(fǎng)問(wèn),很形象,這里我們上海網(wǎng)站制作公司需要說(shuō)明的是,實(shí)際上并不存在蜘蛛抓取文件時(shí)發(fā)現鏈接然后立即跟蹤過(guò)去這樣一個(gè)過(guò)程。蜘蛛抓取文件后存入數據庫,程序解析出文件中的鏈接后將 URL存入頁(yè)面地址庫,然后蜘蛛從地址庫中按一定規則選取URL進(jìn)行抓取。蜘蛛不是真的訪(fǎng)問(wèn)頁(yè)面時(shí)看到一個(gè)URL就爬過(guò)去。

  關(guān)于索引與收錄

  索引指的是將一個(gè)URL的信息進(jìn)行各種整理,如去重、分詞等等,然后將關(guān)于這個(gè)URL的信息存入數據庫,被稱(chēng)為索引庫。真正用于搜索的是倒排索引,以后如果有機會(huì )的話(huà),我們上海網(wǎng)站制作公司再為大家講講這方面的內容。要注意的是,索引庫中關(guān)于URL的信息不僅是組成頁(yè)面內容的關(guān)鍵詞及其特征(位置、格式等),還有鏈接、更新情況等信息。英文索引這個(gè)詞是 index。

  收錄也是很多網(wǎng)站制作與優(yōu)化技術(shù)人員關(guān)心也最常用的詞,其實(shí)也是4個(gè)概念中最不明確的。被收錄指的是我們能查到頁(yè)面被搜索引擎存入了索引庫。但后面我們會(huì )看到,進(jìn)入索引庫的URL并不一定被抓取過(guò),這和SEO們的直覺(jué)可能是不一樣的。


  理解了搜索引擎的這幾個(gè)概念,我們上海網(wǎng)站制作公司認為,以后大家在網(wǎng)站制作的時(shí)候就清楚怎么做才能讓搜索引擎喜歡我們的網(wǎng)站了。

  本文由上海藝覺(jué)網(wǎng)絡(luò )科技有限公司(http://www.wolfgangpack.com)原創(chuàng )編輯轉載請注明

 

 


相關(guān)新聞

CONTACT USCAREERSFOODSERVICEPRESSPRIVACY POLICY
? 2014 yijueweb. All rights reserved.
?