午夜大片爽爽爽免费影院丨色综合色综合久久综合频道88丨日韩人妻无码中文字幕视频丨一本无码久本草在线中文字幕dvd丨国产午夜亚洲精品国产成人

搜索引擎工作原理什么?網絡爬蟲,“蜘蛛”又是什么?

2020/11/19 11:20:29   閱讀:3135    發布者:3135


當我們在輸入框中輸入關鍵詞,點擊搜索或查詢時,然后得到結果。深究其背后的故事,搜索引擎做了很多事情。

首先在互聯網中發現、搜集網頁信息;同時對信息進行提取和組織建立索引庫;再由檢索器根據用戶輸入的查詢關鍵字,在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并將查詢結果返回給用戶。


在搜索引擎網站,比如百度,在其后臺有一個非常龐大的數據庫,里面存儲了海量的關鍵詞,而每個關鍵詞又對應著很多網址,這些網址是百度程序從茫茫的互聯網上一點一點下載收集而來的,這些程序稱之為“搜索引擎蜘蛛”或“網絡爬蟲”。

這些勤勞的“蜘蛛”每天在互聯網上爬行,從一個鏈接到另一個鏈接,下載其中的內容,進行分析提煉,找到其中的關鍵詞,如果“蜘蛛”認為關鍵詞在數據庫中沒有而對用戶是有用的便存入數據庫。反之,如果“蜘蛛”認為是垃圾信息或重復信息,就舍棄不要,繼續爬行,尋找最新的、有用的信息保存起來提供用戶搜索。當用戶搜索時,就能檢索出與關鍵字相關的網址顯示給訪客。


一個關鍵詞對用多個網址,因此就出現了排序的問題,相應的當與關鍵詞最吻合的網址就會排在前面了。在“蜘蛛”抓取網頁內容,提煉關鍵詞的這個過程中,就存在一個問題:“蜘蛛”能否看懂。如果網站內容是flash和js,那么它是看不懂的,會犯迷糊,即使關鍵字再貼切也沒用。相應的,如果網站內容是它的語言,那么它便能看懂,它的語言即SEO。

搜索引擎的基本工作原理包括如下三個過程:

  • 抓取網頁。每個獨立的搜索引擎都有自己的網頁抓取程序爬蟲(spider)。爬蟲Spider順著網頁中的超鏈接,從這個網站爬到另一個網站,通過超鏈接分析連續訪問抓取更多網頁。被抓取的網頁被稱之為網頁快照。由于互聯網中超鏈接的應用很普遍,理論上,從一定范圍的網頁出發,就能搜集到絕大多數的網頁。


  • 處理網頁。搜索引擎抓到網頁后,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引庫和索引。其他還包括去除重復網頁、分詞(中文)、判斷網頁類型、分析超鏈接、計算網頁的重要度/豐富度等。


  • 提供檢索服務。用戶輸入關鍵詞進行檢索,搜索引擎從索引數據庫中找到匹配該關鍵詞的網頁;為了用戶便于判斷,除了網頁標題和URL外,還會提供一段來自網頁的摘要以及其他信息。

主站蜘蛛池模板: 国产综合一区二区三区黄页秋霞| 四虎国产精品免费永久在线| 国产交换配偶在线视频| 欧美国产精品久久久乱码| 伦埋琪琪电影院久久| 国产白丝jk捆绑束缚调教视频| 四虎国产精品永久一区高清| 无码少妇一区二区| 国产高清一国产av| 国产亚洲精品美女久久久久| 欧美成人免费va影院高清| 亚洲国产精品久久久久婷蜜芽| 国产精品无码av片在线观看播放| 纯肉无遮挡无码日本动漫| 欧美日产欧美日产国产精品 | 各种少妇正面bbw撒尿| 亚洲国产精品无码久久网速快| 婷婷丁香五月中文字幕| 在线看片国产日韩欧美亚洲| 精品国产福利在线视频| 亚洲精品久久久久久| 大伊香蕉精品一区二区| 99国产欧美另类久久久精品| 国产精品午夜小视频观看| 精品亚洲aⅴ在线无码播放| 国产艳妇av在线出轨| 国精产品一区二区三区有限公司 | 无码熟熟妇丰满人妻啪啪| 国产人妻精品区一区二区三区| 特级毛片a片久久久久久| 亚洲欧美日韩中文字幕在线一区| 亚洲精品国产一区二区三区在线观看| 欧美特级特黄aaaaaa在线看| 国产精品导航一区二区| 六月丁香亚洲综合在线视频| 亚洲日本中文字幕乱码中文| 色 亚洲 日韩 国产 综合| 在线播放午夜理论片| 鲁鲁夜夜天天综合视频| 亚洲私人无码综合久久网| 午夜福利午夜福利1000|