淺談搜索引擎的分類及特點(上)

2012-09-28 14:55 | 點擊次數（次）來源：在職研究生 | http://www.66882228.com

　　目前Internet上的搜索引擎按其工作方式主要可分為三種,分別是爬蟲式的搜索引擎(Spider Based Search Engine),目錄搜索引擎(Search Directory)和元搜索引擎(Meta Search Engine)。

　　一、爬蟲式的搜索引擎

　　基于爬蟲(也叫Spider)的搜索引擎利用一個稱為Spider的程序自動訪問Web站點,提取站點上的網頁,并根據網頁中的鏈接進一步提取其它網頁或轉移到其它站點上。Robot搜集的網頁被加入到搜索引擎的數據庫中供用戶查詢使用?；赟pider的搜索引擎山三個主要部分構成Spider, Index和搜索軟件。爬蟲從一個事先制定好的URLs列表出發,這個列表中的URLs通常是從以往訪問記錄中提取出來的,特別是一些熱門站點和“What´s New”網頁,從Usenet等地方檢索得到的URLs也常被用作起始URLs,很多搜索引擎還接受用戶提交的URLs,這些URLs也會被安排在列表中供爬蟲問列表中,如此遞歸地訪問Web。

　　爬蟲作為一個程序,可以用C, Perl, Java等語言來編寫,可以運行在Unix, Solaris, Windows, NT, OS2和MAC等平臺上。爬蟲設計是否合理將直接影響它訪問Web的效率,影響搜索數據庫的質量,另外在設計爬蟲時還必須考慮它對網絡和被訪問站點的影響,因為爬蟲一般都運行在速度快,帶寬高的主機上,如果它快速訪問一個速度比較慢的目標站點,就有可能會導致該站點出現阻塞甚至當機。Robot還應遵守一些協議,以便被訪問站點的管理員能夠確定哪些內容能被訪問,哪些不能。Index是一個龐大的數據庫,爬蟲提取的網頁將被放入到Index中以便建立索引,不同的搜索引擎會采取不同方式來建立索引,有的對整個HTML文件的所有單詞都建立索引,有的只分析HTML文件的標題或前幾段內容,還有的能處理HTML文件中的META標記或其它小可見的特殊標記。當用戶查詢一個關鍵詞時,搜索軟件將搜索Index,找出所有與關鍵詞相符合的網頁,有時候這些網頁可能有成千上萬,等級值的用途就是作為一種排序的依據,搜索軟件將按照等級值從高到低的順序把搜索結果送回到用戶的瀏覽器中。

　　這類搜索引擎因為依靠程序搜集數據,所以其數據庫相當龐大,搜索的結果查全率較高,但查準率較低。例如著名的搜索引擎Google, Baidu,A1taVista, InfoSeek等。

　　二、目錄搜索引擎

　　目錄搜索引擎的數據庫是依靠專職編輯或志愿人員建立起來的,這些編輯人員在訪問了某個Web站點后撰寫一段對該站點的描述,并根據站點的內容和性質將其歸為一個預先分好的類別,把站點的URL和描述放在這個類別中,當用戶查詢某個關鍵詞時,搜索軟件只在這些描述中進行搜索。很多目錄也接受用戶提交的網站和描述,當目錄的編輯人員認可該網站及描述后,就會將之添加到合適的類別中。目錄的結構為樹形結構,首頁提供了最基本的幾個大類的入口,用戶可以一級一級地向下訪問,直至找到自己感興趣的類別,另外,用戶也可以利用目錄提供的搜索功能直接查找一個關鍵詞。不過,由于目錄式搜索引擎只在保存了對站點的描述中進行搜索,因此站點本身的動態變化不會反映到搜索結果中來,這也是目錄式搜索引擎與基于Robot的搜索引擎之間的一大區別。

　　三、元搜索引擎

　　元搜索引擎也叫做Multiple Search Engine,元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,將結果進行相關處理,以整體統一的格式反饋給用戶。它的特點是本身并沒有存放網頁信息的數據庫。嚴格意義上來講,元搜索引擎只能算是一種用戶代理,而不是真正的搜索引擎。多數元搜索引擎在處理其它的搜索引擎返回結果時,只提取出每個搜索引擎的結果中考前的條目,然后將這些條目合并在一起返回給用戶,因此最后結果的數量可能會遠少于直接在一個搜索引擎上進行查找所得到的數量。

史老師

亚洲国产精品久久久久,国产大片免费在线观看,亚洲成在人线久久综合,成人免费网站视频www

淺談搜索引擎的分類及特點(上)