主要原理:通過網站的超連接來里面的內容;

二. 抓取方式:
1.深度抓取,意思就是層層遞進法,從頁面1到頁面2,再從頁面3到頁面4,是一個縱向抓取式,基本大多數的企業網站都是這種深度抓取法,其特點就是抓取時間慢一些,大概是1-2天才能抓取并收錄。
2.另外一種就是廣度抓取法,簡單來就是橫向式抓取,只有權重高的網站才有廣度抓取,特點就是一次性抓取,速度快。
三.不利于抓取的內容:就是搜索平臺不能很容易地識別或者不能辯別的內容
1.JavaScript的程序語言,難識別不適合;
2.圖片,就單單一張圖片會增加搜索平臺的識別難度,所以圖片最好還是要Alt屬性;
3.Flash(視頻),搜索引擎一般都識別不了視頻的內容,所以一般在視頻的周圍來添加一些有關視頻內容的標題或者文字說明來有助識別;
4.iframe程序框架,難識別不適合;
5.嵌套table,其實說的就是程序所生成的表格列表,難識別不適合;
6.需要登錄信息或者設置權限的頁面
四.過濾:搜索引擎會過濾低質量的內容頁面
1.抄別人內容的,沒有任何價值或者對用戶沒有產生幫助的內容;
2.偏離主題,完全不對主題的;
3.內容過于簡單的,全廣告性質的;
五.存儲索引庫:就是搜索引擎確定你的網站內容是對用戶產生價值或者能幫助客戶解決問題的,搜索引擎就會把你的內容收錄并放到一個專門為有價值、好信息所建立的數據庫(等同于評分高的表現)