阿里解禁1050億美元股票:市場聚焦雅虎策略 |
發(fā)布時間:2016-03-19 文章來源: 瀏覽次數(shù):3712 |
Robots文件是網(wǎng)站和蜘蛛程序之間的“正人協(xié)議”——robots文件不僅僅可以節(jié)省網(wǎng)站的資源,還可以匡助蜘蛛更加有效的抓取網(wǎng),從而進步排名。 1:只答應谷歌bot 假如要攔截除谷歌bot之外的所有爬蟲: User-agent:* disallow:/ Uer-agent:答應的蜘蛛名 Disallow: 2:“/folder/”和“/folder”的區(qū)別 舉個例子: User-agent:* Disallow:/folder/ Disallow:/folder “Disallow:folder/”表示攔截的是一個目錄,該目錄文件下的所有文件不答應被抓取,但是答應抓取folder.hlml。 “Disallow:/folder”:對/folder/下的所有文件和folder.html都不能被抓取。 3:“*”匹配任意字符 User-agent:* 表示屏蔽所有的蜘蛛。當我們做了偽靜態(tài)處理之后,會同時又動態(tài)網(wǎng)頁和靜態(tài)網(wǎng)頁,網(wǎng)頁內容一模一樣,視為鏡態(tài)頁面,所以我們要屏蔽掉動態(tài)的網(wǎng)頁,可以用*號來屏蔽動態(tài)的網(wǎng)頁 User-agent:* Disallow:/?*?/ 4:$匹配網(wǎng)址結束 假如要攔截以某個字符串結束的網(wǎng)址,就可以使用$,例如,要攔截以.asp結束的網(wǎng)址: User-agent:* Disallow:/*.asp$ 也可以打開比較優(yōu)秀的網(wǎng)站,看他們的robots文件是如何書寫的,然后根據(jù)自己的需求進行相應的修改。Robots文件可以讓蜘蛛把更多的時間花在要抓取的內容上,所以優(yōu)化robots文件是很有必要的。 |
|