內容為王、外鏈為皇的搜索引擎優(yōu)化理念

發(fā)布時間：2015-05-05 文章來源：瀏覽次數(shù)：3892

有效使用robots.txt

一個robots.txt文件可以告訴搜索引擎你網站的哪些部門答應它去抓取。而這個文件不旦必需命名成”robots.txt”,還得放在你網站的根目錄上。

所有的遵循這一規(guī)則的搜索引擎爬蟲(按照通配符*指示的那樣)不應該進入并抓取/images/或者任何以/search開頭的url里的內容。

你也許并不但愿你網站的一些頁面被抓取到，由于假如它們泛起在搜索結果里對用戶可能是沒多大意義的。假如你想阻止搜索引擎爬取你的網頁，Google網站治理員工具有一個很好用的robots.txt天生器來匡助你創(chuàng)建這個文件。另外假如你但愿子域名里的一些內容不被爬取，你需要在子域名的目錄下再新建一個robots.txt文件。你也可以在我們的網站治理員匡助中央獲得更多關于robots.txt的信息。

這里也有其它更便捷的方式來阻止你的內容泛起在搜索結果里，好比說在robots meta標簽里添加”NOINDEX”，使用htaccess來為一些目錄加密或者使用Google網站治理員工具來移除某些已經被索引的內容。Google工程師 Matt Cutts一個匡助視頻里粗略地先容了各種URL排除原理的留意事項。

robots.txt實踐經驗

為那些敏感的內容使用更加安全的方案——通過robots.txt來阻止一些敏感或者秘要的內容。之所以這樣做的是由于假如那些你在robots.txt里阻止的鏈接泛起互聯(lián)網上(好比說來源記實)，搜索引擎就很可能引用這些URLs(不外僅難是URL，不會含有標題或者內容片斷)。還有一些不遵守機器人排除尺度的流氓搜索引擎則會違反robots.txt上的指令。最后一些好奇的用戶就會去查看你robots.txt是聲明阻止的目錄或者子目錄，并預測那些你不想被看到的內容。所以對內容加密或者通過 .htaccess實現(xiàn)密碼保護會是更安全的選擇。當然你需要避免：

1.答應看起來像搜索結果一樣的頁面被爬取。(用戶并不喜歡扔給自己一張搜索頁面，全是一些沒有多大意義的結果。)

2.答應大量的自動天生的頁面被抓取，而里面大多都是相同或者差異甚微的內容。“像這些100000張幾乎像復制的頁面被搜索引擎索引了有多大意義呢?”

3.答應代辦代理服務器創(chuàng)建的URLs被爬取.
知識增補：Robots.txt

robots.txt(同一小寫)是一種存放于網站根目錄下的ASCII編碼的文本文件，它通常告訴網絡搜索引擎的周游器(又稱網絡蜘蛛)，此網站中的哪些內容是不能被搜索引擎的周游器獲取的，哪些是可以被(周游器)獲取的。由于一些系統(tǒng)中的URL是大小寫敏感的，所以robots.txt的文件名應同一為小寫。robots.txt應放置于網站的根目錄下。假如想單獨定義搜索引擎的周游器訪問子目錄時的行為，那么可以將自定的設置合并到根目錄下的robots.txt，或者使用robots元數(shù)據。

Robots.txt協(xié)議并不是一個規(guī)范，而只是商定俗成的，所以并不能保證網站的隱私。留意Robots.txt是用字符串比較來確定是否獲取URL，所以目錄末尾有和沒有斜杠“/”這兩種表示是不同的URL，也不能用"Disallow: *.gif"這樣的通配符。

這個協(xié)議也不是一個規(guī)范，而只是商定俗成的，通常搜索引擎會識別這個元數(shù)據，不索引這個頁面，以及這個頁面的鏈出頁面。

上一條：網站優(yōu)化過程中百度快照對...

下一條：網站優(yōu)化過程中軟文的寫作...