深圳網站建設公司分享:robots文件常見知識
對于很多剛做網站優化的SEO新人來說,robots文件似乎是可有可無的。但是要知道,搜索引擎蜘蛛爬行的第一個文件就是robots文件。因為robots文件可以告訴他,那些可以抓取,那些不可以抓取,哪個目錄可以爬行,哪個目錄不可以爬行。如果在做優化的時候,忽略掉了robots文件文件,很容易讓自己吃虧的。
今天,小編就根據自己過往的網站優化經驗,為大家分享一下robots文件的一下知識吧。
*是指所有的意思
User-agent
爬蟲抓取時會聲明自己的身份,這就是User-agent,如果這個規則適用于所有搜索引擎的話,寫法:User-agent:* 如果單獨適用于百度的話User-agent:Baiduspider
(附一些搜索引擎的名字:百度Baiduspider|谷歌Googlebot|360蜘蛛:360Spider|SOSO蜘蛛:Sosospider|雅虎蜘蛛:Yahoo!|有道蜘蛛:YoudaoBot|搜狗蜘蛛:Sogou News Spider|MSN蜘蛛:msnbot/msnbot-media|必應蜘蛛:bingbot/compatible|一搜蜘蛛:YisouSpider|Alexa蜘蛛:ia_archiver|宜sou蜘蛛:EasouSpider|即刻蜘蛛:JikeSpider|一淘網蜘蛛:EtaoSpider)
搜索引擎爬蟲在爬行robots文件時,會先聲明自己的身份,這就是User-agent。如果說,這個文件是所有搜索引擎都可以訪問的話,就應該寫成:User-agent:*。如果是單獨允許某個搜索引擎爬行的話,如單獨允許百度爬行,就應該寫成:User-agent:Baiduspider。
(在這里順便為大家分享一些搜索引擎的名字:百度:Baiduspider、谷歌:Googlebot、360蜘蛛:360Spider、SOSO蜘蛛:Sosospider、雅虎蜘蛛:Yahoo!、有道蜘蛛:YoudaoBot、搜狗蜘蛛:Sogou News Spider、MSN蜘蛛:msnbot/msnbot-media、必應蜘蛛:bingbot/compatible)
DisallowDisallow 列出的是要禁止抓取的的網頁和規則,后面用/代表層次關系
Disallow:/(代表著禁止抓取網站所有內容)
Disallow:/abc(禁止抓取abc及其層次下的內容)
Disallow:/abc/(禁止抓取abc層次下的內容,但是允許抓abc)
Disallow:/*.png(禁止抓取png的圖片,其他格式的也這樣寫比如禁止抓網站中的PPT后綴文件是Disallow:/*.PPT)
Disallow:/abc/*.png(禁止訪問abc層次下的PNG圖片,其他格式也是)
Disallow:/*?*(屏蔽站內所有動態URL,因為動態地址都帶?所有可以用這種形式,其他的字符也可以)
Disallow:/abc/*?*(只屏蔽abc層次下的動態地址)
Disallow:/*?/(屏蔽動態層次下的內容,比如有些文章或欄目是網址/?14125這樣URL,這樣可以讓抓取文章,也可以屏蔽后面內容)
Disallow:/abc/*?/(屏蔽abc欄目下的動態層次下的內容)
其他的按照這個思路靈活使用就行了
Allow
Allow代表允許訪問抓取的意思。
Allow一定放在disallow的前面才能不受disallow的影響,比如禁止所有動態后,想要排除一個欄目,寫法如下:
Allow:/abc
disallow:/*?*
其他的寫法參考disallow的邏輯。
sitemap
這個蛀牙是用來告訴蜘蛛,網站的地圖在哪里,寫法如下:
sitemap:網址/sitemap.xml
Crawl-delay
這個是用來控制搜索引擎抓取頻率的。一般來說,搜索引擎過于頻繁的來網站抓取,會對網站服務器造成一定負擔的。所以,我們需要用這個來控制搜索引擎的抓取頻率。寫法如下:
User-agent:Baiduspider
Crawl-delay:10
這句話的意思是:百度你抓取的頻率太高了,抓取一次后,需要等10秒才能進行一下車抓取。
還有就是不讓顯示快照:
在你不想展示快照頁面的head標簽中加入 meta name=“robots” content=“noarchive”(禁止所有搜索引擎產生快照)
在你不想展示某個搜索引擎出現快照頁面的head標簽中加入 meta name=“360Spider” content=“noarchive”(禁止360產生快照,name后面的換成蜘蛛名字即可)
看到這里,是不是對robots文件有了一定了解了。其實,robots文件還有很多知識點的。希望下次小編有機會分享給大家吧。