robots協議也就是與搜索引擎簽訂的一份“君子協議”。通常搜索引擎到網站來抓取第一個抓取的就是robots,網站通過robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。Robots協議是國際互聯網界通行的道德規范,其目的就是保護網站數據和敏感信息、以確保用戶個人信息和隱私不被侵犯。因為不是強制性的協議,故需要搜索引擎自覺遵守這份“君子協議”。
robots協議的寫法
Disallow:禁止抓取
Allow:允許抓取
User-agent: * 這里的*代表了所有的搜索引擎,* 號是一個通配符代表了所有。
Disallow: /html/ 禁止抓取html目錄下面的所有內容。
Disallow: /admin/*.html 禁止訪問/admin/目錄下的所有以”.html”為后綴的鏈接
Disallow: /*?* 禁止抓取鏈接中帶有“?”的所有路徑。
Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片。
Disallow: /admin/123.html 禁止抓取admin文件夾下面的123.html文件。
Allow: /html/ 這里定義是允許抓取html目錄下面的內容
Allow: .html$ 僅允許抓取以”.htm”為后綴的鏈接。
Allow: .jpg$ 允許抓取網頁所有的jpg格式圖片
Sitemap: 網站地圖 。
robots寫法注意事項:
1::與/之間一定要加個小寫空格
2:在寫的時候全程用小寫,第一個字母用大寫。
3:一定不要寫錯了,寫完了仔細檢查一下,盡量不要禁止讓蜘蛛抓取全站。
上一篇:百度搜索引擎的工作原理
下一篇:網站優化如何打造高質量外鏈?
掃一掃 加微信咨詢