robots.txt協議的作用及寫法

作者：織晶客服部發布于：2016/10/14 9:44:44 點擊量：來源：織晶網絡

robots協議也就是與搜索引擎簽訂的一份“君子協議”。通常搜索引擎到網站來抓取第一個抓取的就是robots,網站通過robots協議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取。Robots協議是國際互聯網界通行的道德規范，其目的就是保護網站數據和敏感信息、以確保用戶個人信息和隱私不被侵犯。因為不是強制性的協議，故需要搜索引擎自覺遵守這份“君子協議”。

robots協議的寫法

Disallow:禁止抓取

Allow：允許抓取

User-agent: * 這里的*代表了所有的搜索引擎，* 號是一個通配符代表了所有。

Disallow: /html/ 禁止抓取html目錄下面的所有內容。

Disallow: /admin/*.html 禁止訪問/admin/目錄下的所有以”.html”為后綴的鏈接

Disallow: /*?* 禁止抓取鏈接中帶有“？”的所有路徑。

Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片。

Disallow: /admin/123.html 禁止抓取admin文件夾下面的123.html文件。

Allow: /html/　這里定義是允許抓取html目錄下面的內容

Allow: .html$ 僅允許抓取以”.htm”為后綴的鏈接。

Allow: .jpg$ 允許抓取網頁所有的jpg格式圖片