18202186162
17661491216
robots文件又叫robots協(xié)議,是搜索引擎抓取網(wǎng)站時(shí),抓取的第一個(gè)文件,存放在網(wǎng)站的根目錄下,一般以robots.txt命名;沒(méi)有robots協(xié)議就代表著蜘蛛可以抓取網(wǎng)站的所有頁(yè)面,會(huì)造成信息的泄露等情況;我們?cè)谧鼍W(wǎng)站時(shí)都需要寫(xiě)robots文件,過(guò)很多優(yōu)化人員對(duì)robots的規(guī)則不清楚,下面,一躺網(wǎng)絡(luò)網(wǎng)絡(luò)為您分享robots文件怎么寫(xiě),robots文件的作用是什么。
一、robots文件的作用是什么
1、明確告知蜘蛛可以抓取網(wǎng)站的哪些鏈接,不抓取網(wǎng)站的哪些鏈接,
2、保護(hù)網(wǎng)站隱私,例如網(wǎng)站的后臺(tái),網(wǎng)站的用戶信息等;
3、節(jié)省搜索引擎抓取資源,節(jié)省抓取資源;
4、統(tǒng)一路徑集中權(quán)重,禁止蜘蛛抓取重復(fù)的內(nèi)容;
5、屏蔽網(wǎng)站死鏈,不讓蜘蛛抓取404頁(yè)面,動(dòng)態(tài)頁(yè)面等。
二、robots文件怎么寫(xiě)-pbootcms網(wǎng)站robots協(xié)議示例:
User-agent: *
Disallow: /apps/
Disallow: /config/
Disallow: /core/
Disallow: /data/
Disallow: /doc/
Disallow: /rewrite/
Disallow: /runtime/
Disallow: /template/
#禁止抓取后臺(tái)
Disallow: /admin.php
Disallow: /api.php
#不允許抓取PHP文件、動(dòng)態(tài)鏈接,允許抓取tag
Disallow: /*.php
Disallow: /*?*
Allow: /*/?tag=*
#不允許抓取壓縮包
Disallow: /*.zip$
Disallow: /*.rar$
Disallow: /*.tar.gz$
Sitemap: http://www.aaa.com/sitemap.xml
三、robots協(xié)議中的語(yǔ)法屬性解釋:
User-agent: * 定義所有搜索引擎
Allow: 允許
Disallow: 禁止
User-agent: 定義搜索引擎
* 代表所有*是一個(gè)通配符。
$ 結(jié)束
/ 代表根目錄或一個(gè)文件夾
Disallow: / 禁止抓取網(wǎng)站的所有內(nèi)容
Disallow: /admin/ 禁止爬尋admin目錄下面的目錄。
Disallow: /*?* 禁止訪問(wèn)網(wǎng)站中所有包含問(wèn)號(hào) (?) 的網(wǎng)址。
Disallow: /*.jpg$ 禁止抓取網(wǎng)頁(yè)所有的jpg格式的圖片。
Disallow: /plus/ 屏敝插件
Disallow: /Baiduspider 禁止百度蜘蛛
Disallow: /include 禁止以include開(kāi)頭的文件和這個(gè)文件夾的所有內(nèi)容
Disallow: /include/ 禁止這個(gè)文件夾,不能訪問(wèn)include/aaa.html 能訪問(wèn)include.html和includeaaa.html
Allow: /include/data/ 允許抓取這個(gè)文件
Sitemap: /sitemap.html 告訴爬蟲(chóng)這個(gè)頁(yè)面是網(wǎng)站地圖
四、robots文件書(shū)寫(xiě)注意事項(xiàng)
首字母用英文狀態(tài)下的大寫(xiě) :號(hào)要在英文狀態(tài)下寫(xiě)入, :號(hào)后面一定要有一個(gè)空格;書(shū)寫(xiě)完成上傳根目錄,需要驗(yàn)證檢查是否屏蔽正常的鏈接以及是否完成鏈接的屏蔽。
以上就是一躺網(wǎng)絡(luò)為您帶來(lái)的關(guān)于robots文件怎么寫(xiě),robots文件的作用是什么的分享,robots是做好網(wǎng)站優(yōu)化非常重要的一個(gè)步驟,歡迎您聯(lián)系在線客服獲取更多的相關(guān)知識(shí)。
本文標(biāo)簽: robots文件怎么寫(xiě) robots文件的作用是什么
全國(guó)服務(wù)熱線