2023-03-31 分類: 網站建設
robots.txt 文件是告訴搜索引擎它可以和不能在您的網站上的主要方式之一。 所有主流搜索引擎都支持它提供的基本功能,但其中一些搜索引擎會響應一些額外的規則,這些規則也很有用。 本指南涵蓋了在您的網站上使用 robots.txt 所有方法,但是,雖然它看起來很簡單,但您在 robots.txt 所犯的任何錯誤都可能嚴重損害您的網站,因此請務必先閱讀并理解本文的內容。你潛入水中
什么是 robots.txt 文件?
robots.txt 文件有什么作用?
我應該把 robots.txt 文件放在哪里?
使用 robots.txt 利弊
Pro:管理抓取預算
Con:不從搜索結果中刪除頁面
Con:沒有傳播鏈接值
robots.txt 語法
User-agent 指令
搜索引擎蜘蛛最常見的用戶代理
Disallow 指令
如何使用通配符/正則表達式
非標準 robots.txt 抓取指令
Allow 指令
host 指令
crawl-delay 指令
XML Sitemaps 的 sitemap 指令
驗證您的 robots.txt
什么是 robots.txt 文件?
抓取指令
robots.txt 文件是許多爬網指令之一。 我們有所有這些指南,你會在這里找到它們:
Yoast 的爬行指令指南?
robots.txt 文件是一個文本文件,由搜索引擎蜘蛛讀取并遵循嚴格的語法。 這些蜘蛛也被稱為機器人 – 因此名稱 – 文件的語法是嚴格的,因為它必須是計算機可讀的。 這意味著這里沒有錯誤的余地 – 有的是 1 或 0。
robots.txt 文件也稱為“機器人排除協議”,是早期搜索引擎蜘蛛開發者達成共識的結果。 它不是任何標準組織設定的官方標準,但所有主要搜索引擎都遵守它。
robots.txt 文件有什么作用?
humans.txt
曾幾何時,一些開發人員坐下來決定,因為網絡應該是針對人類的,并且由于機器人在網站上獲取文件,構建它的人也應該有一個。 因此,他們創建了 human.txt 標準,作為讓人們了解誰在網站上工作的一種方式。
搜索引擎通過抓取頁面,從站點 A 到站點 B 到站點 C 的鏈接來索引 Web,依此類推。 在搜索引擎捕獲之前未遇到過的域上的任何頁面之前,它將打開該域的 robots.txt 文件,該文件告訴搜索引擎該站點上允許哪些 URL 進行索引。
搜索引擎通常會緩存 robots.txt 的內容,但通常會每天刷新幾次,因此更改會很快反映出來。
我應該把 robots.txt 文件放在哪里?
robots.txt 文件應始終位于您域的根目錄下。 因此,如果您的域名是 www.example.com,請訪問 https://www.example.com/robots.txt 。
您的 robots.txt 文件實際上名為 robots.txt 也非常重要。 該名稱區分大小寫,因此請正確使用或不起作用。
使用 robots.txt 利弊
Pro:管理抓取預算
通常可以理解的是,搜索蜘蛛到達一個網站,該網站具有預先確定的“允許數量”,用于表示它將抓取多少頁面(或者根據網站的權限/大小/聲譽,將花費多少資源/時間),和 SEO 稱之為爬行預算。 這意味著,如果您從搜索引擎蜘蛛中阻止網站的各個部分,則可以允許將抓取預算用于其他部分。
阻止搜索引擎抓取您網站中有問題的部分有時非常有用,尤其是在必須進行大量 SEO 清理的網站上。 一旦你整理好了東西,就可以讓他們回來。
關于阻止查詢參數的說明
爬網預算特別重要的一種情況是,您的站點使用大量查詢字符串參數進行篩選和排序。 假設您有 10 個不同的查詢參數,每個參數都有不同的值,可以任意組合使用。 這導致數百甚至數千個可能的 URL。 阻止所有查詢參數被抓取將有助于確保搜索引擎僅捕獲您網站的主要 URL,并且不會進入您以其他方式創建的巨大陷阱。
此行會阻止您網站上包含查詢字符串的所有網址:
不允許: /*?*
Con:不從搜索結果中刪除頁面
即使你可以使用 robots.txt 文件告訴蜘蛛它無法進入你的網站,你也無法使用它告訴搜索引擎哪些網址不會顯示在搜索結果中 – 換句話說,阻止它不會阻止它被編入索引。 如果搜索引擎找到足夠的鏈接到該 URL,它將包含它,它將不知道該頁面上的內容。 所以你的結果看起來像這樣:
如果要可靠地阻止頁面顯示在搜索結果中,則需要使用元機器人 noindex 標記。 這意味著,為了找到 noindex 標記,搜索引擎必須能夠訪問該頁面,因此不要使用 robots.txt 阻止它。
Noindex 指令
對于在 robots.txt 文件中添加“noindex”指令是否可以控制索引行為,以及避免這些“碎片”出現在搜索引擎中,它仍然是搜索引擎優化的研究和爭論的持續領域。 測試結果各不相同,搜索引擎不清楚支持的內容和不支持的內容。
Con:沒有傳播鏈接值
如果搜索引擎無法抓取網頁,則無法在該網頁上的鏈接上傳播鏈接值。 當一個頁面被 robots.txt 阻止時,它就是一個死胡同。 可能已經流入(并通過)該頁面的任何鏈接值都將丟失。
robots.txt 語法
WordPress robots.txt
我們有一篇關于如何最好地為 WordPress 設置 robots.txt 文章。 不要忘記您可以在 Yoast SEO 工具→文件編輯器部分編輯您網站的 robots.txt 文件。
robots.txt 文件由一個或多個指令塊組成,每個指令塊都以用戶代理行開頭。 “user-agent”是它所針對的特定蜘蛛的名稱。 您可以為所有搜索引擎使用一個塊,為用戶代理使用通配符,或為特定搜索引擎使用特定塊。 搜索引擎蜘蛛將始終選擇與其名稱最匹配的塊。
這些塊看起來像這樣(不要害怕,我們將在下面解釋):
用戶代理: *
不允許: /
用戶代理:Googlebot
不允許:
用戶代理:bingbot
禁止:/ not-for-bing /
Allow 和 Disallow 等指令不應區分大小寫,因此無論您是將它們寫成小寫還是大寫它們都取決于您。 值不區分大小寫,但/photo/與/Photo/ 。 我們喜歡將指令大寫,因為它使文件更容易(供人類使用)閱讀。
User-agent 指令
每個指令塊的第一位是用戶代理,它標識一個特定的蜘蛛。 用戶代理字段與特定蜘蛛(通常更長)的用戶代理進行匹配,因此例如來自 Google 的最常見蜘蛛具有以下用戶代理:
Mozilla / 5.0(兼容; Googlebot / 2.1; + http://www.google.com/bot.html)
因此,如果你想告訴這個蜘蛛該做什么,一個相對簡單的 User-agent: Googlebot 線就可以了。
大多數搜索引擎都有多個蜘蛛。 他們將使用特定的蜘蛛作為正常索引,廣告程序,圖片,視頻等。
搜索引擎將始終選擇他們可以找到的最具體的指令塊。 假設你有 3 組指令:一組用于* ,一組用于 Googlebot ,一組用于 Googlebot-News 。 如果機器人來自其用戶代理是 Googlebot-Video ,它將遵循 Googlebot restrictions 。 使用用戶代理 Googlebot-News 的機器人將使用更具體的 Googlebot-News 指令。
搜索引擎蜘蛛最常見的用戶代理
以下是您可以在 robots.txt 文件中使用的用戶代理列表,以匹配最常用的搜索引擎:
搜索引擎 領域 用戶代理
百度 一般 baiduspider
百度 圖片 baiduspider-image
百度 移動 baiduspider-mobile
百度 新聞 baiduspider-news
百度 視頻 baiduspider-video
兵 一般 bingbot
兵 一般 msnbot
兵 圖像和視頻 msnbot-media
兵 廣告 adidxbot
谷歌 一般 Googlebot
谷歌 圖片 Googlebot-Image
谷歌 移動 Googlebot-Mobile
谷歌 新聞 Googlebot-News
谷歌 視頻 Googlebot-Video
谷歌 AdSense 的 Mediapartners-Google
谷歌 AdWords 的 AdsBot-Google
雅虎 一般 slurp
Yandex 的 一般 yandex
Disallow 指令
任何指令塊中的第二行是 Disallow 行。 您可以擁有一行或多行,指定指定蜘蛛無法訪問的站點部分。 空的 Disallow 行意味著您不會禁止任何內容,因此基本上這意味著蜘蛛可以訪問您網站的所有部分。
以下示例將阻止所有“收聽” robots.txt 搜索引擎抓取您的網站。
用戶代理: *
不允許: /
下面的示例只允許一個字符, 允許所有搜索引擎抓取整個網站。
用戶代理: *
不允許:
下面的示例將阻止 Google 抓取您網站上的 Photo 目錄 – 以及其中的所有內容。
用戶代理:googlebot
禁止:/照片
這意味著/Photo 目錄的所有子目錄也不會被蜘蛛俠。 它不會阻止 Google 抓取/photo 目錄,因為這些行區分大小寫。
這也會阻止 Google 訪問包含/Photo 網址,例如/Photography/ 。
如何使用通配符/正則表達式
“官方”, robots.txt 標準不支持正則表達式或通配符,但是,所有主要搜索引擎都理解它。 這意味著你可以使用這樣的行來阻止文件組:
禁止:/ *。php
禁止:/copyrighted-images/*.jpg
在上面的示例中, *擴展為它匹配的任何文件名。 請注意,該行的其余部分仍區分大小寫,因此上面的第二行不會阻止名為/copyrighted-images/example.JPG 的文件被爬網。
一些搜索引擎,如谷歌,允許更復雜的正則表達式,但要注意一些搜索引擎可能不理解這種邏輯。 它添加的最有用的功能是$ ,表示 URL 的結尾。 在以下示例中,您可以看到它的作用:
不允許:/*.php $
這意味著/index.php 無法編入索引,但/index.php?p=1 可能是。 當然,這僅在非常特殊的情況下才有用,而且非常危險:很容易解鎖您實際上不想解鎖的內容。
非標準 robots.txt 抓取指令
除 Disallow 和 User-agent 指令外,還有一些其他爬行指令可供使用。 所有搜索引擎抓取工具都不支持這些指令,因此請確保您了解其限制。
Allow 指令
雖然沒有在原始的“規范”中,但很早就有一個關于 allow 指令的討論。 大多數搜索引擎似乎都理解它,它允許這樣簡單,非常易讀的指令:
禁止:/ wp-admin /
允許:/wp-admin/admin-ajax.php
在沒有 allow 指令的情況下實現相同結果的唯一方法就是專門 disallow wp-admin 文件夾中的每個文件。
host 指令
在 Yandex(而不是 Google,盡管有些帖子說)的支持下,該指令可讓您決定是否希望搜索引擎顯示 example.com 或 www.example.com 。 簡單地指定它就可以了:
主持人:example.com
但是因為只有 Yandex 支持 host 指令,所以我們不建議你依賴它,特別是因為它不允許你定義一個方案(http 或 https)。 適用于所有搜索引擎的更好的解決方案是 301 將您不想要的索引中的主機名重定向到您想要的版本。 在我們的案例中,我們將 www.yoast.com 重定向到 yoast.com。
crawl-delay 指令
Yahoo!,Bing 和 Yandex 有時候可能非常容易抓狂,但幸運的是它們都響應了 crawl-delay 指令,這會降低它們的速度。 雖然這些搜索引擎閱讀指令的方式略有不同,但最終結果基本相同。
像下面這樣的一行將指示雅虎! 并且 Bing 在爬行動作后等待 10 秒,而 Yandex 只會在每 10 秒鐘訪問一次您的站點。 這是一個語義差異,但仍然有趣。 這是 crawl-delay 的示例:
爬行延遲:10
使用 crawl-delay 指令時要小心。 通過設置 10 秒的爬網延遲,您只允許這些搜索引擎每天訪問 8,640 頁。 這對于一個小型網站來說似乎很多,但在大型網站上它并不是很多。 另一方面,如果您接下來沒有來自這些搜索引擎的流量,這是節省一些帶寬的好方法。
XML Sitemaps 的 sitemap 指令
使用 sitemap 指令,您可以告訴搜索引擎 – 特別是 Bing,Yandex 和 Google – 在哪里可以找到您的 XML 站點地圖。 當然,您也可以使用各自的網站管理員工具解決方案將 XML 站點地圖提交給每個搜索引擎,我們強烈建議您這樣做,因為搜索引擎網站管理員工具程序會為您提供有關您網站的大量有價值信息。 如果您不想這樣做,將 sitemap 行添加到您的 robots.txt 是一個很好的快速替代方案。
驗證您的 robots.txt
有各種各樣的工具可以幫助您驗證 robots.txt ,但在驗證爬網指令時,我們總是更喜歡轉到源代碼。 Google 在其 Google 搜索控制臺中有一個 robots.txt 測試工具(在“舊版本”菜單下),我們強烈推薦使用它:
robots.txt 測試員
在您將其更改之前,請務必徹底測試您的更改! 你不會是第一個不小心使用 robots.txt 阻止整個網站,并進入搜索引擎遺忘!
當前文章:后羿SEOrobots.txt的終極指南
本文地址:http://newbst.com/news19/249269.html
成都網站建設公司_創新互聯,為您提供電子商務、移動網站建設、網站收錄、小程序開發、做網站、品牌網站建設
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯
猜你還喜歡下面的內容